1-0. 총 정리
머신러닝 개념 | 데이터에서 패턴 학습 → 예측/분류 수행 |
머신러닝, 딥러닝, AI | AI > 머신러닝 > 딥러닝 |
머신러닝 vs 통계 | 예측 성능 vs 가설 검증 |
머신러닝 학습 종류 | 지도학습, 비지도학습, 강화학습 |
모델링 프로세스 | 데이터 수집 → 전처리 → 모델링 → 평가 → 최적화 → 배포 |
실무 팁 | 80% = 잘 정리된 데이터 / 20% = 모델링과 튜닝 현업 프로젝트에서는 도메인 지식과 머신러닝 지식의 협업이 필수 |
기타 Q&A | 데이터가 적으면 머신러닝을 적용하기 어렵나요? 데이터가 적으면 모델이 제대로 학습하기 어려우므로, 데이터 증강(Augmentation)이나 다양한 테크닉(Transfer Learning 등) 활용이 필요 실무에서 실시간 예측이 가능할까요? 가능합니다, 다만 딥러닝의 경우 지연 시간(latency)과 컴퓨팅 자원에 주의해야 합니다. 경량화 모델을 사용할 수 있습니다. |
1-1. 머신러닝이란?
컴퓨터가 인간의 개입 없이(또는 최소한으로) 데이터를 학습해 패턴을 찾고, 새로운 데이터에 대해 예측이나 분류를 수행하는 기술
ex) 스팸 메일 필터링, 이미지 분류, 음성 인식 등
1. 머신러닝의 3대 요소
1. 데이터 (Data)
- - 데이터가 참고하는 정보의 모음
2. 알고리즘 (Algorithm)
- - 문제를 해결하기 위해 순서대로 처리하는 방법이나 규칙
3. 컴퓨팅 파워 (Computing Power)
- - 컴퓨터가 얼마나 빠르고 많이 일(연산)을 할 수 있는지를 나타내는 능력치 - - - 딥러닝에 중요
2. AI ⊃ 머신러닝 ⊃ 딥러닝의 관계
인공지능 AI | 머신러닝 | 딥러닝 Deep Learning |
사람의 지능적인 작업을 기계가 수행하도록 만드는 광범위한 개념 |
AI를 실현하기 위한 방법 중 하나 데이터의 특징/규칙 찾아내서 학습하는 것 |
머신러닝의 하위 분야 사람 뇌 신경 본 떠 만든 인공신경망으로 이루어짐 인공신경망을 여러 겹 쌓아서 복잡한 정보를 학습 |
ex) 스팸 메일 - 특정 단어/형태 자주 등장 = 공통점(패턴) = 자동으로 스팸 분류 |
ex) 오늘날 많이 유명한 모델들이 여기에 속함 ChatGPT, 알파고, 알파스타, DALL-E 등 |
1-2. 머신러닝의 역할 및 중요성
1. 대량의 데이터 처리와 분석
현대 사회는 매순간 엄청난 양의 데이터 생성 → 대규모 데이터를 빠르고 정확하게 분석, 복잡한 상관관계 발견 및 예측
기존 방식으로 처리하기 어려웠던 빅데이터 활용 가능
*빅데이터 : 일반적 방법으로 저장, 분석하기 힘들 만큼 방대한 양의 데이터 ex) SNS 게시글, 대형 쇼핑물의 상품 거래 기록 등
2. 다양한 산업 분야에서의 활용
*제조업 | 센서 데이터 수집 → 설비 이상 징후 예측, 품질 분량 예측 자동화된 공정 제어 및 유지 보수 비용 절감 |
*금융 | 신용카드 사기 거래 탐지, 대출 리스크 평가 알고리즘 트레이딩(주식 자동 매매) |
헬스케어 | 질병 진단(영상, 유전자 분석), 환자 상태 예측 |
*마케팅 | 고객 세분화, 구매 패턴 분석, 타겟 마케팅 |
자율주행 | 카메라, 라이다 등을 통한 실시간 도로 상황 분석 → 의사결정 |
아래는 상세 예시
*제조업 | *금융 | *마케팅 |
예측 유지보수(Predictive Maintenance) 품질 관리(Quality Control) 생산 공정 최적화(Process Optimization) 수요 예측(Demand Forecasting) 에너지 효율 최적화(Energy Optimization) |
신용 평가(Credit Scoring) 위험 관리(Risk Management) 자산운용 및 투자전략 (Algorithmic Trading / Robo-Advisory) 고객 서비스 자동화 (챗봇, 가상 상담사) 보험 업무 고도화 (언더라이팅, 청구 자동화 등) |
고객 세분화(Customer Segmentation) & 페르소나(Persona) 도출 추천 시스템(Recommendation System) 마케팅 캠페인 성과 예측(Predictive Marketing Analytics) 고객 생애 가치(LTV) 예측 |
고객 세분화 비슷한 취향·행동을 하는 사람들끼리 그룹을 나누는 것 ex) ‘20대 여성 / 운동 좋아함 / 건강식품 구매 잦음’ 같은 그룹
페르소나 그룹을 대표하는 가상 인물 설정, ‘우리 고객은 이런 특징을 가진 사람’이라고 구체적으로 이해하려는 방법
알고리즘 트레이딩 컴퓨터 프로그램(알고리즘)이 자동으로 주식 매매 시점을 결정하고 주문을 실행해 주는 방법
로보어드바이저 AI가 개인 투자자를 위해 자산 배분이나 투자 종목을 자동 추천해주는 서비스
언더라이팅 보험사가 고객에게 어떤 조건(보험료, 보장 범위 등)으로 보험을 팔지 결정하는 과정 ex) 고객 건강 상태, 과거 병력 등을 보고 위험도에 따라 보험료를 책정
1-3. 머신러닝 vs 기존 통계 분석
1. 가설 검증 vs 예측 성능
통계분석 | 머신러닝 |
가설 검증, 추론 (ex. X변수와 Y변수 사이에 유익한 관계 있나?) 주로 '왜?' 라는 질문에 집중 |
예측 (얼마나 정확하게 미래나 미지의 데이터를 예측할 수 있나) '얼마나 잘?'에 집중(정확도, 재현율 등) |
2. 데이터가 많아질수록
통계 | 머신러닝 |
표본 수가 커지면 = 정교한 추론 가능 but 일반적으로 가설 자체를 사람세움 |
데이터가 많을수록 = 학습 유리 = 더 좋은 모델 만들 수 있음 |
1-4. 머신러닝의 종류
✔️ 학습 종류로 나뉨
지도 학습 supervised learning | 비지도 학습 unsupervised learning | 강화학습 reinforcement learning |
맞다고 알고 있는 결과값=정답값(레이블) 정답값이 있는 데이터를 학습하는 방식 ex) 고양이 식별 |
레이블 없이 데이터 패턴을 스스로 찾음 | 에이전트가 환경과 상호작용하며 보상을 최대화하도록 학습 *에이전트 = 학습 수행 주인공 *환경 = 에이전트 움직, 상호작용하는 무대 *보상 = 에이전트가 잘 했을 때 얻는 점수(칭찬), 잘못했을 때 받는 벌점 같은 개념 |
1️⃣ 분류(Classification) 어느 그룹에 속하는지 결정 ex) 이메일 스팸 여부 은행 대출 상환 가능 여부 |
1️⃣ 군집화(Clustering) 성향이 비슷한 사람이나 사물을 자동으로 묶어내는 기법 ex) 고객 군집 분석, 문서 토픽 분석 |
시뮬레이션 환경에서 시도-오류를 반복하며 가장 높은 보상을 보장해주는 행동 규칙(전략)을 학습 |
2️⃣ 회귀(Regression) 숫자로 된 결과 예측 ex) 주택 가격 예측 주가 예측 |
2️⃣ 차원 축소(Dimensionality Reduction) 데이터의 특징(변수)이 많아 복잡한 데이터를 핵심 정보만 남기고 압축하는 기법 > 전처리, 시각화에 유용함 ex) 수백 가지 지표가 있는 데이터를 2~3개의 핵심 지표로 요약 |
ex) 알파고(바둑), 로보틱스, 게임 AI |
1-5. 머신러닝 모델링 프로세스
1) 데이터 수집 | 2) 전처리 preprocessing |
3) 모델링 modeling |
4) 성능 평가 evaluation |
☑️ 1) 데이터 수집
- 웹 크롤링, 센서 측정, 설문조사, DB 추출 등 다양한 방법
- 양질의 데이터 확보가 프로젝트의 성패를 좌우
- ex) 제조업에서는 공정 라인에 설치된 IoT 센서에서 데이터 지속 수집
☑️ 2) 전처리
① 결측치 처리 | ② 이상치 처리 | ③ 스케일링 | ④ 범주형 변환 |
결측치 = 데이터 표에서 일부 셀이 비어있는 상태 |
이상치 = 대부분의 데이터 범위에서 심하게 벗어난 값을 해결 | 각각 다른 단위를 쓰는 데이터를 비슷한 수준으로 맞춰주는 작업 | 글자로 된 정보를 숫자로 바꿔주는 과정 ✔️ 원-핫 인코딩 ✔️ 레이블 인코딩 등 |
빈 칸을 (주로 대체함) - 대체 = 평균 / 빈도가 높은 값 - 삭제 |
ex) 사람 몸무게 데이터가 대개 50~100kg인데, 500kg으로 기록된 경우는 오타 등으로 생긴 이상치일 가능성이 높음 | ex) 키는 150~180의 범위 몸무게는 50~100의 범위 몸무게와 키 모두 0~1 범위로 바꾸면, 머신러닝 알고리즘이 두 값을 더 공평하게 다룰 수 있음 |
✔️ 원-핫 인코딩 → 해당 범주에 속하면 1, 아니면 0을 넣는 방식 ex) 빨, 초, 파 - 세 범주 빨 = (1,0,0) 초 = (0,1,0) 파 = (0,0,1) |
✔️ 레이블 인코딩 → 순서대로 숫자를 부여 → 숫자에 순위 의미 부여될 수 있으므로 주의 필요 ex) M=0, L=1, XL=2 … |
☑️ 3) 모델링
✔️ 지도학습 분류/회귀 알고리즘 선택 (ex. 로지스틱 회귀, 랜덤 포레스트, XGBoost 등)
✔️ 비지도학습 클러스트링/차원 축소 알고리즘 선택 (ex: K-Means, PCA 등)
☑️ 4) 성능 평가
✔️ 얼마나 잘 예측했는가
(지도) 분류 | (지도) 회귀 | (비지도) 군집 |
Accuracy, Precision, Recall, F1-score, ROC-AUC 등 |
MAE, RMSE, R² 등 | 실루엣 계수 등 |
1-6. 윤리적 이슈 & 데이터 편향(bias)
데이터 편향 Data Bias | 윤리적 책임 Responsible AI |
학습 데이터에 편향된 샘플이 많으면, 모델도 그 편향 그대로 학습 ex) 인종·성별 분포가 편향된 데이터 → 차별적 의사결정 |
편향을 줄이기 위한 데이터 균형화 민감 정보 보호(개인정보 비식별화, GDPR 등 법적 규제 준수) |
'머신러닝' 카테고리의 다른 글
[실무에 쓰는 머신러닝 기초] 4. 분류 (2) | 2025.07.02 |
---|---|
[실무에 쓰는 머신러닝 기초] 3. 회귀 (3) | 2025.07.02 |
[실무에 쓰는 머신러닝 기초] 2. 데이터 전처리 (8) | 2025.07.01 |
[머신러닝 라이브 세션] 1회차 (2) | 2025.06.30 |