chp

99점이 100점이 되기 위해 일을 더하는 개발자

[AI] 기계 학습 (Machine Learning)

2 분 소요

개요

Tom M. Mitchell (CMU) 정의
- “A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.”
- 즉, 특정 작업 T에 대해 경험 E를 통해 성능 P가 향상되는 과정
명시적인 규칙을 프로그래밍하지 않고, 데이터로부터 패턴을 스스로 학습하는 방법
AI ⊃ ML ⊃ 딥러닝 포함 관계

학습 종류

지도 학습 (Supervised Learning)

입력(X)과 정답 레이블(Y)이 쌍으로 주어진 데이터를 사용해 학습
모델은 X → Y 매핑 함수를 학습
종류
- 분류 (Classification): 범주형 출력 예측
  - 예: 스팸 메일 판별, 이미지 분류, 질병 진단
  - 알고리즘: Logistic Regression, SVM, Decision Tree, Random Forest
- 회귀 (Regression): 연속형 수치 출력 예측
  - 예: 주가 예측, 집값 예측
  - 알고리즘: Linear Regression, Ridge, Lasso

비지도 학습 (Unsupervised Learning)

정답 레이블 없이 입력 데이터만으로 숨겨진 구조·패턴을 발견
종류
- 군집화 (Clustering): 유사한 데이터를 그룹화
  - 예: 고객 세분화, 문서 분류
  - 알고리즘: K-Means, DBSCAN, Hierarchical Clustering
- 차원 축소 (Dimensionality Reduction): 고차원 데이터를 저차원으로 압축
  - 예: 데이터 시각화, 노이즈 제거
  - 알고리즘: PCA, t-SNE, Autoencoder

반지도 학습 (Semi-supervised Learning)

레이블이 있는 소수의 데이터와 레이블 없는 다수의 데이터를 함께 사용
레이블링 비용이 높을 때 유용 (의료 이미지, 법률 문서 등)
예: 이미지 레이블의 10%만 사용해 분류 모델 학습

강화 학습 (Reinforcement Learning)

에이전트(Agent)가 환경(Environment)과 상호작용하며 보상(Reward)을 최대화하는 정책(Policy)을 학습
핵심 요소
- 에이전트, 환경, 상태(State), 행동(Action), 보상(Reward)
예: AlphaGo, 로보틱스, 게임 AI, RLHF (LLM 정렬)

주요 개념

과적합과 과소적합 (Overfitting / Underfitting)

과적합: 훈련 데이터에는 잘 맞지만 새로운 데이터에 일반화 실패
- 대처: 정규화(Regularization), Dropout, 데이터 증강, 조기 종료(Early Stopping)
과소적합: 모델이 너무 단순하여 훈련 데이터조차 제대로 학습 못함
- 대처: 모델 복잡도 증가, 더 많은 특성(Feature) 사용

교차 검증 (Cross Validation)

데이터를 여러 폴드(Fold)로 나눠 모델의 일반화 성능을 평가
K-Fold: 데이터를 K개로 분할 후 K번 학습·평가를 반복
목적: 테스트 데이터 누출(Data Leakage)을 방지하고 신뢰 있는 성능 추정

하이퍼파라미터 튜닝 (Hyperparameter Tuning)

학습률(Learning Rate), 배치 크기, 트리 깊이 등 학습 전에 설정하는 파라미터 최적화
방법: Grid Search, Random Search, Bayesian Optimization

특성 공학 (Feature Engineering)

원시 데이터에서 모델 학습에 유용한 특성(Feature)을 추출·변환·생성
도메인 지식이 중요하며 모델 성능에 큰 영향

평가 지표

태스크	지표
분류	Accuracy, Precision, Recall, F1-Score, AUC-ROC
회귀	MSE, RMSE, MAE, R²
군집화	Silhouette Score, Davies-Bouldin Index

주요 알고리즘 비교

알고리즘	유형	특징
Linear Regression	지도 (회귀)	단순, 해석 용이
Logistic Regression	지도 (분류)	이진 분류 확률 출력
Decision Tree	지도	해석 용이, 과적합 취약
Random Forest	지도	앙상블, 높은 정확도
SVM	지도	고차원 효과적, 커널 트릭
K-Means	비지도 (군집)	단순, K 사전 지정 필요
XGBoost	지도	그래디언트 부스팅, 고성능

관련 포스트

공유하기

X Facebook LinkedIn Bluesky

참고

[React] 실무 패턴

3 분 소요

개요 React 앱을 실제로 개발하다 보면 반복적으로 등장하는 패턴들이 있습니다. 인증 보호, 환경변수, 에러 처리, 코드 분할, 로딩 UI 등 자주 쓰이는 실무 패턴을 정리합니다.

[React] 테스트 (Vitest, Testing Library)

2 분 소요

개요 테스트는 코드가 올바르게 동작하는지 자동으로 검증하는 작업입니다. Vitest는 Vite 기반 테스트 러너이고, Testing Library는 실제 사용자 관점에서 컴포넌트를 테스트하는 라이브러리입니다.

[React] shadcn/ui

1 분 소요

개요 shadcn/ui는 Radix UI와 Tailwind CSS를 기반으로 만들어진 UI 컴포넌트 모음입니다. npm 패키지가 아니라 소스 코드를 프로젝트에 직접 복사하는 방식이라, 컴포넌트를 자유롭게 수정할 수 있습니다.

[React] Tailwind CSS

1 분 소요

개요 Tailwind CSS는 미리 정의된 유틸리티 클래스를 조합해 스타일을 지정하는 CSS 프레임워크입니다. 별도의 CSS 파일을 만들지 않고 HTML(JSX)에 클래스만 추가하면 스타일이 적용됩니다.