2 분 소요

개요

  • 기계 학습의 한 분야로, 다층 인공신경망(Multi-layer Neural Network)을 사용하는 학습 방법
  • 데이터에서 계층적 특징(Feature)을 자동으로 추출
  • 이미지·음성·텍스트 등 비정형 데이터에서 뛰어난 성능
  • AI ⊃ ML ⊃ DL ⊃ LLM


인공신경망 (Artificial Neural Network)

구조

  • 뉴런(Neuron): 입력을 받아 가중합(Weighted Sum)을 계산하고 활성화 함수를 통해 출력
  • 레이어(Layer)
    • 입력층 (Input Layer): 원시 데이터를 받음
    • 은닉층 (Hidden Layer): 특징 추출 및 변환 (1층 이상 → 딥)
    • 출력층 (Output Layer): 최종 예측값 출력

활성화 함수 (Activation Function)

  • 비선형성을 부여하여 신경망이 복잡한 패턴을 학습하게 함
함수 수식 특징
Sigmoid 1/(1+e⁻ˣ) 출력 0~1, 기울기 소실 문제
Tanh (eˣ-e⁻ˣ)/(eˣ+e⁻ˣ) 출력 -1~1
ReLU max(0, x) 계산 빠름, 음수 0 처리
LeakyReLU max(αx, x) Dying ReLU 방지
Softmax eˣⁱ / Σeˣʲ 다중 분류 출력층

역전파 (Backpropagation)

  • 예측값과 실제값의 오차(Loss)를 줄이기 위해 가중치를 업데이트하는 알고리즘
  • 연쇄 법칙(Chain Rule)으로 그래디언트를 역방향 전파
  • 옵티마이저: SGD, Adam, RMSProp


주요 아키텍처

CNN (Convolutional Neural Network)

  • 이미지·공간 데이터에 특화된 신경망
  • 핵심 연산: Convolution(특징 추출) + Pooling(공간 축소)
  • 특징
    • 지역 수용 영역(Local Receptive Field)으로 공간 특징 포착
    • 가중치 공유로 파라미터 수 감소
  • 대표 모델: LeNet, AlexNet, VGG, ResNet, EfficientNet
  • 활용: 이미지 분류, 객체 탐지, 의료 영상 분석

RNN (Recurrent Neural Network)

  • 순서가 있는 시계열·시퀀스 데이터에 특화
  • 이전 상태(Hidden State)를 현재 입력과 함께 처리
  • 한계: 장기 의존성(Long-term Dependency) 문제, 기울기 소실
  • 개선: LSTM(Long Short-Term Memory), GRU(Gated Recurrent Unit)
  • 활용: 자연어 처리, 주가 예측, 음성 인식

Transformer (2017)

  • Google “Attention Is All You Need” 논문에서 발표
  • 셀프 어텐션(Self-Attention) 메커니즘으로 RNN 없이 시퀀스 처리
  • 특징
    • 병렬 처리로 학습 속도 대폭 향상
    • 멀리 떨어진 토큰 간 관계를 직접 모델링
    • 포지셔널 인코딩(Positional Encoding)으로 순서 정보 주입
  • 현재 NLP, Vision, 멀티모달 분야 표준 아키텍처
  • 대표 모델: BERT, GPT 시리즈, T5, ViT

GAN (Generative Adversarial Network, 2014)

  • Ian Goodfellow가 제안
  • 생성자(Generator)와 판별자(Discriminator)의 경쟁적 학습
  • 활용: 이미지 생성, 스타일 변환, 데이터 증강

Diffusion Model (2020~)

  • 노이즈를 점진적으로 제거하는 방식으로 고품질 콘텐츠 생성
  • GAN 대비 학습 안정적, 다양성 높음
  • 대표 모델: Stable Diffusion, DALL-E 2/3, Midjourney


학습 기법

Transfer Learning (전이 학습)

  • 대규모 데이터로 사전학습(Pre-training)된 모델의 가중치를 새로운 태스크에 재활용
  • 소량의 데이터로도 높은 성능 달성 가능
  • Fine-tuning: 사전학습 모델의 일부 또는 전체 가중치를 새 데이터로 추가 학습

사전학습 + 파인튜닝 패러다임

  • 대규모 비지도 데이터로 범용 표현 학습 (Pre-training)
  • 특정 태스크용 소규모 레이블 데이터로 미세 조정 (Fine-tuning)
  • GPT, BERT, LLM 모두 이 패러다임 사용

배치 정규화 (Batch Normalization)

  • 각 레이어의 입력을 정규화하여 학습 안정화 및 속도 향상
  • 내부 공변량 이동(Internal Covariate Shift) 문제 완화

드롭아웃 (Dropout)

  • 학습 중 무작위로 뉴런을 비활성화하여 과적합 방지
  • 앙상블 효과


관련 포스트