Saessak Feedback Draft
확률분포와 MLP,
프론티어 모델의 진짜 입구
MML Chapter 6 + Multilayer Perceptrons + Backpropagation
오늘 볼 큰 그림
1MML CH6가 왜 중요한지
2논문 수식에서 확률 찾기
3MLP와 activation 자세히 보기
4Backprop과 quiz로 확인
이번 자료의 MML 파트는 정규분포를 예쁘게 설명하는 시간이 아닙니다. 최신 모델 논문을 읽을 때 확률을 모르면 어디서 막히는지 보여주는 자료입니다.
이번 주 핵심 메시지
프론티어 모델은 "큰 신경망"이기 전에 확률분포를 학습하고, 샘플링하고, 비교하고, 정렬하는 시스템입니다.
- 다음 토큰 예측은 $p(x_t \mid x_{<t})$를 맞히는 문제입니다.
- Attention은 토큰 사이의 점수를 확률 가중치처럼 사용해 정보를 섞습니다.
- RLHF, DPO, GRPO는 정책 확률, log probability, KL divergence를 계속 만집니다.
- 확률을 피하면 loss, decoding, hallucination, alignment, MoE routing을 디버깅할 수 없습니다.
MML CH6: 우선순위만 잡기
| 개념 |
논문에서 보이는 형태 |
못 읽으면 생기는 문제 |
| Probability distribution |
policy $\pi_\theta$, token distribution |
모델 출력이 "정답 하나"가 아니라 분포라는 점을 놓침 |
| Log likelihood |
$-\log p_\theta(y \mid x)$, negative log-likelihood |
loss가 왜 낮아지는지, perplexity가 뭔지 설명 못함 |
| Expectation |
$E_{x \sim D}$, $E_{y \sim \pi}$ |
학습 목표가 데이터/샘플 평균이라는 사실을 놓침 |
| KL divergence |
$D_{KL}(\pi_\theta \parallel \pi_{ref})$ |
alignment에서 "너무 멀리 가지 말라"는 제약을 못 읽음 |
1. 언어모델은 다음 토큰 분포
$p_\theta(x_1, ..., x_T) = \prod_{t=1}^{T} p_\theta(x_t \mid x_{<t})$
$L_{LM}(\theta) = - \sum_{t=1}^{T} \log p_\theta(x_t \mid x_{<t})$
모델 예
Llama 3 계열, DeepSeek-V3 같은 공개 프론티어급 LLM은 기본적으로 대규모 next-token prediction 위에서 출발합니다.
피드백 포인트
$\log p$를 모르면 loss, perplexity, temperature sampling, calibration을 전부 감으로만 다루게 됩니다.
2. Attention 식에도 확률이 박혀 있음
$A = normalize\left(\frac{QK^T}{\sqrt{d_k}}\right),\quad Attention(Q,K,V)=AV$
- $QK^T$는 토큰끼리의 점수입니다. 아직 확률이 아닙니다.
- 정규화된 $A$는 각 토큰이 다른 토큰을 얼마나 볼지 나타내는 가중치 행렬입니다.
- $\sqrt{d_k}$로 나누는 이유는 dot product 값이 너무 커져 특정 토큰만 과하게 보게 되는 문제를 줄이기 위해서입니다.
Attention을 외워도 가중치 행렬의 의미를 이해하지 못하면, 왜 특정 토큰에 집중하거나 무시하는지 해석하기 어렵습니다.
3. Transformer 안의 MLP
$FFN(x) = max(0, xW_1 + b_1)W_2 + b_2$
논문 수식
Transformer 블록은 attention만 있는 구조가 아닙니다. 각 position마다 같은 feed-forward network를 적용합니다.
현대 모델 연결
Llama, DeepSeek 계열은 FFN/MLP를 더 크게 만들거나 gated MLP, MoE로 바꾸며 성능을 키웠습니다.
MLP를 "옛날 모델"로 보면 안 됩니다. 거대 Transformer 내부에서 매 블록마다 반복되는 핵심 계산입니다.
4. MoE는 확률적 라우팅 문제
$p_i(x)=router(x)_i,\quad y = \sum_{i \in TopK(p)} p_i(x)E_i(x)$
DeepSeek-V3
DeepSeek-V3는 총 671B parameters 중 token마다 약 37B만 활성화하는 MoE 구조를 사용합니다.
확률의 역할
router가 token을 어느 expert로 보낼지 확률/점수로 결정합니다. 이 분포가 무너지면 특정 expert만 과부하됩니다.
MoE 논문에서 load balancing, routing collapse, top-k selection을 읽을 때 확률분포 감각이 바로 필요합니다.
5. Alignment는 확률비를 벌주는 문제
$L_{DPO} = -E\left[\log \sigma\left(\beta \log \frac{\pi_\theta(y_w \mid x)}{\pi_{ref}(y_w \mid x)} - \beta \log \frac{\pi_\theta(y_l \mid x)}{\pi_{ref}(y_l \mid x)}\right)\right]$
- $y_w$는 선호된 답변, $y_l$은 덜 선호된 답변입니다.
- 좋은 답변의 확률은 reference model보다 올리고, 나쁜 답변의 확률은 상대적으로 내립니다.
- 여기서도 핵심은 확률, log probability, sigmoid, expectation입니다.
6. Reasoning RL도 확률 수식
$J_{GRPO}(\theta) = E\left[\frac{1}{G}\sum_i min(r_i(\theta)A_i, clip(r_i(\theta),1-\epsilon,1+\epsilon)A_i) - \beta D_{KL}(\pi_\theta || \pi_{ref})\right]$
$r_i(\theta)=\frac{\pi_\theta(o_i \mid q)}{\pi_{\theta_{old}}(o_i \mid q)}$
DeepSeek-R1 계열의 reasoning 강화학습을 읽으려면 policy probability, probability ratio, advantage, KL penalty가 한꺼번에 나옵니다.
그래서 MML CH6는 왜 중요한가
Decoding
temperature, top-k, top-p는 모두 다음 토큰 확률분포를 어떻게 샘플링할지 정하는 방법입니다.
Training
negative log-likelihood는 정답 토큰에 높은 확률을 주도록 만드는 대표적인 학습 목표입니다.
Alignment
DPO/RLHF/GRPO는 답변 분포를 선호도와 reward 쪽으로 움직이되 기준 모델에서 너무 멀어지지 않게 합니다.
확률 챕터는 시험용 수식이 아니라, 최신 모델 논문을 읽기 위한 최소 문법입니다.
이제 MLP로 내려가기
MLP는 입력 벡터를 여러 층의 선형변환과 비선형 activation으로 통과시키는 가장 기본적인 신경망입니다.
Input특징 벡터 $x$
Linear$z=Wx+b$
Activation$a=\phi(z)$
Output확률 또는 값
뉴런 하나는 작은 함수
$z = w^T x + b,\quad a = \phi(z)$
입력과 가중치
$x$는 데이터의 특징 벡터이고, $w$는 각 특징을 얼마나 볼지 정하는 가중치입니다.
편향과 활성화
$b$는 기준점을 옮기고, $\phi$는 선형 계산에 비선형성을 넣어 더 복잡한 패턴을 표현하게 합니다.
뉴런을 신비하게 보지 말고, "가중합을 만든 뒤 activation을 씌우는 함수"로 보면 됩니다.
Layer는 뉴런을 묶은 행렬 계산
$z^{[1]} = W^{[1]}x + b^{[1]},\quad a^{[1]} = \phi(z^{[1]})$
| 기호 |
예시 shape |
의미 |
| $x$ | $(4, 1)$ | 입력 특징 4개 |
| $W^{[1]}$ | $(3, 4)$ | hidden neuron 3개가 입력 4개를 봄 |
| $b^{[1]}$ | $(3, 1)$ | hidden neuron마다 bias 하나 |
| $a^{[1]}$ | $(3, 1)$ | 첫 hidden layer 출력 |
Activation Function이 왜 필요한가
$W_2(W_1x+b_1)+b_2 = (W_2W_1)x + (W_2b_1+b_2)$
activation이 없으면 layer를 100개 쌓아도 결국 하나의 선형모델과 같습니다.
- ReLU: $\phi(z)=max(0,z)$, 단순하고 빠르며 깊은 신경망에서 많이 쓰입니다.
- Sigmoid/Tanh: 출력 범위가 제한되지만 gradient가 작아지는 문제가 생길 수 있습니다.
- GELU/SwiGLU: 현대 Transformer MLP에서 자주 쓰이는 부드럽거나 gated 형태의 activation입니다.
MLP Forward Pass
$z^{[1]}=W^{[1]}x+b^{[1]}$
$a^{[1]}=\phi(z^{[1]})$
$z^{[2]}=W^{[2]}a^{[1]}+b^{[2]}$
$\hat{y}=g(z^{[2]})$
forward pass는 "현재 가중치로 예측을 만들어 보는 과정"입니다. 아직 학습이 아닙니다. 학습은 예측과 정답의 차이를 보고 거꾸로 미분하면서 시작됩니다.
Backward Pass는 Chain Rule
$\frac{\partial L}{\partial W^{[1]}} = \frac{\partial L}{\partial z^{[2]}} \frac{\partial z^{[2]}}{\partial a^{[1]}} \frac{\partial a^{[1]}}{\partial z^{[1]}} \frac{\partial z^{[1]}}{\partial W^{[1]}}$
- 뒤 layer의 오차가 앞 layer까지 전달됩니다.
- 각 layer는 자기 입력과 activation derivative를 사용해 gradient를 계산합니다.
- backpropagation은 새로운 수학 마법이 아니라 chain rule을 효율적으로 저장하고 재사용하는 알고리즘입니다.
2-layer MLP의 핵심 gradient
$\delta^{[2]} = \hat{y} - y$
$\frac{\partial L}{\partial W^{[2]}} = \delta^{[2]}(a^{[1]})^T$
$\delta^{[1]} = (W^{[2]})^T\delta^{[2]} \odot \phi'(z^{[1]})$
$\frac{\partial L}{\partial W^{[1]}} = \delta^{[1]}x^T$
수식을 전부 외우는 것보다 shape을 맞추는 연습이 중요합니다. 곱셈 shape이 맞으면 backprop의 구조가 보입니다.
Gradient Descent는 업데이트 규칙
$W \leftarrow W - \eta \frac{\partial L}{\partial W}$
Learning rate $\eta$
너무 크면 최소점을 지나치고, 너무 작으면 학습이 거의 진행되지 않습니다.
Gradient
손실이 증가하는 방향입니다. 학습은 그 반대 방향으로 이동해 손실을 줄입니다.
Vanishing Gradient
$\frac{\partial L}{\partial W^{[1]}} \propto \prod_{\ell=2}^{L} W^{[\ell]}\phi'(z^{[\ell]})$
sigmoid처럼 derivative가 자주 0에 가까워지는 activation을 깊게 쌓으면, 앞 layer까지 gradient가 거의 도착하지 않을 수 있습니다.
- 그래서 ReLU 계열 activation, residual connection, normalization이 중요해졌습니다.
- Transformer가 잘 학습되는 이유도 attention 하나 때문이 아니라, residual path와 normalization 덕분입니다.
MLP를 Transformer와 연결하기
| 이번 주 개념 |
Transformer에서의 위치 |
현대 모델에서의 변형 |
| Linear layer | Q/K/V projection, output projection, FFN | 큰 matrix multiply가 대부분의 연산량을 차지 |
| Activation | FFN 안의 ReLU/GELU/SwiGLU | gated MLP로 capacity와 안정성 개선 |
| Backprop | 모든 weight update의 핵심 | pretraining, SFT, preference tuning 모두 동일한 원리 |
Quiz 1: Shape 확인
$x \in R^{4 \times 1}$, $W^{[1]} \in R^{3 \times 4}$, $b^{[1]} \in R^{3 \times 1}$입니다.
1. $z^{[1]} = W^{[1]}x+b^{[1]}$의 shape은?
2. $W^{[2]} \in R^{2 \times 3}$라면 $z^{[2]}$의 shape은?
1. $(3,4)(4,1)+(3,1)=(3,1)$
2. $(2,3)(3,1)+(2,1)=(2,1)$
클래스가 2개인 분류 문제라면 logit 2개가 나온 것입니다.
Quiz 2: Activation이 없다면?
다음 모델이 있습니다.
$h=W_1x+b_1$
$\hat{y}=W_2h+b_2$
이 모델은 깊어 보이지만 실제로 어떤 모델과 같을까요?
$\hat{y}=W_2(W_1x+b_1)+b_2=(W_2W_1)x+(W_2b_1+b_2)$입니다. 결국 하나의 linear layer와 같습니다. 그래서 activation function이 반드시 필요합니다.
Quiz 3: Chain Rule 숫자 계산
$z=wx+b$, $a=\sigma(z)$, $L=(a-y)^2$라고 하겠습니다.
$x=2$, $w=0$, $b=0$, $y=1$일 때 $\frac{\partial L}{\partial w}$를 계산하세요.
힌트: $\sigma(0)=0.5$, $\sigma'(z)=a(1-a)$
$\frac{\partial L}{\partial w}=2(a-y)\cdot a(1-a)\cdot x$
$=2(0.5-1)\cdot 0.5(1-0.5)\cdot 2 = -0.5$
gradient descent는 $w \leftarrow w-\eta(-0.5)$이므로 $w$를 증가시키는 방향으로 움직입니다.
자율 학습 체크리스트
[ ] 언어모델이 다음 토큰 확률분포를 학습한다는 점을 설명할 수 있다.
[ ] log probability가 loss와 perplexity에 연결됨을 설명할 수 있다.
[ ] Attention의 가중치 행렬이 토큰 정보를 섞는 방식을 설명할 수 있다.
[ ] KL divergence가 alignment에서 기준 모델과의 거리 제약으로 쓰임을 설명할 수 있다.
[ ] MLP의 forward pass를 shape과 함께 쓸 수 있다.
[ ] activation이 없으면 deep linear model로 붕괴한다는 점을 설명할 수 있다.
[ ] backpropagation이 chain rule의 반복 적용임을 설명할 수 있다.
[ ] vanishing gradient가 왜 깊은 신경망 학습을 어렵게 하는지 설명할 수 있다.
핵심 내용
이번 자료의 목적은 MML CH6의 확률 개념과 MLP/Backpropagation을 최신 모델의 계산 흐름에 연결하는 것입니다.
- MML CH6는 확률 문제 풀이가 아니라 LLM 논문을 읽는 문법입니다.
- MLP와 backprop은 Transformer 내부 계산을 이해하는 최소 단위입니다.
- 이번 주 목표는 완벽한 증명이 아니라, 수식이 나왔을 때 각 항의 의미를 설명하는 것입니다.