머신러닝 기초 피드백 - 수학부터 차원 축소까지

머신러닝의 뼈대

수학적 직관과 모델의 제약 (현업 활용기)

새싹반 피드백: 선형대수, 기하학, 그리고 차원축소

1. 벡터와 내적의 실무 활용

현업의 핵심: 모든 데이터(텍스트, 이미지, 상품 정보)는 고차원 벡터로 변환됩니다. (예: 임베딩)
내적(Inner Product)의 역할: 방향이 일치할수록 값이 커지는 특성을 이용해 데이터 간의 '유사도(Similarity)'를 측정합니다.
실제 사례 (검색 및 추천): 챗봇, 구글 검색, 넷플릭스 등은 코사인 유사도(내적 기반)를 통해 가장 관련성 높은 문장이나 상품을 찾아냅니다.

Quiz 🤔 (추천 시스템 실전)

당신은 추천 알고리즘 엔지니어입니다.

사용자 취향 벡터: $\mathbf{u} = [4, 1, 3]^T$

영화 B 피처 벡터: $\mathbf{m}_B = [5, 0, 1]^T$
영화 C 피처 벡터: $\mathbf{m}_C = [2, 2, 4]^T$

내적을 계산하여 무엇을 추천해야 할지 판단하세요!

$\mathbf{u}^T \mathbf{m}_B = (4 \times 5) + (1 \times 0) + (3 \times 1) = \mathbf{23}$

$\mathbf{u}^T \mathbf{m}_C = (4 \times 2) + (1 \times 2) + (3 \times 4) = \mathbf{22}$

결론: 내적 값이 더 큰 영화 B 추천!

2. Norm과 거리 측정

벡터의 크기(길이)를 나타내는 Norm은 머신러닝에서 '오차나 거리'를 재는 기준이 됩니다.
실제 사례 (이상치 탐지와 물류):
- 이상 탐지(Anomaly Detection): 중심에서 너무 먼(L2 Norm 기반) 로그 데이터를 해킹으로 의심.
- 배달 경로 최적화: 건물 블록을 따라가야 하는 도시에서는 직선거리(L2)보다 격자형 거리(L1 Norm/맨해튼 거리)가 현실적임.

Quiz 🤔 (Norm 계산)

2차원 공간의 데이터 점 $\mathbf{x} = [3, 4]^T$가 있습니다.

1. 이 벡터의 L2 Norm과 L1 Norm을 각각 계산하세요.

2. 우리가 아는 물리적 '최단 거리(직선 거리)'에 적합한 Norm은 무엇일까요?

L2 Norm: $\sqrt{3^2 + 4^2} = \sqrt{25} = \mathbf{5}$ (물리적 최단 거리)

L1 Norm: $|3| + |4| = \mathbf{7}$

3. 차원 축소와 투영의 위력 (PCA)

이번 주에 배운 직교 투영(Orthogonal Projection)이 바로 PCA(주성분 분석)의 핵심 수학입니다.
현업 활용: 데이터 압축 및 시각화
수만 개의 단어나 뇌파 신호 피처(차원)를 모델에 다 넣으면 연산이 불가능합니다.
PCA는 분산이 큰 핵심 축으로만 데이터를 직교 투영하여 노이즈는 버리고 엑기스만 2~3차원으로 압축합니다.

4. 행렬 분해의 마법 (SVD)

특이값 분해(SVD, $A = U \Sigma V^T$)는 거대한 행렬을 의미 있는 성분들로 쪼개는 기술입니다.
현업 활용 1: 추천 시스템 (Latent Factor Model)
넷플릭스 등에서 수천만 명의 빈칸 투성이인 평점 행렬을 쪼개어, 사람들의 특성과 영화의 숨겨진 장르 특성(Latent Factor)을 추출해 빈칸을 채워냅니다.
현업 활용 2: 검색 엔진 (LSA)
문서-단어 행렬을 분해하여 단순히 일치하는 단어가 없어도 '맥락상' 비슷한 문서를 찾아줍니다.

🎥 [참고 영상] SVD 직관적 이해하기 (YouTube)

5. 규제 수학과 모델 제약

현업에서는 무조건 복잡한 모델을 쓰면 과적합(Overfitting)으로 실전에서 엉망이 됩니다. Norm의 개념을 이용해 가중치 성장에 패널티(규제)를 부여합니다.
L1 규제 (Lasso): 중요하지 않은 변수 가중치를 0으로 만들어서 자동으로 '특성 선택(Feature Selection)'을 해줍니다. (예: 수천 개 유전자 중 관련성 높은 것만 필터링)
L2 규제 (Ridge): 전체 파라미터를 고르게 낮추어 모델을 전반적으로 '안정화'시킵니다.

Quiz 🤔 (규제의 선택)

두 가지 가중치 모델이 있습니다. (학습 오차는 동일함)

모델 X 가중치: $\mathbf{w}_X = [1, 1, 1]$
모델 Y 가중치: $\mathbf{w}_Y = [3, 0, 0]$

1. 두 모델의 L1 합과 L2 제곱합을 각각 계산하세요.

2. 모델에 L2 규제 알고리즘을 썼을 때, $\mathbf{w}_X$를 선호하는 이유는?

L1 은 둘 다 3. 하지만 L2 제곱합은 $X = 1^2+1^2+1^2 = \mathbf{3}$, $Y = 3^2 = \mathbf{9}$

정답: 한 변수에만 극단적으로 의존하는 Y는 L2 Penalty(9) 폭탄을 맞습니다. L2는 모든 데이터를 고르게 반영하는 안정적 모델(X)을 선호합니다!

6. 마무리 & Next Week

복습 포인트
: 내적과 투영(PCA), 행렬 분해(SVD)가 실전에서 어떻게 추천과 압축으로 쓰이는지 복습하기!
다음 단계 예고
: 최적화(Optimization) - 미분을 통해 모델이 길을 찾아가는 과정

질문이 있으신가요? 🙋‍♂️