ASAC 빅데이터 분석가 7기/ASAC 일일 기록
ASAC 빅데이터 분석가 과정 35일차 (25.01.23)
junslee
2025. 1. 23. 09:22
이론 - p.98
SVM (Support Vector Machine)
- SVM(support vector machine) 모형
- 고차원 또는 무한 차원의 공간에서 초평면을 찾아서 이를 이용하여 분류 및 회귀를 수행하려고 하는 모델
-> 선형 모델 - 찾는 방법
- train data 마진을 최대로
- 일반적인 에러 최소화
- Margin : 각 클래스에서 가장 가까운 관측치 사이의 거리
- W(기울기)로 표현 가능
- 계산은 생략 (참고만)
- 하이퍼 파라미터 - C (Regularization Parameter)
- C가 커지면 에러를 적게 허용 -> 하지만 극단적으로 커지면 Overfiting
- C가 작아지면 적당한 에러를 허용 -> 하지만 극단적으로 작아지면 Underfiting
=> C가 중요한 Parameter
- Kernel
- 하이퍼 파라미터 - γ (Gamma, RBF 커널에서 중요)
- RBF 커널
SVM 자체에서 중요한 C의 값과 Kernel을 사용할 때 RBF를 쓸 때 중요한 Gamma를 같이 고려
- Gamma가 작으면 동네 뒷산 -> 펑퍼짐 -> 주변 많은 점들을 고려 -> 경계 부드러움
- Gamma가 크면 히말라야 -> 가운데 뾰족 -> 주변의 소수의 점 고려 -> 경계 뾰족
- C가 크면 에러를 잘 허용하지 않음 -> 타이트하게
- C가 작으면 에러를 적당히 허용 -> 스무스하게
전통적인 통계 선형 모델: + 규약 조건 추가
ML 기반의 전통 회귀 모델 ; tree, svm
=> 전통 알고리즘 성능이 그닥
=> Tree기반의 RF, Xgboost : 회귀
Regression - Linear Regression p.144
- 선형회귀를 앞의 학습에 적용하면
- cost function을 작게하는 기울기와 절편을 찾자
- 1개의 개별 데이터가 아니라 n개의 전에 sample, data에 대해서 해야하니 최소화
-> cost function을 여기서는 sum of squeared error로 세팅
- Close Solution
- N개의 데이터에 대해서 X={x1,x2,...,xn}에 대해서 위의 식을 모두 다 써보자
- β를 잘 찾기
- cost frunction : 에러 제곱의 합을 최소화
Regression - Linear Regression with Regularization L1,L2
- 좋은 변수란?
- Feature간에는 서로 상호 상관이 적으면서 y와의 관련은 큰 것들만으로 이루어진 것
- Bias-Variance Tradeoff
- MSE(Mean Squared Error) : 모델의 오류를 측정하는 기준
- Expected MSE : Bias와 Variance의 합으로 이루어짐
=> Bias와 Variance 간의 균형을 맞추는 최적의 모델을 찾는 것
- 모델 복잡도와 오류의 관계
- Bias와 Variance의 관계
단순 모델 : Train/Test Error가 모두 높음 (Underfitting)
복잡 모델 : Train Error는 낮지만 Test Error는 높음 (Overfitting) - Training Error vs Test Error 그래프
- 모델 복잡도가 증가하면 Traning Error는 줄어들지만 Test Error는 일정 수준에서 증가
- 최적의 모델 복잡도(Optimal model Complextiy)는 Training Error와 Test Error 간의 균형점에서 결정
- Regularization (정규화)
- 정규화 기법
모델이 Overfitting을 방지하도록 도움
Regularization Parameter 𝜆를 사용하여 모델의 복잡도를 제어
- λ의 역할
λ가 너무 크면 → 모델이 단순해져서 Underfitting.
λ가 너무 작으면 → 모델이 복잡해져서 Overfitting.
- 수식 설명
모델의 비용 함수는 두 부분으로 나뉩니다
1. Training Error : 데이터 적합성
2. Regularization Term : 모델 복잡성 페널티
- Regularization이 적용된 예
λ 값에 따라 MSE가 달라지며, 최적의 λ 값을 찾는 것이 중요
- L1 정규화와 L2 정규화
- L1 Regularization (Lasso)
- 비용 함수에 λ∑∣Wj∣추가
- 특징
1. 절댓값의 합으로 패널티 부여
2. 가중치(W)가 0이 되는 경향 -> 변수 선택 가능
3. Outlier(이상치)에 강함
4. 단순하고 해석하기 쉬운 모델 생성 - L2 Regularization (Ridge)
- 비용 함수 λ∑Wj^2추가
- 특징
1. 가중치의 제곱합으로 패널티 부여
2. 가중치를 0에 가깝게 축소하지만 완전히 0으로 만들지는 않음
3. 복잡한 데이터 패턴 학습 가능
4. Outlier에 민감
- MSE 수식 전개 및 해석
- MSE는 회귀 모델의 손실 함수로 오차의 제곱합 평균을 의미
- 수식의 전개 과정
선형대수
- 차원에 따른 수학적인 용어와 기호 표기 정리 : R은 실수
- Scalar
- Vector
- Matrix
- Tensor
- 팀플 진행