ASAC 빅데이터 분석가 7기/ASAC 일일 기록

ASAC 빅데이터 분석가 과정 35일차 (25.01.23)

junslee 2025. 1. 23. 09:22

이론 - p.98

SVM (Support Vector Machine)

  • SVM(support vector machine) 모형
    - 고차원 또는 무한 차원의 공간에서 초평면을 찾아서 이를 이용하여 분류 및 회귀를 수행하려고 하는 모델
    -> 선형 모델

  • 찾는 방법
    - train data 마진을 최대로
    - 일반적인 에러 최소화

  • Margin : 각 클래스에서 가장 가까운 관측치 사이의 거리
    - W(기울기)로 표현 가능

  • 계산은 생략 (참고만)

  • 하이퍼 파라미터 - C (Regularization Parameter)
    - C가 커지면 에러를 적게 허용 -> 하지만 극단적으로 커지면 Overfiting
    - C가 작아지면 적당한 에러를 허용 -> 하지만 극단적으로 작아지면 Underfiting
    => C가 중요한 Parameter

 

  • Kernel

  • 하이퍼 파라미터 - γ (Gamma, RBF 커널에서 중요)

  • RBF 커널

SVM 자체에서 중요한 C의 값과 Kernel을 사용할 때 RBF를 쓸 때 중요한 Gamma를 같이 고려
- Gamma가 작으면 동네 뒷산 -> 펑퍼짐 -> 주변 많은 점들을 고려 -> 경계 부드러움

- Gamma가 크면 히말라야 -> 가운데 뾰족 -> 주변의 소수의 점 고려 -> 경계 뾰족

 

- C가 크면 에러를 잘 허용하지 않음 -> 타이트하게

- C가 작으면 에러를 적당히 허용 -> 스무스하게


전통적인 통계 선형 모델:  + 규약 조건 추가

ML 기반의 전통 회귀 모델 ; tree, svm
=> 전통 알고리즘 성능이 그닥
=> Tree기반의 RF, Xgboost : 회귀

Regression - Linear Regression p.144

  • 선형회귀를 앞의 학습에 적용하면
    - cost function을 작게하는 기울기와 절편을 찾자

  • 1개의 개별 데이터가 아니라 n개의 전에 sample, data에 대해서 해야하니 최소화
    -> cost function을 여기서는 sum of squeared error로 세팅

  • Close Solution

  • N개의 데이터에 대해서 X={x1,x2,...,xn}에 대해서 위의 식을 모두 다 써보자

  • β를 잘 찾기

  • cost frunction : 에러 제곱의 합을 최소화


Regression - Linear Regression with Regularization L1,L2

  • 좋은 변수란?
    - Feature간에는 서로 상호 상관이 적으면서 y와의 관련은 큰 것들만으로 이루어진 것

  • Bias-Variance Tradeoff
    - MSE(Mean Squared Error) : 모델의 오류를 측정하는 기준
    - Expected MSE : Bias와 Variance의 합으로 이루어짐
    => Bias와 Variance 간의 균형을 맞추는 최적의 모델을 찾는 것

  • 모델 복잡도와 오류의 관계
    - Bias와 Variance의 관계
    단순 모델 : Train/Test Error가 모두 높음 (Underfitting)
    복잡 모델 : Train Error는 낮지만 Test Error는 높음 (Overfitting)
  • Training Error vs Test Error 그래프
    - 모델 복잡도가 증가하면 Traning Error는 줄어들지만 Test Error는 일정 수준에서 증가
    - 최적의 모델 복잡도(Optimal model Complextiy)는 Training Error와 Test Error 간의 균형점에서 결정

  • Regularization (정규화)
    - 정규화 기법
    모델이 Overfitting을 방지하도록 도움
    Regularization Parameter 𝜆를 사용하여 모델의 복잡도를 제어
    - λ의 역할
    λ가 너무 크면 → 모델이 단순해져서 Underfitting.
    λ가 너무 작으면 → 모델이 복잡해져서 Overfitting.
    - 수식 설명
    모델의 비용 함수는 두 부분으로 나뉩니다
    1. Training Error : 데이터 적합성
    2. Regularization Term : 모델 복잡성 페널티
    - Regularization이 적용된 예
    λ 값에 따라 MSE가 달라지며, 최적의 λ 값을 찾는 것이 중요

  • L1 정규화와 L2 정규화
  • L1 Regularization (Lasso)
    - 비용 함수에 λWj∣추가
    - 특징
    1. 절댓값의 합으로 패널티 부여
    2. 가중치(W)가 0이 되는 경향 -> 변수 선택 가능
    3. Outlier(이상치)에 강함
    4. 단순하고 해석하기 쉬운 모델 생성
  • L2 Regularization (Ridge)
    - 비용 함수 λWj^2추가
    - 특징
    1. 가중치의 제곱합으로 패널티 부여
    2. 가중치를 0에 가깝게 축소하지만 완전히 0으로 만들지는 않음
    3. 복잡한 데이터 패턴 학습 가능
    4. Outlier에 민감

  • MSE 수식 전개 및 해석
    - MSE는 회귀 모델의 손실 함수로 오차의 제곱합 평균을 의미
    - 수식의 전개 과정 


선형대수

  • 차원에 따른 수학적인 용어와 기호 표기 정리 : R은 실수
    - Scalar
    - Vector
    - Matrix
    - Tensor

 


  • 팀플 진행