데이터 분석 #2 Preprocessing #

#2025-08-06

#1 머신러닝 프로세스 (p.25)

test data가 필요한 이유?
- hyperparameter tuning을 하면서 validation data는 모델이 이미 참고했다 즉 간접적으로 학습에 영향을 줬기 때문에 모델 학습 과정에서 한번도 보지않은 데이터가 필요함.

#2 Box plot (p.38)

그림이 7개 차종에서 연비 플롯이라고 가정

#3 조건수 (p.52)

조건수(Condition number)?

조건수가 큰 경우?

데이터에 조금의 노이즈나 오차만 있어도 결과가 달라져버려서 예측이나 계산을 할 때 신뢰하기 어려워진다.
머신러닝에서 여러 개의 입력값(피처)이 있을 때 이 피처들 사이에 스케일 차이가 너무 크거나 비슷한 성향을 가지면 조건수가 커진다.
- 예를 들어 Feature 1은 0에서 10 사이 값인데 Feature 2는 1,000에서 100,000 사이 값이라면, 둘을 같은 선형 모델에 넣었을 때 Feature 2의 작은 변화가 모델 결과에 훨씬 큰 영향을 줄 수 있어서 값의 Feature 2 쪽이 모델을 지배하게 됨.
- 이를 방지하기 위해 Feature Scaling이 필요하다.

#4 Ideation bin counting (p.60)

Bin Counting?

범주형 변수의 값을 단순히 숫자나 벡터로 바꾸는 것이 아니라 그 값이 결과 변수(Target)와 어떤 관련이 있는지를 통계적으로 계산해서 숫자로 바꾸는 방식
학생들의 이름이 있고 이 학생들이 시험을 통과했는지(합격/불합격)를 예측하려고 할 때?
- 각 학생 이름을 그대로 피쳐로 쓰면(One-hot encoding) 100,000명의 학생 이름마다 새로운 열이 생기고 그러면 데이터가 너무 커지고 희소해져서 계산도 느려지고 모델도 과적합되기 쉬워진다.
- Bin Counting은 이름마다 그동안 시험에 합격한 비율을 계산한다. 예를 들어 ‘김민수’라는 이름이 10번 나왔고 그 중 7번은 시험에 합격했다면, ‘김민수’라는 값은 0.7이라는 숫자로 바뀐다.
  - 이름이라는 범주형 값을 단순히 분리해서 다루는 게 아니라, 그 값이 결과 변수와 얼마나 관련이 있는지를 반영한 숫자로 바꾸는 것. (이름 자체는 중요한 의미를 갖는게 아니니깐) *TFT연구 feature디자인할때 항생제 인코딩 이런식으로 할걸!!!! 이런게잇엇다니