AI #2 HPO, XAI 실습

AI #2 HPO, XAI 실습 #

#2025-09-22


1. 실습 개요 #

  • 목적
    • UCI Breast Cancer 데이터를 로드하고 전처리 후 XGBoost 모델을 구축 및 평가
    • 교차검증(StratifiedKFold, KFold)과 하이퍼파라미터 탐색 기법(RandomizedSearchCV, Optuna)을 비교하여 최적 성능을 도출
    • SHAP을 활용하여 전역적·집단적·개별적 수준에서 해석력을 확보하고 도메인 지식과 연결
  • 구현
    • 데이터 로드: UCI Breast Cancer 데이터셋
    • 데이터 전처리: 타겟(Diagnosis)을 이진화(M=1, B=0), StandardScaler로 범위 스케일링, 상관계수 0.9 이상인 중복 변수 제거
    • 모델 구축: xgboost.XGBClassifier
    • 모델 평가: 정확도, AUC, 분류리포트, 혼동행렬, feature importance
    • 교차검증: KFold, StratifiedKFold
    • 하이퍼파라미터 최적화: Random Search, Optuna TPE
    • 모델 해석 (SHAP)
      • Bar Summary Plot: 전역적 중요도(평균 |SHAP|)를 통해 주요 변수 확인
      • Beeswarm Plot: 변수 값 크기(빨강/파랑)와 방향성(+/−)에 따른 분포 해석
      • Force / Waterfall Plot: 3가지 개별 환자 샘플(예측 확률 극단/불확실, SHAP 영향력 최대, 도메인 특이 케이스)을 선택하여 모델이 어떤 요인 때문에 해당 예측을 내렸는지 설명

#

2. 실습 보고서 #

  • 목차
  1. 실습 내용
  2. 개요
  3. 결과 - 데이터 전처리
  4. 결과 - 모델 구축 및 평가 실행
  5. 결과 - 교차검증 전략 비교 실행
  6. 결과 - 하이퍼파라미터 튜닝
  7. 결과 - SHAP 기반 해석 (Bar Summary Plot, Beeswarm Plot)
  8. 결과 - SHAP 기반 해석 (Waterfall Plot)
  9. Final Report - SHAP 결과 해석 및 임상 활용 방안

#

3. 프롬프팅1 - 하이퍼파라미터별 의미 #

  • 값이 클수록?
    • n_estimators (트리 개수): 크면 학습을 오래 시킴, 성능을 높일 수 있음, overfitting
    • max_depth (트리 깊이): 깊으면 데이터의 세부 패턴까지 학습해 overfitting
    • learning_rate (학습률): 크면 빠르게 학습하지만 최적점을 지나쳐 버릴 수 있어 overfitting. 작으면 한 스텝씩 조심스럽게 학습해 일반화 성능은 좋아지지만 많은 트리 n_estimators가 필요할수있음.
    • subsample (샘플 비율): 크면 variance가 크고 overfitting.
    • colsample_bytree (특성 샘플링 비율): 1.0이면 모든 피처를 쓰고 낮추면 랜덤성을 주므로 모델 다양성을 높여 overfitting 완화.

#

4. 프롬프팅2 - SHAP 플롯 해석법 #

  1. Bar Summary Plot
  • 봐야하는것: 막대 길이
    • 막대 길이가 길수록 전체 모델 예측에서 해당 변수가 차지하는 중요도가 크다.
  • 해석 포인트
    • 막대 길이가 길다: 전역적으로 중요한 변수
    • 막대 길이가 짧다: 영향력이 거의 없는 변수
  1. Beeswarm Plot
  • 봐야하는것: 막대 길이, 방향성, 색깔
    • 막대 길이의 분포가 넓을수록 샘플별로 변수 효과가 다양하다.
    • 방향성이 +일수록 예측값을 올린다, -일수록 예측값을 낮춘다.
    • 색깔이 빨강 = 변수 값이 크다, 파랑 = 변수 값이 작다.
  • 해석 포인트
    • 막대길이와 방향성 조합
      • 막대길이가 길고 방향성이 양수: 변수 값이 커질수록 예측 확률을 크게 올린다.
      • 막대길이가 길고 방향성이 음수: 변수 값이 작아질수록 예측 확률을 크게 낮춘다.
      • 막대길이가 짧거나 방향성이 양/음 혼재: 전체에 미치는 영향은 작음.
    • 색깔과 방향성 조합
      • 빨강이면서 방향성이 양수: 값이 클 때 예측값↑
      • 파랑이면서 방향성이 음수: 값이 작을 때 예측값↓
      • 원칙적으로는 위와 같은데
        • 빨강이면서 음수에 몰림: 값이 클수록 오히려 예측값↓ (역효과)
        • 파랑이면서 양수에 몰림: 값이 작을수록 오히려 예측값↑ (역효과)
        • 이런 경우는 보통
          • 비선형 관계: 변수 값이 커질수록 예측이 올라가다가, 일정 임계점 넘으면 오히려 내려가는 경우
          • 상호작용 효과: 다른 변수와 조합됐을 때만 특정 방향으로 작용하는 경우.
  1. Force / Waterfall Plot (개별 샘플 해석)
  • 봐야하는것: 막대 길이, 방향성
    • 막대 길이 길수록 해당 샘플의 예측에 기여한 정도가 크다.
    • 방향성이 +일수록 예측값을 기준선(Base Value)에서 올리는 요인, -일수록 낮추는 요인.
  • 해석 포인트
    • 막대길이가 길고 방향성이 양수: 이 변수 때문에 해당 샘플의 예측 확률이 많이 올라감.
    • 막대길이가 길고 방향성이 음수: 이 변수 때문에 해당 샘플의 예측 확률이 많이 내려감.
    • 막대길이가 짧음: 해당 샘플에서는 영향이 거의 없음.

#