생물정보분석 #4 확률밀도, t-검정

생물정보분석 #4 확률밀도, t-검정 #

#2026-01-15


#1 이산과 연속변수

이산과 연속변수

  • 암 유전체 데이터에서 1개 위치에 나타는 돌연변이 횟수 같은 정수 데이터 -> 이산(discrete) 변수
  • 실수 값 데이터 -> 연속(continuous) 변수
    • 확률적으로 이 데이터를 처리하기 위해서는 정규분포를 써야한다.

#

#2 확률밀도

연속확률분포

  • 연속확률변수를 표현하기 위해서는 ‘범위’를 사용해야한다.
    • 170cm인 사람은 실제로는 169.5~170.5cm 이므로
    • 키를 재보니 170인 사람이 3%였다는 것은
      • P(키=170)=3% 라고 쓸수없고
      • P(169.5<키<170.5)=3% 와 같이 써야한다.
  • 연속확률분포로 가장 유명한 것은 정규분포이고
    • 파라미터는 평균과 표준편차.

확률밀도함수

  • 연속확률분포는 확률을 누적값으로 나타낸다
    • 키가 170cm일 확률은 극한으로 작지만
    • 170미만일 확률은 40%와 같이 계산 가능하다.
    • 연속확률변수 X에 대해서 누적분포함수(CDF)는 F(x)로 표현한다.
  • 키가 정확히 170일 확률이나 150일 확률이나 모두 극한으로 작지만
    • 170 주변일 확률과 150 주변일 확률은 비교 가능하고
    • 이는 밀도로 표현할수있다.
    • CDF를 미분하면 밀도함수 PDF(probability density function)가 된다

이해안되는부분

  • 확률밀도함수 PDF는 확률누적분포함수 CDF를 미분한것인데 확률은 0,1사이이다. 그래서 확률밀도의 크기는 PDF의 x축의 단위(여기서는 키, cm)에 의해 바뀌게 된다. PDF의 y축 즉 확률밀도값이 0.01 0.02 0.03 0.04라고 하면 정확한 의미는 0.01(cm-1)이다. 그래서 키의 단위로 feet를 쓰는 미국에서는 확률밀도값이 달라진다. 아무튼 PDF 그래프를 모든 x범위에 대해 적분하면 1이 된다는 점은 항상 만족한다.

#

#3 t-검정

t-값

  • 분포가 그룹 간 얼마나 다른가?
  • 사실 odd ratio로도 알수있는데
    • 암세포에서 평균 100이 발현되는데 보통세포에서는 50이 발현되니까 2배 더 발현된다 이런식으로.
  • t-검정을 쓰면 좀더 통계적으로 엄밀히 판단 가능.

시나리오

  • 유전자 A에 대해서 암세포와 보통세포에서 측정한 결과가 이렇다고할때
    • 암세포: N1=100개에서 g의 발현이 평균 x1=100, 표준편차 s1=20
    • 보통 세포: N2=300개에서 g의 발현이 평균 x2-80, 표준편차 s2=30
    • 유전자 A의 분포는 암세포와 보통세포에서 정량적으로 얼마나 다를까?

t-값 계산

  • 일단 0-가설을 정해야한다
    • 유전자 A의 발현은 암세포와 보통세포에서 같은 분포를 갖는다. -> 분석케이스가 분포가 같다 아니다.
  • student t-값은 암세포 보통세포의 표준편차가 같다고 가정하고
    • (0-가설상에서는 평균의 차이가 0이어야하지만) 평균의 차이가 20인 현재 관측이 우연일 확률을 구한다

#

#출처

책 빅데이터&인공지능 with 생물정보학