생물정보분석 #4 확률밀도, t-검정 #
#2026-01-15
#1 이산과 연속변수
이산과 연속변수
- 암 유전체 데이터에서 1개 위치에 나타는 돌연변이 횟수 같은 정수 데이터 -> 이산(discrete) 변수
- 실수 값 데이터 -> 연속(continuous) 변수
- 확률적으로 이 데이터를 처리하기 위해서는 정규분포를 써야한다.
#
#2 확률밀도
연속확률분포
- 연속확률변수를 표현하기 위해서는 ‘범위’를 사용해야한다.
- 170cm인 사람은 실제로는 169.5~170.5cm 이므로
- 키를 재보니 170인 사람이 3%였다는 것은
- P(키=170)=3% 라고 쓸수없고
- P(169.5<키<170.5)=3% 와 같이 써야한다.
- 연속확률분포로 가장 유명한 것은 정규분포이고
- 파라미터는 평균과 표준편차.
확률밀도함수
- 연속확률분포는 확률을 누적값으로 나타낸다
- 키가 170cm일 확률은 극한으로 작지만
- 170미만일 확률은 40%와 같이 계산 가능하다.
- 연속확률변수 X에 대해서 누적분포함수(CDF)는 F(x)로 표현한다.
- 키가 정확히 170일 확률이나 150일 확률이나 모두 극한으로 작지만
- 170 주변일 확률과 150 주변일 확률은 비교 가능하고
- 이는 밀도로 표현할수있다.
- CDF를 미분하면 밀도함수 PDF(probability density function)가 된다
이해안되는부분
- 확률밀도함수 PDF는 확률누적분포함수 CDF를 미분한것인데 확률은 0,1사이이다. 그래서 확률밀도의 크기는 PDF의 x축의 단위(여기서는 키, cm)에 의해 바뀌게 된다. PDF의 y축 즉 확률밀도값이 0.01 0.02 0.03 0.04라고 하면 정확한 의미는 0.01(cm-1)이다. 그래서 키의 단위로 feet를 쓰는 미국에서는 확률밀도값이 달라진다. 아무튼 PDF 그래프를 모든 x범위에 대해 적분하면 1이 된다는 점은 항상 만족한다.
#
#3 t-검정
t-값
- 분포가 그룹 간 얼마나 다른가?
- 사실 odd ratio로도 알수있는데
- 암세포에서 평균 100이 발현되는데 보통세포에서는 50이 발현되니까 2배 더 발현된다 이런식으로.
- t-검정을 쓰면 좀더 통계적으로 엄밀히 판단 가능.
시나리오
- 유전자 A에 대해서 암세포와 보통세포에서 측정한 결과가 이렇다고할때
- 암세포: N1=100개에서 g의 발현이 평균 x1=100, 표준편차 s1=20
- 보통 세포: N2=300개에서 g의 발현이 평균 x2-80, 표준편차 s2=30
- 유전자 A의 분포는 암세포와 보통세포에서 정량적으로 얼마나 다를까?
t-값 계산
- 일단 0-가설을 정해야한다
- 유전자 A의 발현은 암세포와 보통세포에서 같은 분포를 갖는다. -> 분석케이스가 분포가 같다 아니다.
- student t-값은 암세포 보통세포의 표준편차가 같다고 가정하고
- (0-가설상에서는 평균의 차이가 0이어야하지만) 평균의 차이가 20인 현재 관측이 우연일 확률을 구한다
#
#출처
책 빅데이터&인공지능 with 생물정보학