Conv1D 기반 DNA 분석 #1 유전체 서열 분석하기 #

#2026-02-27

#1 CNN으로 유전체 서열 분석하기

DNA는 A, T, G, C 4개의 문자로 이루어진 긴 문자열이다. 이 문자열 어딘가에는 단백질이 달라붙는 자리(결합 부위)가 있고, 어딘가에는 RNA 간섭(RNAi)을 잘 일으키는 서열이 있다.

눈으로는 도저히 찾을 수 없다. 딥러닝으로 학습시키면?

유전체 서열 분석하는 3가지 실험을 한다:

#2 DNA 서열을 컴퓨터에 입력하는 방법: 원-핫 인코딩 (One-Hot Encoding)

DNA는 4개의 염기 A, T, G, C로 이루어져 있다. 이를 숫자로 표현하기 위해 원-핫 인코딩을 사용한다.

A → [1, 0, 0, 0]
C → [0, 1, 0, 0]
G → [0, 0, 1, 0]
T → [0, 0, 0, 1]

길이 101짜리 DNA 서열이라면 → (101, 4) 형태의 2D 배열이 된다.

ACGT... (101개 염기)
 ↓
[[1,0,0,0],   ← A
 [0,1,0,0],   ← C
 [0,0,1,0],   ← G
 [0,0,0,1],   ← T
 ...          (총 101행)
]
shape: (101, 4)

왜 이렇게 하냐면 숫자로 1,2,3,4 로 표현하면 모델이 A와 T가 “가깝다"고 착각하는데 원-핫은 모든 염기를 동등하게 취급한다.