Bioinformatics Engineering #3 변이 Annotation #
#2026-03-11
#0 Annotation이란?
VCF 파일에는 “chr1:12345에서 A가 G로 바뀌었다"는 정보만 있습니다. Annotation은 이 변이에 생물학적 의미를 부여하는 작업입니다. 어떤 유전자에 위치하는지, 엑손인지 인트론인지, 아미노산이 바뀌는지, 그 변화가 단백질 기능에 해로운지, 다른 환자에서도 발견된 변이인지 등의 정보를 추가합니다.
#
#1 Annotation 도구 선택하기
가장 널리 사용되는 도구는 VEP(Variant Effect Predictor), ANNOVAR, SnpEff입니다. VEP는 Ensembl에서 개발하여 유전자 모델이 풍부하고 업데이트가 빠릅니다. ANNOVAR는 다양한 데이터베이스 통합이 쉽고 속도가 빠릅니다. SnpEff는 설치가 간단하고 메모리 사용이 적습니다. 국립암센터처럼 대규모 데이터를 다루는 기관에서는 VEP가 표준으로 많이 사용됩니다.
#
#2 캐시 데이터 설치하기
Annotation 도구는 유전자 정보, 전사체 정보, 단백질 서열 등을 담은 캐시 데이터가 필요합니다. VEP의 경우 homo_sapiens_vep_110_GRCh38.tar.gz 같은 파일을 다운로드하여 지정된 경로에 설치합니다. 캐시에는 Ensembl/RefSeq 유전자 모델, 규제 요소 정보, 단백질 도메인 정보 등이 포함됩니다. 온라인 모드로도 실행 가능하지만, 대량 데이터 처리 시 캐시를 사용해야 속도가 확보됩니다.
#
#3 기본 Annotation 실행하기
VEP를 예로 들면, vep -i input.vcf -o output.vcf –cache –dir_cache 캐시경로 –fasta 참조유전체.fa –vcf 형식으로 실행합니다. 도구가 각 변이의 좌표를 유전자 모델과 대조하여, 해당 변이가 어떤 전사체(transcript)의 어떤 위치에 해당하는지 계산합니다. 출력 파일의 INFO 필드에 CSQ(Consequence) 정보가 추가됩니다.
#
#4 Consequence 이해하기
Annotation 결과에서 가장 중요한 것은 변이의 consequence(결과/영향)입니다. missense_variant는 아미노산이 다른 아미노산으로 바뀌는 것, nonsense_variant(stop_gained)는 조기 종결 코돈이 생기는 것, frameshift_variant는 삽입/결실로 읽기 틀이 바뀌는 것, synonymous_variant는 아미노산 변화 없이 코돈만 바뀌는 것입니다. 일반적으로 frameshift, nonsense, splice_site 변이가 단백질 기능에 가장 큰 영향을 줍니다.
#
#5 추가 Annotation 플러그인 적용하기
기본 annotation 외에 플러그인으로 추가 정보를 붙일 수 있습니다. SIFT와 PolyPhen은 missense 변이가 단백질 기능에 해로운지 예측합니다. CADD는 변이의 유해성을 종합 점수로 제공합니다. dbNSFP는 수십 개의 예측 알고리즘 결과를 한 번에 추가합니다. VEP 실행 시 –plugin CADD,파일경로 형식으로 지정하면 해당 정보가 출력에 포함됩니다.
#
#6 공개 데이터베이스 정보 추가하기
임상적 해석을 위해 공개 데이터베이스 정보를 추가합니다. ClinVar는 변이의 임상적 의미(pathogenic, likely_pathogenic, uncertain_significance, likely_benign, benign)를 제공합니다. 특정 변이가 유전 질환과 연관되어 있는지 알 수 있습니다. COSMIC(Catalogue of Somatic Mutations in Cancer)은 해당 변이가 다른 암 환자에서 몇 번 발견되었는지, 어떤 암종에서 흔한지 정보를 제공합니다. 빈번하게 발견되는 변이는 driver mutation일 가능성이 높습니다. gnomAD(Genome Aggregation Database)는 일반 인구에서의 변이 빈도를 제공합니다. 인구 집단의 1% 이상에서 발견되는 변이는 보통 질병 원인이 아닌 다형성(polymorphism)으로 간주합니다.
#
#7 결과 파싱 및 정리하기
Annotation 출력은 복잡한 형식으로 되어 있습니다. VEP의 경우 CSQ 필드에 파이프(|)로 구분된 수십 개의 값이 들어 있습니다. 이를 분석에 사용하려면 파싱하여 별도의 컬럼으로 분리해야 합니다. 또한 한 변이가 여러 전사체에 영향을 줄 수 있으므로, canonical transcript를 기준으로 대표 annotation을 선택하거나, 가장 심각한 consequence를 가진 것을 선택하는 규칙을 정해야 합니다.
#
#8 품질 검증하기
최종 annotation 결과를 검증합니다. 알려진 병원성 변이(예: BRCA1의 특정 변이)가 제대로 ClinVar pathogenic으로 annotation되었는지 확인합니다. 유전자명(Hugo Symbol)이 최신 명명법을 따르는지, 좌표와 REF/ALT가 원본과 일치하는지 점검합니다. 이 검증을 통해 파이프라인의 신뢰성을 확보합니다.각각 이런식으로 전체 흐름 요약도 적어줘
#
#9 정리
VCF 파일에서 시작하여, VEP나 ANNOVAR 같은 도구와 해당 참조유전체 버전의 캐시 데이터를 준비합니다. 기본 annotation을 실행하여 각 변이의 유전자 위치, 전사체 영향, consequence(missense, frameshift 등)를 파악하고, SIFT/PolyPhen/CADD 같은 플러그인으로 기능적 영향을 예측합니다. ClinVar로 임상적 의미를, COSMIC으로 암 연관성을, gnomAD로 인구 집단 빈도를 추가합니다. 복잡한 출력을 파싱하여 분석 가능한 형태로 정리하고, 알려진 변이로 검증하여 파이프라인의 신뢰성을 확보합니다. 이렇게 annotation된 데이터는 변이의 생물학적·임상적 의미를 해석하고, 치료 타깃 발굴이나 환자 층화에 활용됩니다.