Bioinformatics Engineering #1 VCF to MAF 변환

Bioinformatics Engineering #1 VCF to MAF 변환 #

#2026-03-11


#0 VCF to MAF 변환

VCF(Variant Call Format)는 개별 샘플에서 발견된 유전체 변이를 기록하는 파일 형식입니다. MAF(Mutation Annotation Format)는 여러 샘플의 변이를 통합하고, 각 변이에 유전자명, 단백질 변화, 임상적 의미 등의 annotation을 추가한 형식입니다. 쉽게 말해 VCF가 “어디에 변이가 있다"를 기록한다면, MAF는 “그 변이가 어떤 유전자에 있고 어떤 영향을 주는가"까지 설명합니다.

#

#1 VCF 파일

VCF 파일을 열면 헤더와 데이터 라인으로 구성되어 있습니다. 헤더는 ##로 시작하며 파일의 메타정보를 담고 있고, 데이터 라인은 각 변이의 염색체 위치(CHROM), 좌표(POS), 참조 염기(REF), 대체 염기(ALT), 품질 점수(QUAL) 등을 탭으로 구분하여 기록합니다. 예를 들어 chr1의 12345번 위치에서 A가 G로 바뀌었다면, 그 정보가 한 줄에 담깁니다.

#

#2 참조유전체 버전 확인하기

VCF 파일이 어떤 참조유전체를 기준으로 만들어졌는지 확인해야 합니다. 현재 주로 사용되는 버전은 GRCh37(hg19)과 GRCh38(hg38)입니다. 만약 VCF가 GRCh37 기준인데 annotation 데이터베이스가 GRCh38을 사용한다면, 먼저 좌표를 변환(Lift-over)해야 합니다. 이 과정에서 UCSC의 liftOver 도구나 CrossMap을 사용합니다.

#

#3 Annotation 수행하기

변이의 생물학적 의미를 알기 위해 annotation을 수행합니다. 가장 많이 사용되는 도구는 VEP(Variant Effect Predictor)입니다. VEP는 각 변이가 어떤 유전자의 어떤 부위(exon, intron, UTR 등)에 위치하는지, 아미노산 변화가 발생하는지, 그 변화가 단백질 기능에 어떤 영향을 주는지 예측합니다. VEP를 실행하면 원본 VCF에 annotation 정보가 추가된 파일이 생성됩니다.

#

#4 vcf2maf 도구로 변환하기

vcf2maf는 VEP로 annotation된 VCF를 MAF 형식으로 변환하는 표준 도구입니다. 이 도구는 VCF의 각 변이를 MAF의 필수 컬럼(Hugo_Symbol, Chromosome, Start_Position, End_Position, Variant_Classification, Variant_Type, Reference_Allele, Tumor_Seq_Allele2 등)에 맞게 재구성합니다. 실행 시 참조유전체 FASTA 파일과 VEP 캐시 경로를 지정해야 합니다.

#

#5 체세포 vs 생식세포 변이 분류하기

암 연구에서는 체세포 변이(somatic mutation)와 생식세포 변이(germline variant)를 구분하는 것이 중요합니다. 체세포 변이는 암세포에서만 발생한 후천적 변이이고, 생식세포 변이는 환자가 태어날 때부터 가진 변이입니다. 일반적으로 종양 샘플과 정상 샘플을 비교하여, 종양에만 있는 변이를 체세포로, 둘 다에 있는 변이를 생식세포로 분류합니다. MAF 파일의 Mutation_Status 컬럼에 이 정보가 기록됩니다.

#

#6 Public DB annotation 추가하기

MAF 파일에 임상적 의미를 더하기 위해 공개 데이터베이스 정보를 추가합니다. ClinVar는 변이의 병원성(pathogenic, benign 등)을, COSMIC은 해당 변이가 다른 암 환자에서 얼마나 자주 발견되었는지를, gnomAD는 일반 인구에서의 빈도를 제공합니다. 이 정보들이 추가되면 “이 변이가 암 발생에 얼마나 중요한가"를 판단할 수 있게 됩니다.

#

#7 품질 검증 및 정제하기

최종 MAF 파일의 품질을 검증합니다. 필수 컬럼에 결측값이 없는지, 좌표가 올바른 범위 내에 있는지, 변이 분류(Variant_Classification)가 표준 용어를 사용하는지 확인합니다. 또한 분석 목적에 따라 특정 변이 유형(예: synonymous 변이 제외, 특정 VAF 이하 제외)을 필터링하여 최종 분석용 MAF를 생성합니다.

#

#정리

원본 VCF에서 시작하여, 참조유전체 버전을 맞추고, VEP로 유전자/단백질 영향을 annotation하고, vcf2maf로 형식을 변환하고, 체세포/생식세포를 분류하고, 공개 DB 정보를 추가하고, 품질 검증을 거쳐 최종 MAF가 완성됩니다. 이 MAF 파일은 여러 환자의 변이를 통합 분석하거나, AI 모델 학습에 사용하거나, 임상적 의사결정을 지원하는 데 활용됩니다.