기업분석 #7 국립암센터 #

#2026-03-11

1. 직무 소개 #

직무: 국립암센터 암빅데이터센터의 유전체 데이터 인프라 구축 및 표준화.

국립암센터는 전국 10개 의료기관과 함께 암 빅데이터 네트워크를 구성하여 국가 암 DB를 구축하고 있으며, 정밀의학 실현과 AI·빅데이터 기반 암 연구를 4대 중점 연구주제로 추진하고 있습니다. 이 공고의 담당업무인 “NGS 패널 기반 유전체 데이터 관리”, “VCF/MAF 멀티오믹스 분석”, “유전체 데이터의 정제 및 데이터베이스화"는 사실상 이 국가 단위 데이터 플랫폼의 유전체 부문 핵심 인프라를 만들고 운영하는 일입니다.

구체적으로 이 지원자에게 기대하는 역할은 다음과 같을 것입니다:

첫째, 유전체 데이터 표준화 및 품질관리 전문가. 국립암센터 내부는 물론 전국 10개 협력 의료기관에서 수집되는 다양한 형식의 NGS 데이터(패널 기반, WGS, WES, WTS)를 일관된 표준으로 정제하는 역할입니다. VCF → MAF 변환, 참조유전체 버전 통일(GRCh37 ↔ GRCh38 Lift-over), 체세포·생식세포 변이의 public DB annotation 등은 모두 다기관 데이터 통합과 국제 공동연구를 위한 필수 전처리 작업입니다. 이 표준화가 제대로 이루어지지 않으면 향후 AI 모델 학습이나 대규모 코호트 연구에서 데이터 품질 문제가 발생합니다.

둘째, 국가 암 유전체 데이터베이스의 실질적 구축자. 국립암센터가 추진 중인 ‘차세대 정보시스템 구축사업’의 유전체 부문을 실무적으로 구현하는 역할입니다. 단순히 데이터를 저장하는 것이 아니라, 연구자들이 검색·활용할 수 있는 형태로 DB를 설계하고, 임상정보와 연계하여 재현 가능한 분석이 가능하도록 데이터 구조를 정립해야 합니다. 이것이 “데이터구축팀” 소속인 이유입니다.

셋째, 연구 성과 창출과 사업 운영 지원의 이중 역할. 공고에 “데이터 분석 후 논문 작성 및 발표"와 “보고서, 매뉴얼 작성"이 함께 명시된 점은 주목할 만합니다. 이 포지션은 순수 연구직이 아니라, 인프라 구축(사업)과 연구를 동시에 수행하는 하이브리드 역할입니다. 구축한 데이터를 활용해 연구 논문을 발표하면서, 동시에 사업 보고서와 운영 매뉴얼을 작성하여 지속 가능한 시스템을 만들어야 합니다.

#

2. 핵심 역량 #

#1 기술적 역량

NGS 데이터 전처리 및 파이프라인 운영 능력: WGS, WES, Targeted seq 데이터의 생성 원리부터 QC, alignment, variant calling까지의 전체 흐름을 이해하고, 이를 자동화된 파이프라인으로 구축·운영할 수 있는 능력입니다. 국립암센터는 다양한 암종에서 대규모 데이터가 생성되므로, 수작업이 아닌 재현 가능하고 확장 가능한 파이프라인이 필수적입니다.

변이 데이터 처리 및 annotation 역량: VCF/MAF 포맷 구조를 깊이 이해하고, vcf2maf, ANNOVAR, VEP 등 도구를 활용하여 체세포·생식세포 변이를 분류하고, ClinVar, COSMIC, gnomAD, OncoKB 등 public DB와 연계하여 임상적 의미를 부여할 수 있는 능력입니다. 공고에서 “체세포 및 생식세포 변이 public DB annotation"을 명시한 것은 이 역량의 중요성을 보여줍니다. 참조유전체 관리 및 좌표 변환 능력: 다기관에서 수집되는 데이터는 참조유전체 버전이 다를 수 있으므로, GRCh37 ↔ GRCh38 간 Lift-over의 원리와 주의점을 숙지하고 대규모 데이터에 적용할 수 있어야 합니다. 이것이 데이터 통합의 기본 전제조건입니다.

Linux 환경에서의 대용량 데이터 처리: 국가 단위 암 데이터는 테라바이트 이상의 규모이므로, HPC 환경이나 서버 기반에서 대용량 파일을 효율적으로 처리하고, 스크립트를 작성하여 반복 작업을 자동화할 수 있는 능력이 필요합니다. R/Python 프로그래밍: 데이터 정제, 품질 검증, 통계 분석, 시각화를 위한 코딩 역량입니다. 특히 논문 작성이 업무에 포함되어 있으므로, 분석 결과를 publication quality의 그래프로 표현할 수 있어야 합니다.

#

#2 비기술적 역량

데이터 품질에 대한 강박적 꼼꼼함: 이 직무의 본질은 연구가 아니라 인프라 구축입니다. 사소한 포맷 오류, 좌표 불일치, annotation 누락이 향후 대규모 연구에서 치명적 문제로 이어질 수 있습니다. “데이터 관리"라는 표현이 반복적으로 등장하는 이유가 여기에 있습니다. 분석의 화려함보다 일관성과 정확성에 대한 집착이 더 중요합니다.

문서화 및 표준화 역량: 공고에 “보고서, 매뉴얼 작성"이 명시된 점은 간과하기 쉽지만 핵심적입니다. 국립암센터는 국가기관으로서 사업 성과를 정부에 보고해야 하고, 다기관 협력을 위해 데이터 표준과 운영 프로토콜을 문서화해야 합니다. 또한 담당자가 바뀌어도 시스템이 유지되려면 재현 가능한 SOP(표준운영절차)가 필수입니다.

협업 및 소통 역량: 암빅데이터센터는 연구소, 부속병원, 국가암관리사업본부와 모두 연계되어 있습니다. 임상의가 생성한 데이터를 받아 정제하고, 연구자가 활용할 수 있는 형태로 제공해야 하므로, 비생물정보학 전공자와도 원활하게 소통할 수 있어야 합니다. 특히 전국 10개 의료기관과의 데이터 표준 협의에서 기술적 내용을 명확하게 전달하는 능력이 중요합니다.

공공기관 마인드셋: 국립암센터는 민간 바이오텍이나 대학 연구실과 달리 국가암관리의 책임을 진 공공기관입니다. 개인 연구 성과보다 지속 가능한 국가 자산을 만든다는 관점이 필요합니다. 데이터의 장기 보존, 타 기관과의 공유, 정보보안 등 공공성에 대한 이해가 요구됩니다.

#

3. 관련 개념 #

#1 VCF(Variant Call Format)

VCF(Variant Call Format)는 개별 샘플에서 발견된 유전체 변이를 기록하는 파일 형식
MAF(Mutation Annotation Format)는 여러 샘플의 변이를 통합하고, 각 변이에 유전자명, 단백질 변화, 임상적 의미 등의 annotation을 추가한 형식
VCF to MAF 변환
1. VCF와 annotation 데이터베이스의 reference를 맞추고 annotation을 수행. 가장 많이 사용되는 도구는 VEP(Variant Effect Predictor)
2. annotation 된 VCF를 AMF 형식으로 변환. vcf2maf 도구를 사용.
3. 추가 컬럼으로 체세포 vs 생식세포 변이 분류 / Public DB annotation 추가 / 최종 MAF 파일의 품질을 검증.

#

#2 Lift-over

Lift-over: 한 참조유전체 버전의 좌표를 다른 버전의 좌표로 변환하는 작업
Chain 파일: 두 참조유전체 버전 간의 서열 대응 관계를 기록한 매핑 파일 (UCSC Genome Browser에서 hg19ToHg38.over.chain.gz 같은 형식으로 제공)
Lift over 작업
1. Lift-over할 파일 (VCF, BED 등) 준비
2. Lift-over 수행: 가장 많이 사용되는 도구는 UCSC liftOver와 CrossMap.
3. 변환 실패 케이스 처리, 변환 결과 검증

#

#3 변이 Annotation

변이 Annotation: VCF 파일에는 “chr1:12345에서 A가 G로 바뀌었다"는 정보만 있는데, Annotation은 이 변이에 생물학적 의미를 부여하는 작업.
- 어떤 유전자에 위치하는지, 엑손인지 인트론인지, 아미노산이 바뀌는지, 그 변화가 단백질 기능에 해로운지, 다른 환자에서도 발견된 변이인지 등의 정보를 추가한다.
Annotation 수행
1. 캐시 데이터 다운로드: 유전자 정보, 전사체 정보, 단백질 서열 등의 정보. VEP(Variant Effect Predictor)의 경우 homo_sapiens_vep_110_GRCh38.tar.gz 같은 파일을 다운로드하여 지정된 경로에 설치한다.
2. 툴을 실행해서 각 변이가 어떤 전사체(transcript)의 어떤 위치에 해당하는지 계산한다.
3. 결과에서 변이의 consequence(결과/영향)를 확인한다.
  - onsense_variant(stop_gained)는 조기 종결 코돈이 생기는 것, frameshift_variant는 삽입/결실로 읽기 틀이 바뀌는 것, synonymous_variant는 아미노산 변화 없이 코돈만 바뀌는 것.
4. 임상적 해석을 위해 공개 데이터베이스 정보를 추가.
  - ClinVar는 변이의 임상적 의미 제공
  - COSMIC(Catalogue of Somatic Mutations in Cancer)은 해당 변이가 다른 암 환자에서 몇 번 발견되었는지, 어떤 암종에서 흔한지 정보를 제공 (빈번하게 발견되는 변이는 driver mutation일 가능성이 높다)
  - gnomAD(Genome Aggregation Database)는 일반 인구에서의 변이 빈도를 제공