기업분석 #4 AMC사이언스 #
#2026-02-25
- 본인의 회사 선택 기준은 무엇이며, HD현대가 어떤 측면에서 그 기준에 적합하다고 생각하십니까? (최대 2,000자 입력가능)
저의 회사 선택 기준은 두 가지입니다. 첫째, 제가 보유한 멀티오믹스 분석 역량과 엔지니어링 역량이 회사의 핵심 사업에 직접 기여할 수 있는 구조인지, 둘째, 그 사업이 장기적으로 성장할 수 있는 차별화된 경쟁우위를 갖추고 있는지입니다.
첫 번째 기준에서, AMC사이언스의 오믹스 분석 직무는 제 경험이 가장 직접적으로 기여할 수 있는 자리라고 생각합니다. 저는 석사과정에서 RNA-seq, BS-seq, ChIP-seq 세 가지 오믹스 데이터를 하나의 프로젝트 안에서 전처리부터 통합 분석까지 수행하며 멀티오믹스 분석의 전체 사이클을 경험하였고, 질병관리청 협업 과제에서는 444명 환자의 임상 데이터와 사이토카인 프로파일을 분석하며 의료 데이터의 특성에 맞는 분석 설계를 수행하였습니다. AMC사이언스의 ProteoXplore 플랫폼은 환자의 유전체, 전사체, 단백체 데이터를 통합 분석하여 신약 타깃을 발굴하는 것이 핵심이며, 이는 제가 수행해 온 멀티오믹스 통합 분석 및 바이오마커 발굴 경험이 기여할 수 있다고 생각합니다. 또한 SKALA에서 습득한 데이터베이스 설계와 백엔드 개발 역량은 분석 파이프라인을 일회성 스크립트가 아닌 재현 가능하고 확장 가능한 시스템으로 구축하는 데 기여할 수 있습니다. 신약 개발 분석 인프라를 설계해야 하는 상황에서, 오믹스 분석과 시스템 구축을 동시에 수행할 수 있는 역량은 차별화된 기여가 될 수 있다고 생각합니다.
두 번째 기준에서, AMC사이언스는 다른 대기업 계열 바이오 회사들과 명확히 차별화된 경쟁우위를 갖추고 있다고 생각합니다. 타 대기업 계열 바이오 회사들과 달리 AMC사이언스는 서울아산병원이라는 국내 최대 규모 의료기관의 방대한 환자유래샘플과 임상 데이터를 직접 활용하여 신약 타깃을 발굴하는 병원 기반 신약개발이라는 고유한 포지셔닝을 갖고 있습니다. 일반 바이오 기업이 접근할 수 없는 환자 조직과 임상 정보를 기반으로 프로테오믹스와 멀티오믹스 기술을 활용해 타깃을 발굴하는 구조는, 데이터의 양과 질 모두에서 차별성을 갖는다고 생각합니다. 여기에 HD현대그룹의 안정적 자본력이 뒷받침되어, 신약 개발이라는 장기 투자가 필요한 사업을 지속적으로 추진할 수 있는 재무적 기반까지 갖추고 있기에 AMC사이언스가 차별화된 경쟁우위를 갖추고 있다고 생각합니다.
제 멀티오믹스 분석 역량과 시스템 구축 역량을 바탕으로, 연구부문 생물정보학의 오믹스 분석 직무로 함께하며 AMC사이언스의 신약 타깃 발굴에 기여하고 싶습니다.
#
- 본인이 희망하는 직무는 무엇이며, 해당 직무에 요구되는 핵심역량은 무엇이라고 생각하십니까? 그리고 이를 갖추기 위해 어떤 노력을 하셨나요? (최대 2,000자 입력가능)
저는 연구부문 생물정보학의 오믹스 분석 직무를 희망합니다. AMC사이언스의 핵심 기술은 서울아산병원의 환자 멀티오믹스 데이터를 통합 분석하여 신약 타깃을 발굴하는 ProteoXplore 플랫폼입니다. 신약 타깃 발굴 플랫폼의 분석을 수행하고 고도화하는 오믹스 분석 직무에서, 두 가지 핵심역량이 요구된다고 생각합니다.
첫째, 신약 타깃 발굴에서는 분석 결과를 단순히 나열하는 것이 아니라, 연구의 목적과 사업적 의사결정에 맞게 우선순위화하고 그 근거를 전달할 수 있는 해석 역량이 중요하다고 생각합니다. 이를 갖추기 위해, 석사과정에서 분석의 목적에 맞게 downstream 분석 체계를 설계하는 경험을 쌓았습니다. SARS-CoV-2 돌연변이 핫스팟 탐지 연구에서 알고리즘이 발굴한 477개 핫스팟을 분석할 때, 과학적 유의성만으로 나열하는 대신 “이 중에서 실제로 중증 예후와 연결될 가능성이 높은 것은 무엇인가"를 중점으로 두었습니다. HLA 결합 친화도 분석으로 면역 회피 가능성이 높은 핫스팟을 선별하고, 차등 발현 유전자 분석과 코호트 통계 분석을 결합하여 면역학적 기전을 규명함으로써 핫스팟 간 우선순위를 도출하였습니다. 성능 평가에서도 일반적인 클러스터링 지표를 그대로 채택하기보다, 해당 알고리즘의 차별점이 결과 도출에 얼마나 기여했는지를 기준으로 평가 방식을 직접 설계하였습니다. 이처럼 분석의 목적에 맞게 downstream 분석과 평가 체계를 설계한 기여도를 인정받아, 해당 논문의 유일한 석사과정 저자로서 SCI 논문의 제1저자로 등재될 수 있었습니다.
둘째, 신약 타깃 발굴 초기 단계에서는 데이터가 불완전하고 분석 방법론도 확정되지 않은 상태에서 가설을 세우고, 빠르게 검증하고, 결과에 따라 방향을 수정하는 반복적 실행 역량이 필요하다고 생각합니다. 이를 갖추기 위해, 불확실한 조건에서 반복적으로 검증하며 최적의 분석 전략을 도출하는 경험을 쌓았습니다. 질병관리청 협력 과제에서 COVID-19 환자 444명의 191개 사이토카인 프로파일을 분석할 때, 13,203개의 결측값이 존재하여 최적의 전처리 전략을 사전에 확정할 수 없는 상황이었습니다. 이에 결측률 기준을 10%, 15%, 20%로 변경하며 필터링 범위에 따른 분석 결과의 변화를 비교하여 15%라는 기준을 확정하였고, 모델 선택에서도 60개 샘플이라는 제약 하에서 반복적 검증을 수행하였습니다. 딥러닝은 학습 데이터 부족으로 validation loss가 수렴하지 않아 제외하였고, SVM은 커널과 하이퍼파라미터 조합에 따른 성능 변동이 커서 소규모 데이터에서의 안정성이 부족하다고 판단하였습니다. 최종적으로 앙상블 기반으로 분산이 낮고 SHAP과 직접 호환되어 피쳐별 해석이 가능한 Random Forest를 선택하였습니다.
또한 백엔드 엔지니어로 참여했던 SKALA 교육과정의 B2B AI 서비스 프로젝트에서, B2B SLA 기준을 충족시키기 위해서 API 성능을 향상시켜야 했습니다. API 성능을 진단할 수 있는 백엔드 엔지니어가 없었고, 실데이터가 60건으로 B2B 서비스를 테스트하기에 적은 데이터 크기였습니다. 이때 초기 상태의 성능을 먼저 측정한 뒤, 병목별로 개선 방안 항목들과 예상 효과를 정의하고 각 항목의 조합을 적용하여 Before/After를 정량적으로 비교하였습니다. 이를 통해 Redis 캐싱으로 반복 조회 응답을 217ms에서 2ms로 개선하고, asyncio.gather로 타임라인 쿼리를 31.2ms에서 19.0ms로 단축하였으며, 60건 실데이터와 10만건 더미 데이터 두 규모에서 벤치마크를 수행하였습니다. 이를 통해 부족한 데이터와 분석 방법론의 부재 상황에서, 실제 운영 시 발생할 수 있는 병목을 선제적으로 대응할 수 있었습니다.
정해진 정답이 없는 오믹스 분석에서 연구 목적에 맞게 해석의 초점을 설계하고, 불완전한 환경에서도 빠르게 실행하며 파이프라인을 고도화해 나가는 역량을 바탕으로, AMC사이언스에서 환자 멀티오믹스 데이터로부터 신약 타깃을 발굴하고 분석 체계를 구축하는 데 기여하고 싶습니다.
#
- 본인의 주요 경력에 대해 기술해 주십시오. (최대 2,000자 입력가능)
Bioinformatics Lab COBI에서 3건의 생물정보학 분석 연구에 참여하였으며, SKALA 2기에서 2건의 프로젝트의 DB/백엔드 개발 및 NLP AIOps 모델링을 수행했습니다.
[바이러스 유전체의 돌연변이 핫스팟 탐지 알고리즘 연구]
SARS-CoV-2 유전체에서 중증도와 관련된 돌연변이 핫스팟을 탐지하는 클러스터링 알고리즘을 개발하는 연구로, Selenium을 활용한 22만 건의 유전체 데이터 크롤링 및 MSA 전처리, 코호트 클러스터링과 ANOVA 통계 분석, Docker와 netMHCpan을 활용한 HLA 결합 친화도 분석, edgeR를 활용한 차등 발현 유전자 분석 등을 수행하였습니다. HLA, Network, DEG 분석을 결합한 Multi-omics 분석을 설계하여 면역학적 기전을 밝혀냈으며, 연구 방향성과 알고리즘의 강점을 고민하고 그에 맞는 Downstream 분석 및 Performance Evaluation을 설계한 점을 인정받아 SCIE 논문(BioData Mining, IF 6.1)의 제1저자로 등재되었습니다.
[COVID-19 질병 진행 모델링을 통한 사이토카인 마커 발굴 연구]
질병관리청 협업 과제로, COVID-19 환자 444명의 EHR 데이터와 191개 사이토카인 프로파일을 분석하여 악화 사이토카인 마커를 발굴하였습니다. 결측값 15% 미만인 166개 사이토카인만을 포함하는 필터링을 적용하고 MissForest로 결측값을 대치하였습니다. 60개 샘플의 소규모 데이터에서 과적합을 방지하기 위해 Random Forest를 선택하고, SHAP TreeExplainer로 개인별 사이토카인 중증도 기여도를 분석하였습니다. SCIE 논문(Scientific Reports, IF 3.9)으로 출판되었으며 제2저자로 참여하였습니다.
[EBV 양성 위암 환자 DHT 약물 기전 규명 멀티오믹스 연구]
경북대 약학대학과 협업하여 RNA-seq, BS-seq, ChIP-seq 세 가지 오믹스 데이터의 전처리와 분석을 전담하였습니다. TopHat/HTSeq을 활용한 RNA-seq, Bismark을 활용한 BS-seq, Bowtie2/Trimmomatic을 활용한 ChIP-seq 전처리를 수행하고, edgeR DEG 분석, methylKit DMR 분석, IGV ChIP-seq 시각화를 수행하였습니다. SCIE 논문 2편(Gastric Cancer IF 5.1, Cancers IF 4.4)으로 출판되었으며 공동저자로 참여하였습니다.
[업무 보고서 자동화 AI 서비스 개발]
SKALA 2기 최종 프로젝트로, 4개 플랫폼의 업무 데이터를 통합하여 주간업무 보고서를 자동 생성하는 B2B AI 서비스를 6인 팀으로 개발하였으며, DB 설계와 API 개발을 담당하였습니다. PostgreSQL과 pgvector로 관계형 데이터와 벡터 검색을 단일 DB에서 처리하는 구조를 설계하고, Redis 캐싱으로 반복 조회를 217ms에서 2ms로 개선, asyncio.gather 병렬 처리로 타임라인 조회를 1.56배 단축, BackgroundTasks로 리포트 P95를 178ms에서 60ms로 안정화하여 전체 엔드포인트에서 B2B SLA 기준을 충족하였습니다.
[BERT 기반 뉴스 분류 모델 구축 및 서빙]
SKALA 2기 개인 프로젝트로, BERT 기반 분류 모델을 학습하고 B2B SLA를 충족하는 서빙 및 모니터링 체계를 구축하였습니다. Null Model부터 변수를 순차 변경하며 F1을 91.46%에서 94.75%로 개선하고, B2B 도메인 특성을 고려하여 Precision 우선 의사결정을 도입해 오분류 비율을 5.26%로 낮추었습니다. M1 CPU 환경에서 ONNX 변환으로 P95 76.9ms를 달성하고, PSI 기반 드리프트 모니터링과 Champion-Challenger 재학습 파이프라인을 구축하여 MLOps 체계를 구성하였습니다.
#
- 경력기술서
경북대학교 Computational Biology Lab COBI에서 약 3년 6개월간 인턴 및 석사과정을 수행하며, 바이러스 유전체 분석과 의료 데이터 기반 AI 모델링을 중심으로 3건의 연구 프로젝트에 참여하였습니다. 각 프로젝트에서 생물정보학 분석과 AI 모델링을 담당하였으며, 그 결과 SCI 논문 4편에 기여하였습니다.
[바이러스 유전체의 돌연변이 핫스팟 탐지 알고리즘 연구]
SARS-CoV-2 유전체에서 중증도와 관련된 돌연변이 핫스팟을 탐지하는 클러스터링 알고리즘을 개발하는 연구로, Selenium을 활용한 22만 건의 유전체 데이터 크롤링 및 MSA 전처리, 코호트 클러스터링 분석과 ANOVA 통계 분석, Docker와 netMHCpan을 활용한 HLA 결합 친화도 분석, edgeR를 활용한 차등 발현 유전자 분석 등을 수행하였습니다. HLA 분석, Network 분석, DEG 분석을 결합한 Multi-omics 분석을 설계하여 면역학적 기전을 밝혀냈으며, 연구의 방향성과 알고리즘의 강점을 고민하고 그에 맞는 Downstream 분석 및 Performance Evaluation을 설계한 점을 인정받아 SCIE 논문(BioData Mining, IF 6.1)의 제1저자로 등재되었습니다. 해당 연구는 제20회 한국유전체학회 동계심포지엄(KOGO)에서 포스터 발표를 진행하였습니다.
[COVID-19 질병 진행 모델링을 통한 사이토카인 마커 발굴 연구]
질병관리청 협업 과제로, COVID-19 환자 444명의 EHR 데이터와 191개 사이토카인 발현 프로파일을 분석하여 악화 사이토카인 마커를 발굴하였습니다. 의료 데이터의 높은 결측률 문제를 해결하기 위해 결측값 15% 미만인 166개 사이토카인만을 포함하는 엄격한 필터링을 적용하고, 비선형 관계를 반영할 수 있는 MissForest로 결측값을 대치하였습니다. 학습 데이터가 60개 샘플에 불과하여 딥러닝의 과적합이 불가피하다고 판단하여 소규모 데이터에서 안정적인 Random Forest를 선택하였고, SHAP TreeExplainer를 활용하여 개인별 사이토카인 중증도 기여도를 분석하였습니다. 이 연구는 SCIE 논문(Scientific Reports, IF 3.9)으로 출판되었으며 제2저자로 참여하였습니다.
[EBV 양성 위암 환자에서 DHT 약물의 작용 기전 규명 멀티오믹스 연구]
경북대학교 약학대학과 협업하여 RNA-seq, BS-seq, ChIP-seq 세 가지 오믹스 데이터의 전처리와 분석을 전담하였습니다. FastQC, TopHat, SAMtools, HTSeq을 활용한 RNA-seq 전처리, Bismark을 활용한 BS-seq 전처리, Bowtie2와 Trimmomatic을 활용한 ChIP-seq 전처리를 수행하였고, edgeR를 활용한 DEG 분석, methylKit을 활용한 DMR 분석, IGV를 활용한 ChIP-seq 시각화를 수행하였습니다. 이 연구는 SCIE 논문 2편(Gastric Cancer IF 5.1, Cancers IF 4.4)으로 출판되었으며 공동저자로 참여하였습니다.
이상의 경험을 통해 멀티오믹스 데이터 분석, 의료 도메인에 적합한 AI 모델링 설계, 그리고 연구 방향성을 주도적으로 제안하고 성과를 창출하는 역량을 갖추게 되었습니다.