SKALA 재직자 특강용 1분 자기소개 #
#2025-09-22
#1 5분 자기소개 버전
안녕하십니까, 저는 바이오인포매틱스를 전공하며 AI 기반 질병 연관 마커 발굴 연구를 수행해 온 지원자 윤소현입니다.
저의 강점은 두 가지로 요약할 수 있습니다. 첫째, 도메인 지식을 활용한 cross-domain 모델링 역량입니다. 저는 SARS-CoV-2의 돌연변이가 암 유전체 연구에서 반복적으로 나타나는 hotspot mutation 개념과 매우 유사하다는 인사이트를 기반으로 암 분야에서 고안된 hotspot 탐지 알고리즘들을 바이러스 데이터에 응용할 수 있다는 가정을 세웠고, 이를 기반으로 변이 밀도 기반의 클러스터링 알고리즘을 개발하여 SARS-CoV-2 중증도 관련 돌연변이 hotspot을 식별하였습니다. 이러한 경험을 통해 저는 서로 다른 분야의 연구 방법론을 통합해 새로운 인사이트를 도출하는 능력을 쌓을 수 있었습니다.
둘째, 생성형 AI를 활용한 연구 역량입니다. 저는 연구 초기에 Python과 R에 익숙하지 않았지만, 생성형 AI를 적극 활용하여 기초적인 baseline 코드를 구현하고 이를 기반으로 최신 XAI 방법론을 적용할 수 있었습니다. 예를 들어, COVID-19 환자의 질병 진행과 연관된 사이토카인 마커를 발굴하는 연구에서 XAI를 활용하는 기초 연구 baseline 코드를 생성형 AI를 통해 생성한 후, SHAP을 기반으로 한 여러 SCI급 연구의 방법론을 Python 코드화하고 baseline 코드에 적용시켜 낮은 Python 코딩 역량을 극복하고 빠르게 여러 방법론을 적용해볼 수 있었습니다. 최적의 방법론을 선택한 후에는 해당 방법론에 대한 깊은 이해를 통해 도메인 지식을 성공적으로 반영하였고, 초기에는 도구 활용에 의존했지만 점차 방법론에 대한 깊은 이해를 바탕으로 제 도메인 지식을 반영하여 새로운 연구적 가치를 창출하는 단계로 발전했습니다.
또한 저는 SK AX SKALA 과정에 참여하면서 AI 서비스 개발 경험도 쌓았습니다. 단순히 모델 개발에 그치지 않고, 실제 서비스화 과정에서 필요한 파이프라인 설계, 후처리 전략, 사용자 친화적 해석 가능성까지 고민하며 역량을 넓혔습니다.
요약하면, 제 강점은 생성형 AI를 활용해 학습 속도를 높이고, cross-domain 모델링을 통해 새로운 문제 정의와 해법을 제시하는 점입니다. 이러한 강점을 바탕으로 SK 바이오팜 연구개발팀을 문제를 더 빨리 정의하고, 덜 틀리며, 더 자주 배우는 팀으로 만들어 팀이 더 신속하고 정확하게 학습하며 지속적으로 성장하는 데 기여하겠습니다.
이상으로 제 소개를 마치겠습니다. 감사합니다.
#
#2 프롬프팅
5분 자기소개를 작성해줘
- 지원 기업 - SK 바이오팜
- 전공 - 바이오인포매틱스
- 역량 - AI 활용 질병 연관 마커 발굴
- 경험 - 도메인 지식 활용 클러스터링 알고리즘 개발 및 XAI 연구
- 참여 연구 - SARS CoV 2 돌연변이 클러스터링 알고리즘 개발 연구, SHAP 활용 COVID-19 질병 진행 사이토카인 마커 발굴 연구
- 참여 교육 - SK AX SKALA (AI 서비스 개발)
- 장점 - cross-domain 모델링 역량, 생성형 AI 활용 능력
- cross-domain 모델링 역량: 바이러스 돌연변이는 무작위로 발생하지만 실제 분포는 엄연히 군집을 형성하고 있으며 이는 해당 돌연변이의 생존에 관여한 외부 요인의 존재를 보여줌. 암에서 Hotspot mutation은 여러 환자에서 동일한 위치에 반복적으로 나타나는 돌연변이로써 우연히 발생할 가능성이 낮기 때문에 기능적 역할을 할 가능성이 높다고 간주됨에 따라 무의미한 hotspot을 거르고 중요한 hotspot 식별을 위한 여러 알고리즘이 고안되어 있지만 바이러스 유전체에 대해서는 그렇지 않은데, 우리 데이터는 암 유전체가 아닌 바이러스 유전체이지만 돌연변이 빈도가 높은 위치를 hotspot mutation으로 보는 시각이 동일하며 우연히 발생할 가능성이 낮기 때문에 기능적 역할을 할 가능성이 높다 « 라는 가정 또한 일치하므로 중요한 hotspot 식별을 위해 고안된 해당 알고리즘들은 우리 알고리즘과 비교 대상으로 적절하다는 가정 하에 암 핫스팟 탐지 알고리즘들에서 적용하는 인사이트를 기반으로 돌연변이 핫스팟 식별 알고리즘을 개발하였음.
- 생성형 AI 활용 능력: 비전공자로서 python 코딩 및 R 코딩이 익숙하지 않았지만 생성형 AI를 통해 연구에 필요한 작업들을 안정적으로 수행할수 있었음. SCIE 저널에 기재된 XAI 연구를 수행하며 XAI를 활용하는 기초 연구 baseline 코드를 생성형 AI를 통해 생성한 후, SHAP을 기반으로 한 여러 SCI급 연구의 방법론을 python 코드화하고 baseline 코드에 적용시켜 낮은 Python 코딩 역량을 극복하고 빠르게 여러 방법론을 적용해볼수있었음. 최적의 방법론을 선택한 후에는 해당 방법론에 대한 깊은 이해를 통해 도메인 지식을 성공적으로 반영하여 기존에 없는 인사이트를 발굴함으로써 SCI 급 저널에 성공적으로 참여할 수있었음.
“이 역량이 있는 팀은 문제를 더 빨리 정의하고, 덜 틀리며, 더 자주 배웁니다."«요 문장 느낌이 좋아서 넣어줫으면 좋겠어
#
#3 1분 자기소개 버전
안녕하십니까, SK 바이오팜 연구개발팀 지원자 윤소현입니다.
저의 강점은 도메인 지식을 활용한 cross-domain 모델링 역량과 생성형 AI 활용 능력입니다. 저는 SARS-CoV-2 연구에서 암 유전체의 hotspot 개념을 적용해 중증도 관련 돌연변이를 규명했고, 또 생성형 AI를 통해 XAI 아이디어를 빠르게 코드화하여 COVID-19 진행과 연관된 바이오마커를 발굴한 경험이 있습니다.
요즘 AI 서비스 개발에서는 생성형 AI를 활용해 큰 그림을 빠르게 파악하고 핵심 논점을 정리하며, 필요한 작업을 제안하고 실행까지 연결하는 능력이 중요합니다. 제 강점을 바탕으로 SK 바이오팜에서 복잡한 생체 데이터를 더 빠르고 정확하게 해석하고, 환자 맞춤형 디지털 바이오마커 발굴에 기여하겠습니다.
감사합니다.
#
#4 자기소개 핵심 요소
- cross-domain 모델링 역량
- 생성형 AI 활용 능력
- AI 서비스 개발의 중요성
- SK 바이오팜에서의 적용
#
#5 참여연구1-COVID19 SHAP 연구
- 연구 목적
- COVID-19 환자의 질병 진행 과정(악화 단계와 회복 단계)에 따라 차별적으로 발현되는 사이토카인을 규명하고, XAI 기법 SHAP을 기반으로 질병 진행을 설명할 수 있는 바이오마커를 발굴
- 연구 설계
- 데이터 수집: COVID-19 환자 444명, 건강 대조군 145명으로부터 전자건강기록(EHR)과 혈액 기반 사이토카인 발현 데이터 확보
- 전처리: 191종의 사이토카인 중 결측치 비율 15% 이하인 166종만 선택, MissForest(Random Forest 기반 결측치 대체) 기법을 사용
- 병리적 진행 그룹(PPG) 정의: 종양괴사인자 비율(NLR), 젖산탈수소효소(LDH) 지표를 이용해 Deterioration Phase(DP), Recovery Phase(RP)로 구분
- 모델 구축: Random Forest 분류기를 Healthy vs Severe 환자 데이터로 학습 → 각 사이토카인의 기여도를 SHAP(Shapley Additive Explanations) 값으로 산출
- 샘플 군집화: SHAP 값 기반 UMAP 차원축소 후 DBSCAN 클러스터링을 적용해 DP/RP 특이적 사이토카인 패턴 탐색
- 통계 분석: Welch 보정 t-test와 Benjamini–Hochberg 절차를 통해 DP와 RP 간 차별적 발현 사이토카인 식별
- 네트워크 분석: STRING 데이터베이스로 단백질-단백질 상호작용(PPI) 네트워크 구축 및 KEGG 경로 분석
#
#6 참여연구2-MutClust 개발 연구
- 연구 목적
- SARS-CoV-2 유전체 상에서 중증도와 관련된 돌연변이 hotspot을 식별하기 위해 밀도 기반 클러스터링 기법을 적용하고, 이를 통해 감염의 병리적 기전을 설명할 수 있는 변이 위치를 규명
- 연구 설계
- 데이터 수집: GISAID에서 확보한 대규모 SARS-CoV-2 서열 데이터와 환자 임상 중증도 정보
- 전처리: 서열 정렬(Multiple Sequence Alignment) 및 돌연변이 위치 추출, 변이 발생 빈도 계산
- 클러스터링: Density-Based Clustering 알고리즘 MutClust을 활용해 변이 hotspot을 탐지
- 심각도 연관성 분석: hotspot에 포함된 변이들을 환자 중증도 데이터와 매핑해 Severity-associated Hotspot 정의
- 통계 검증: 변이 분포와 중증도 간의 연관성을 통계적 유의성 검정으로 평가
- 시각화: hotspot 분포를 게놈 위치 기반 그래프로 표현하고, 중증도 관련 cluster를 강조 표시
#
#7 참여연구3-EBVaGC DHT 약물 연구
- 연구 목적
- Dihydrotestosterone(DHT)-Androgen receptor(AR) 신호가 EBV 양성 위암에서 DNA 탈메틸화 매개 바이러스 재활성을 유도하여 종양을 억제하는 분자적 기전을 규명
- 연구 설계
- 세포주 및 처리: EBV 감염 위암 세포주(SNU719, MKN1-EBV)에 DHT 처리 후 AR 의존적 반응 평가
- 유전자 발현 분석: RNA-seq (Trimmomatic, HISAT2, SAMtools, StringTie, edgeR), 기능 분석(gProfiler)
- 세포 사멸 측정: CCK-8 cytotoxicity assay, Muse Annexin V & Dead Cell assay
- 유전자 조작: CRISPR/Cas9 및 shRNA 기반 AR knockdown/knockout 모델 구축
- 단백질 분석: Western blot (ATM, H2A.X, p53, DNMT3A, EBV 단백질 BZLF1, EBNA1 등)
- 에피제네틱 분석: 전장 비스펄파이트 시퀀싱(WGBS, Bismark, Bowtie2, Bedtools)으로 DNA 메틸화 패턴 평가
- 바이러스 활성 측정: EBV DNA copy 수(qPCR), 루시퍼레이스 리포터(BHLF1 promoter)
- 신호전달 분석: PI3K-Akt, DNA damage response(ATM, γ-H2A.X, p53) 활성 평가
- 생체 내 검증: 마우스 이종이식 모델(MKN1-EBV, SNU719)에서 종양 성장, 면역세포 침윤, 바이러스 유전자 발현 관찰
- 임상 데이터 분석: Kaplan–Meier 생존 분석(TCGA PanCancer Atlas, TCGA Nature 2014 dataset)
- 참여 파트
- 유전자 발현 분석: RNA-seq 데이터 전처리 및 분석
- Trimmomatic: read quality control
- HISAT2: reference genome 정렬
- SAMtools: alignment 처리 및 관리
- StringTie: transcript 조립 및 정량화
- edgeR: 발현 차이 분석 (DEG)
- gProfiler: 기능적 pathway enrichment 분석
- 에피제네틱 분석: 전장 비스펄파이트 시퀀싱(WGBS) 데이터 전처리 및 분석
- Bismark: bisulfite read alignment
- Bowtie2: 시퀀스 매핑
- Bedtools: 메틸화 패턴 및 genomic feature 매핑
#
#8 ai 서비스 개발 요구역량
- 질문
- 최근 ai 서비스 개발 직무에서 생성형 ai를 활용해서 큰 그림을 빠르게 파악하고 논점을 찾고 필요한 작업을 제안 및 수행하는 역량이 중요한 이유?
- gpt 응답
다 맞는 말이에요. 요즘 AI 서비스 개발에서 “생성형 AI로 큰 그림을 빨리 잡고(맥락 파악) → 논점을 뽑아내고(핵심 정리) → 필요한 일을 제안·실행까지 잇는 능력”이 핵심 역량이 된 이유를, 제품·조직·기술 관점에서 정리해볼게요.
1) 왜 지금 더 중요한가 — 경쟁력이 “속도·정렬·실행”으로 이동
속도: 모델 자체를 새로 만드는 가치보다, 이미 있는 LLM·벡터DB·툴링을 조합해 의사결정과 프로토타입 시간을 단축하는 가치가 커졌습니다. “빨리 이해→빨리 가설→빨리 실험”이 곧 경쟁력.
정렬(Alignment): 비정형 정보(회의록·이메일·이슈·로그)가 폭증합니다. 생성형 AI는 이를 요약·구조화해서 팀이 같은 문제 정의와 우선순위에 합의하기 쉽게 만듭니다.
실행(Execution): 생성형 AI는 제안에서 멈추지 않고, 코드 스캐폴딩·테스트케이스·SQL/대시보드 쿼리·PRD 초안까지 뽑아 즉시 행동으로 연결합니다. “말→문서→코드”가 한 스트로크로 이어짐.
2) 제품 수명주기별로 보는 구체 가치
문제 발굴(Discovery): 산재한 데이터(고객 VOC, CS 티켓, 로그, 리서치)를 흡수해 문제 지형도를 만들고, 중복 이슈/루트원인을 묶어 핵심 논점을 드러냅니다. → 팀 킥오프 시간이 절반으로 줄어듦.
기획(Scoping): 요구사항을 구조화해 PRD·성공지표·리스크를 자동 제안. 누락된 데이터 수집 포인트, AB 실험 설계를 함께 생성 → 기획/데이터/엔지니어가 같은 캔버스에서 출발.
프로토타이핑(Delivery): API 스펙·샘플 데이터·테스트 코드·UI 스켈레톤을 일괄 생성 → TTFP(Time To First Prototype) 단축. 베이스라인이 빨라져 팀이 더 좋은 설계에 집중.
운영(Ops): 장애/비정상 지표 발생 시 로그를 요약·원인 후보를 제시하고 즉시 실행 체크리스트(롤백, 플래그, 대안 쿼리)를 뽑아 MTTR를 줄임.
성능·품질(Eval): 사용자 피드백/실패 사례를 모아 평가세트와 가드레일을 자동 업데이트 → 품질 회귀를 빠르게 탐지.
커뮤니케이션: 릴리즈 노트·주간보고·고객용 안내문을 용도별 톤&매너로 즉시 생산 → 조직 전반의 전달 손실 최소화.
3) 실제 업무 흐름에서 생기는 이득 (예시 시나리오)
주간보고 자동화: Slack·Notion·Drive에서 주차 메타데이터로 수집 → 생성형 AI가 핵심 성과/이슈/리스크/다음 액션을 추출·정리. PM/리더 의사결정 대기 시간이 급감.
기능 개선 가속: “이탈 이유 분석” 요청 시, LLM이 쿼리/대시보드 가설을 제안하고, 샘플 SQL·추정 임팩트·테스트 설계를 함께 생성 → 바로 실험 착수.
장애 대응: 과금 급증 알람 → LLM이 최근 코드 변경·트래픽 급증 구간·오류 패턴을 요약하고 우선 조치 시나리오를 제시 → 핫픽스 속도 ↑.
4) 이 능력을 구성하는 핵심 스킬
문제 프레이밍: 목표·제약·데이터 가용성을 명확히 정의하고, 모호한 요청을 의사결정 가능한 형태로 재구성.
RAG/컨텍스트 파이프라인: 임베딩·청킹·메타데이터(예: week-id) 설계로 정확한 근거 기반 요약/결론을 보장.
툴-사용/함수호출 설계: LLM이 DB·API·스크립트에 안전하게 접근해 작업을 실행할 수 있게 구조화(스크립트 템플릿, 파라미터 검증).
평가·가드레일: 오답/환각 대비 오프라인 평가세트, 인용/근거 노출, 금칙/PII 필터, 비용/지연 모니터링.
오퍼레이션: 캐시·요청 라우팅·모델 선택(프라이싱/지연/품질 트레이드오프)·사용 로그 기반 지속 개선.
협업 커뮤니케이션: 한 문서로 엔지니어·데이터·디자인·영업이 동시에 이해 가능한 산출물을 낼 수 있는 포맷 감각.
5) 조직 KPI로 바로 연결되는 부분
TTI(Time-to-Insight), TTFP 단축
의사결정 대기 시간 감소(회의/리뷰 라운드 수 감소)
실험 속도/주당 실험 수, 학습 사이클 압축
운영 안정성(MTTR, 장애 건수) 개선
품질 지표(정확도·CSAT·리콜/정밀도)와 비용/요청당 지연의 동시 최적화
6) 면접·성과에서 어떻게 보여주나
Before/After 사례: “수작업 정리 6시간 → LLM+RAG로 20분, 주간보고 리드타임 66%↓”처럼 정량 증거 제시.
라이브 데모: 리포지토리/로그/이슈를 넣고 “논점·다음 액션·테스트 플랜”을 즉시 뽑는 에이전트 워크플로 시연.
산출물 패키지: PRD 초안, 실험 설계, 대시보드 쿼리, 가드레일 정책, 운영 대본(runbook)까지 끝단까지 연결된 아티팩트로 증명.
7) 흔한 함정과 대응
환각/근거 불명 → RAG, 출처 노출, 신뢰도 스코어, 중요 결정은 Human-in-the-loop
데이터/보안 리스크 → PII 레드랙션, 도메인 격리, 권한/감사 로그
과도한 자동화 → 임계작업은 승인 게이트, 롤백/세이프가드 스위치
비용 폭증 → 캐싱·요약 깊이 제어·모델 다단 선택(고가/저가 라우팅)·쿼터 알림
한 줄 요약
“생성형 AI로 맥락을 즉시 이해하고, 논점을 뽑아 실행 가능한 태스크로 번역하며, 최소 가이드로 바로 움직이게 만드는 능력”은 오늘날 AI 서비스의 속도·정렬·운영 품질을 동시에 끌어올리는 가장 직접적인 레버입니다. 이 역량이 있는 팀은 문제를 더 빨리 정의하고, 덜 틀리며, 더 자주 배웁니다.