RNA-seq 전처리 #2 Alignment

RNA-seq 전처리 #2 Alignment #

#2026-01-25


#1 Alignment 작업

hg38 참조 유전체를 기준으로 DHT 약물 처리된 18개 샘플의 paired-end RNA-seq 데이터 정렬 작업 정렬 도구로는 TopHat 2.0.13을 사용하였고 대규모 데이터 처리 시간을 고려하여 40개 CPU 스레드를 활용하고 백그라운드에서 쉘과 분리된 상태(disown)로 실행함. Alignment 실행 로그는 파일로 리다이렉션하여 추후 확인 가능하도록 설정했고 파일 길이가 평균 100M으로 소요시간이 매우 커서 장시간 작업을 위해 터미널 종료 후에도 백그라운드 실행 유지하도록 & + disown으로 작업.

tophatpy -o ./tophat_out_33-1 -p 40 hg38.fa \
  5-AZA_33-1_1.fastq 5-AZA_33-1_2.fastq \
  > tophat_33-1.log 2>&1 &
disown

#2 Topaht 오류 트러블슈팅

TopHat2는 구형 코드로써 python2만을 지원하고 python3를 사용하는 서버 환경에서는 올바르게 실행되지 않는 문제가 발생.

$ tophat -r 20 test_ref reads_1.fq reads_2.fq

설치된 TopHat 디렉토리 구조를 확인한 결과, 실제 실행 파일은 아래 경로의 tophat.py임을 확인하였다.

/usr/local/src/tophat-2.0.13/src/tophat.py

해당 파일을 직접 호출할 수 있도록 .bashrc에 tophatpy라는 alias를 추가했고 alias 적용 후에는 tophat 대신 tophatpy 명령어를 통해 정상적으로 alignment 수행이 가능했다.

# .bashrc에 다음 내용 추가
alias tophatpy='/usr/local/src/tophat-2.0.13/src/tophat.py'

# 정상 실행
tophatpy -o ./tophat_out_33-1 -p 40 hg38.fa 5-AZA_33-1_1.fastq 5-AZA_33-1_2.fastq

#

#3 정리

hg38 기준으로 DHT 처리 RNA-seq 샘플 18개를 TopHat2로 정렬 작업. 대규모 연산을 위해 멀티스레드(40 threads) 및 백그라운드 실행 구성했다. python2 의존성으로 인한 실행 오류를 alias 설정으로 해결했다.