RNA-seq 전처리 파이프라인 비교

RNA-seq 전처리 파이프라인 비교 #

#2025-04-21

#

#1 Methods

비교 의의

Traditional 방법은 TopHat2+HTseq 조합이지만 오류도 넘 많이나고 Rsubread를 쓰면 빠르고 깔끔한데 왜 써야하지..? 싶어서 동일한 데이터(pair-end fastq)로 돌려봄.
HTseq에서 아래 코드를 수행할때 파라미터가 많은데 뭐가 다르게나오는지 모르겠어서 실험해봄.

Cases

Rsubread 사용
HTSeq 사용, -i gene_id --additional-attr=gene_name (exon 기준 count)
HTSeq 사용, -i transcript_id --additional-attr=gene_id --additional-attr=gene_name (transcript 기준 count)
HTSeq 사용, -i transcript_id --additional-attr=gene_id --additional-attr=gene_name --nonunique=all (여러 transcript에 매핑된 read는 모두 count)

#

#2 Result

A1CF gene count
- Rsubread 사용: 378
- HTSeq exon: 248
- HTSeq transcript: 0
- HTSeq transcript nonunique: 최대 343 (ENST00000373997 사용시)
Rsubread와 HTseq-transcript-nonunique 버전이 개수가 제일 비슷하게 나왔다.

DEG, Pathway 분석 비교
- DEG 개수는 Rsubread 2612, TopHat-HTseq 2818이고 2191개 겹쳐서 비슷한것같음.
- Pathway 분석 결과 중요한 term이었던 DNA methylation, Viral carcinogenesis를 포함해서 term과 p-adj도 비슷하게 나왔다.

#

#3 결론

Rsubread 써도 될듯.
HTseq은 보통 -i gene_id를 쓰던데 count 많이 뽑고싶으면 -i transcript_id --nonunique=all한 후 count 젤많은 transcript id 써주면 될것같다!

#