Bioinformatics

Bioinformatics #


2025-04-21 ⋯ WGBS 전처리 (Bismark)

1. Build Index 2. Bam Sorting & Indexing 3. Methylation Extraction


2025-04-21 ⋯ Sleuth 작업

1. Load Package, Run Sleuth - 자꾸 커널이 죽어서 ㅠㅠ r script 통으로 돌림 - 생애첫 rscript작성이었어서 기억에남는다 ㅋㅋㅎ


2025-04-21 ⋯ RNA-seq 전처리 파이프라인 비교

Methods 비교 의의 - Traditional 방법은 TopHat2+HTseq 조합이지만 오류도 넘 많이나고 Rsubread를 쓰면 빠르고 깔끔한데 왜 써야하지..? 싶어서 동일한 데이터(pair-end fastq)로 돌려봄. - HTseq에서 아래 코드를 수행할때 파라미터가 많은데 뭐가 다르게나오는지 모르겠어서 실험해봄. Cases 1. Rsubread 사용 2. HTSeq 사용, `-i gene_id --additional-attr=gene_name` (exon 기준 count) 3. HTSeq 사용, `-i transcript_id --additional-attr=gene_id --additional-attr=gene_name` (transcript 기준 count) 4. HTSeq 사용, `-i transcript_id --additional-attr=gene_id --additional-attr=gene_name --nonunique=all` (여러 transcript에 매핑된 read는 모두 count) Result - A1CF gene count - Rsubread 사용: 378 - HTSeq exon: 248 - HTSeq transcript: 0 - HTSeq transcript nonunique: 최대 343 (ENST00000373997 사용시) - Rsubread와 HTseq-transcript-nonunique 버전이 개수가 제일 비슷하게 나왔다. - DEG, Pathway 분석 비교 - DEG 개수는 Rsubread 2612, TopHat-HTseq 2818이고 2191개 겹쳐서 비슷한것같음. - Pathway 분석 결과 중요한 term이었던 DNA methylation, Viral carcinogenesis를 포함해서 term과 p-adj도 비슷하게 나왔다. 결론 - Rsubread 써도 될듯. - HTseq은 보통 `-i gene_id`를 쓰던데 count 많이 뽑고싶으면 `-i transcript_id --nonunique=all`한 후 count 젤많은 transcript id 써주면 될것같다!


2025-04-21 ⋯ RNA-seq 전처리 (TopHat, SAMtools, HTSeq)

TopHat 실행 - `tophatpy`: tophat2 안먹어서 커스텀한 명령어 (정식 명령어는 tophat2) - `-o tophat_out_33-1`: 출력 디렉토리 설정 - `--no-mixed`: 페어 중 하나만 매핑되면 제외 - `-p 40`: 멀티스레딩, 40개 스레드 사용 - `/data3/PUBLIC_DATA/...dna.toplevel`: reference genome FASTA (Bowtie2 인덱스가 이와 동일한 경로로 있어야 함) - 2개의 paired-end read 입력 cf) tophat alias 확인 cf2) Bowtie Index Build 안했다면? SAMtools 정렬 - `-n`: 이름(name) 기준 정렬 (HTSeq에서 이름 기준 정렬 필요) HTSeq-count 실행 - `TopHat/tophat_out_33-2/accepted_hits.sorted.bam`: 정렬된 BAM 파일 - `-s no`: strand 정보 무시 - `-a 0`: 최소 alignment quality 0 - `-c`: count 결과 저장 경로 - Custom Parameters - `-i transcript_id`: count 기준 feature ID (예: exon이 아닌 transcript 수준으로 count) - `--additional-attr`: gene_id, gene_name 등 추가 정보 기록 - `--nonunique=all`: 여러 feature에 매핑된 read는 모두 count


2025-04-21 ⋯ RNA-seq 전처리 (Rsubread, edgeR)

가장 오류 적게나는 조합! 1. Align RNA-seq Load Packages Set Path Build Index Read Alignment Quantification Save Countdata 2. Gene ID Annotation Load Packages Set Path Load Annotation Load Count & Gene ID Mapping Transcript Filtering Save 3. DEG Analysis Library & Set Path Set variables & Load Data Create DGElist & Normalization Run DEG Save


2025-04-21 ⋯ Kallisto Pseudoalignment 작업

1. Build Index 2. Pseudoalign - 3개 파일 생성 - abundance.h5 - HDF5 binary file containing run info, abundance esimates, bootstrap estimates, and transcript length information length. This file can be read in by sleuth - abundance.tsv - plaintext file of the abundance estimates. It does not contains bootstrap estimates. Please use the --plaintext mode to output plaintext abundance estimates. Alternatively, kallisto h5dump can be used to output an HDF5 file to plaintext. The first line contains a header for each column, including estimated counts, TPM, effective length. - run_info.json - json file containing information about the run 3. Downstream 분석 - Kallisto는 일반적인 Alignment 도구와 달리 bam 파일을 output으로 생성하지 않기 때문에 HTSeq-count를 쓰는 대신 abundance.tsv 또는 .h5 파일을 Sleuth에서 직접 불러와서 통계 분석을 수행하는 것이 표준 워크플로우.


2025-04-21 ⋯ Enrichment 분석 및 시각화 (gProfiler/ggplot2)

Load Package Set Path Functional Enrichment Bubble Plot ~원래 이쁜그림인데,, 안이뻐보이는건 데이터탓임~


2025-04-21 ⋯ ChIP-seq 전처리 (trimmomatic, samtools)

1. Trimming chipseq_trimming.sh 2. Alignment chipseq_alignment.sh 3. Peak Calling bedgraph.sh