RNA-seq 전처리 #1 Quality control #
#2026-01-25
#1 quality control
DHT 약물 처리된 18개 샘플의 paired-end RNA-seq 데이터를 quality control 수행. FastQC 도구를 사용했고 run_fastqc.sh 스크립트 만들어서 작업.
#!/bin/bash
# input fastq directory
FASTQ_DIR="../2306_tophat/data/Bowtie2Index"
# output directory
OUT_DIR="FastQC"
# run fastqc
mkdir -p "${OUT_DIR}"
for fq in \
5-AZA_150-*_edited.fastq \
5-AZA_33-*.fastq \
5-AZA_con-*.fastq
do
echo "Running FastQC on ${fq}"
fastqc "${FASTQ_DIR}/${fq}" -o "${OUT_DIR}"
done
echo "FastQC completed."
chmod +x run_fastqc.sh
./run_fastqc.sh
품질 레포트 확인 결과 모든 샘플에 공통적으로 read 5’ 말단 1-10bp 구간의 염기 조성이 균일하지 않음. 참고 논문에 따라 1-10bp에 atgc가 서열 내용이 무작위로 분포하는 부분을 Trimming 작업. trim_fastq.sh 스크립트 만들어서 작업함.
#!/bin/bash
set -euo pipefail
# ===== 설정 =====
IN_DIR="../2306_tophat/data/Bowtie2Index"
OUT_DIR="./Trim"
S=10
E=0
mkdir -p "${OUT_DIR}"
FASTQ_FILES=(
"${IN_DIR}"/5-AZA_150-*.fastq
"${IN_DIR}"/5-AZA_33-*.fastq
"${IN_DIR}"/5-AZA_con-*.fastq
)
echo "[INFO] Trimming FASTQ files..."
for in_fq in "${FASTQ_FILES[@]}"; do
[[ -f "$in_fq" ]] || continue
base="$(basename "$in_fq")"
out_fq="${OUT_DIR}/${base%.fastq}_trimmed.fastq"
echo "[TRIM] $base -> $(basename "$out_fq")"
# ---- 기존 awk 로직 그대로 ----
awk -v s="${S}" -v e="${E}" '{if (NR%2 == 0) print substr($0, s+1, length($0)-s-e); else print $0; }' \
"$in_fq" > "$out_fq"
done
echo "[DONE] Trimming completed."
chmod +x trim_fastq.sh
./trim_fastq.sh > trim.log 2>&1
#
#2 정리
18개 샘플의 paired-end RNA-seq 데이터에 대해서 Fastqc를 사용해서 품질 평가를 수행. 품질 레포트 결과에 따라 5′ 말단 10bp trimming을 수행하여 alignment 입력 RNA-seq의 일관성을 확보했다.