一般流程

  • 原始数据

  • 质控—–QC

    • FastQC
  • 基因组对比—–Aligment

    • 将预处理序列与测序物种的参考基因组序列进行序列比对

    • 通过将每一个 read 快速的和参考基因组序列比对,最终得到 read在比对的基因组或其它参考序列上的位置及匹配质量等信息,进而才能对基因或转录本进行注释和定量

    • Hisat2、STAR

  • 对比结果量化—–FeatureCount

    • 通过对比对到参考基因组上的测序序列进行定量可以得到该组织或者细胞的所有基因的表达量
    • featurecount
  • 差异分析—–DEGs

    • limma、edgeR
  • 差异基因的功能富集分析—–GO、KEGG

FastQC

背景

  • 用于高通量序列数据的质量控制程序,输入FastQ,SAM,BAM文件,输出对测序数据评估的网页报告

安装使用

  • 首先确保已安装java
1
java --version
1
2
3
4
5
6
#conda安装
conda install fastqc

#通过源码安装
wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.12.1.zip
unzip fastqc_v0.12.1.zip
  • 环境

    1
    2
    3
    4
    5
    6
    7
    8
    9
    vim ~/.bashrc

    #文件尾加上,注意路径
    export PATH="/home/lwb/Software/FastQC:$PATH"

    source ~/.bashrc

    #检查是否安装成功
    fastqc --help
  • 运行

    1
    fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] [-t threads] seqfile1 .. seqfileN
  • [-o output dir]:指定FastQC输出结果的目录。默认情况下,结果将保存在当前工作目录中。

  • [--(no)extract]:设置是否解压缩输入文件。FastQC可以对gzipped或bzipped的文件进行处理,解压缩文件能够提供更准确的结果。该选项默认为自动解压缩。

  • [-f fastq|bam|sam]:指定输入文件的格式。可以选择fastq(默认),bamsam。根据输入文件的类型选择合适的格式。

  • [-c contaminant file]:指定一个污染物文件,用于检测和过滤掉可能存在的污染物序列。该文件包含了可能出现在样本中的污染物序列。

  • [-t threads]:指定使用的线程数。FastQC可以利用多个线程加快分析速度。默认为单线程处理。

  • seqfile1 .. seqfileN:输入的序列文件列表。可以指定一个或多个文件进行分析。

1
fastqc -t 4 -o ../output/FastQC_output/ ./*.fastq.gz

Hisat2

背景

HISAT2 (daehwankimlab.github.io)

科研干货 | 一文了解RNA序列比对软件HISAT2 - 知乎 (zhihu.com)

安装使用

1
hisat2 -x ./mm10/genome -1 SRR11008332_GSM4294207_RNAseq1_WT_Mus_musculus_RNA-Seq_1.fastq.gz -2 SRR11008332_GSM4294207_RNAseq1_WT_Mus_musculus_RNA-Seq_2.fastq.gz -S ../output/hisat2_output/output1.sam