sra and fastq

  • sra是把双端测序的2个文件合成了1个,而fq文件是2个
  • 后续很多分析仪fastq格式文件进行,所以一般下载下来sra都要转换为fastq(可以用软件fastq-dump)
  • fastq文件格式是用来存储测序文件的,它是含有quality的fasta文件
1
2
3
4
@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,
  • fastq文件以4行为1个单位
  • 第一行是@开头的解释信息,第主要储存序列测序时的坐标等信息
  • 第二行是序列reads
  • 第三行+开头,可以储存一些附加信息,一般是空的
  • 第四行是对应的测序质量ASCII码,可以理解为对应位置碱基的质量值

fasta and gff、gtf

  • FASTA文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等
  • 简单理解就是,fq文件是测序后直接得到的,而fa文件是用各种软件处理了fq文件后得到的
  • 与fa文件配套的就是注释文件gtf/gff,注释文件给出了外显子、内含子、基因等的位置信息
  • gff主要用来注释基因组,gtf主要用来注释基因,2种文件格式可相互转换
1
2
3
4
5
6
7
8
>gi|556503834|ref|NC_000913.3|:190-255 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA
>gi|556503834|ref|NC_000913.3|:337-2799 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTC
TGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCT
GGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATT
TTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCG
TCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAG
  • 第一行是由大于号”>”开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列ID部分可以包含注释信息
  • 从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号
  • 序列部分可以在一行,也可以分成多行

sam and bam

  • 都是序列比对结果,是储存大型核苷酸比对文件的通用格式
  • BAM文件是SAM文件的压缩形式,SAM文件的内容在BAM文件中被压缩为二进制形式储存,以节约储存空间
1
2
3
SRR3494880.3316692      0       chr1    3000357 34      50M     *       0       0       ATTATAGTACAGTCCCTATGCCCTCTAGTTAGTCTGGCTAAGGGTTTATC @C@FFFFDHFHHFHIJIBHHHIIHIGIIFHIIHIIJIIIGGGGIGGIHIG      AS:i:100        XS:i:76 XN:i:0  XM:i:0  XO:i:0  XG:i:0     NM:i:0  MD:Z:50 YT:Z:UU
SRR3494880.15751310 16 chr1 3000564 40 50M * 0 0 AGATTTGCTGTCAGGCTGCTAGTGTATACTCTAGTTTCCTTTTGGAGGCA CHIIGEIIGHJJIIGHJIHHGHEIHDFCHGEJJIGGHGHHHHFFFFFCCC AS:i:100 XS:i:53 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:50 YT:Z:UU
SRR3494880.6903632 16 chr1 3000596 37 50M * 0 0 AGTTTCCTTTTGGAGGCACACAGGCCTGTGAGTTTTACTCTTAGGACTGC IJIJIJJJJJJIGHIHHFGGJJJJJJJJIJJJJJIHFHHHHHFFFFFCCC AS:i:100 XS:i:69 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:50 YT:Z:UU
  • SAM格式的主要内容可分为三部分:
    • header信息,包括SAM文件的部分信息和染色体位置索引
    • 碱基序列
    • read的质量打分