sra and fastq
- sra是把双端测序的2个文件合成了1个,而fq文件是2个
- 后续很多分析仪fastq格式文件进行,所以一般下载下来sra都要转换为fastq(可以用软件fastq-dump)
- fastq文件格式是用来存储测序文件的,它是含有quality的fasta文件
1 | @ST-E00126:128:HJFLHCCXX:2:1101:7405:1133 |
- fastq文件以4行为1个单位
- 第一行是@开头的解释信息,第主要储存序列测序时的坐标等信息
- 第二行是序列reads
- 第三行+开头,可以储存一些附加信息,一般是空的
- 第四行是对应的测序质量ASCII码,可以理解为对应位置碱基的质量值
fasta and gff、gtf
- FASTA文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等
- 简单理解就是,fq文件是测序后直接得到的,而fa文件是用各种软件处理了fq文件后得到的
- 与fa文件配套的就是注释文件gtf/gff,注释文件给出了外显子、内含子、基因等的位置信息
- gff主要用来注释基因组,gtf主要用来注释基因,2种文件格式可相互转换
1 | >gi|556503834|ref|NC_000913.3|:190-255 Escherichia coli str. K-12 substr. MG1655, complete genome |
- 第一行是由大于号”>”开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列ID部分可以包含注释信息
- 从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号
- 序列部分可以在一行,也可以分成多行
sam and bam
- 都是序列比对结果,是储存大型核苷酸比对文件的通用格式
- BAM文件是SAM文件的压缩形式,SAM文件的内容在BAM文件中被压缩为二进制形式储存,以节约储存空间
1 | SRR3494880.3316692 0 chr1 3000357 34 50M * 0 0 ATTATAGTACAGTCCCTATGCCCTCTAGTTAGTCTGGCTAAGGGTTTATC @C@FFFFDHFHHFHIJIBHHHIIHIGIIFHIIHIIJIIIGGGGIGGIHIG AS:i:100 XS:i:76 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:50 YT:Z:UU |
- SAM格式的主要内容可分为三部分:
- header信息,包括SAM文件的部分信息和染色体位置索引
- 碱基序列
- read的质量打分