sam/bam文件详解

7419 Views

介绍

sam 文件是Sequence Alignment/Map Format的简写,产生于比对之后的数据输出,记录了比对的具体情况。是我们在生物信息学习和操作过程中经常遇到的文件。

但是sam文件很大还需要借助工具才能查看里面的内容,而且里面的内容也很复杂。

samtools view file.sam | less -S

sam文件内容详解

@HD VN:1.6 SO:coordinate

@SQ SN:ref LN:1000

@PG ID:minimap2 PN:minimap2 VN:2.17-r941-dirty

read1 0 ref 10 60 5S5M = 100 95 TTAGG IIIII NM:i:0

read2 0 ref 20 60 10M = 100 80 TAGCT IIIII NM:i:1

解析

SAM 文件由多行组成,每一行代表一个比对结果。每行中的列用制表符(\t)分隔。

@HD: 文件头信息,描述文件的版本和排序顺序。

@SQ: 参考序列信息,包括序列名称和长度。

@PG: 比对工具的相关信息。

每行的其他字段表示一个比对结果:

read1,read2: 读取序列的名称。

0: FLAG 字段,表示比对的一些属性,如是否匹配、是否为反向互补等。

ref: 参考序列的名称。

10,20: 比对结果在参考序列上的起始位置。

60: 比对结果的质量得分,表示比对的可信度或准确性。

5S5M,10M: 比对的 CIGAR 字符串,描述比对的操作和长度。这里的 "10M" 表示在比对中存在一个长度为 10 的匹配段。

=: 表示比对到同一条参考序列。

100,95,80: 比对结果在参考序列上的终止位置。

TTAGG,TAGCT: 比对到参考序列的序列。

IIIII: 比对序列的质量值。

NM:i:0,NM:i:1: 比对结果的编辑距离,表示与参考序列不匹配的碱基数量。

每一列代表不同的意思:

1.QNAME:读取序列的名称。

2.FLAG:表示比对的标志位,用于指示比对的属性和状态。

3.RNAME:比对到的参考序列的名称。

4.POS:比对在参考序列上的起始位置。

5.MAPQ:比对质量得分,表示比对的可信度。

6.CIGAR:比对的 CIGAR 字符串,描述比对的操作序列。

7.RNEXT:下一个比对的参考序列名称。

8.PNEXT:下一个比对的位置。

9.TLEN:比对序列的长度。

10.SEQ:比对的序列。

11.QUAL:序列的质量值。

广东电视台体育频道
饥荒萤火虫在哪里抓