SAM (format de fichier)
From Wikipedia, the free encyclopedia
- Heng Li
- Bob Handsaker
- Alec Wysoker
- Tim Fennell
- Jue Ruan
- Nils Homer
- Gabor Marth
- Gonçalo Abecasis
- Richard M. Durbin
- projet 1000 Genomes[1]
| Développé par |
|
|---|---|
| Type de format | |
| Basé sur | |
| Site web |
Le format de cartographie d'alignement de séquence, en anglais sequence alignment map (SAM) est un format texte permettant de stocker des séquences biologiques alignées sur une séquence de référence développé par Heng Li et Bob Handsaker et al[1]. Il est largement utilisé pour stocker des données telles que séquences de nucléotides générées par les technologies de séquençage de nouvelle génération. Le format prend en charge les lectures (en anglais reads) courts et longs (jusqu'à 128 Mbit/s) produit(e)s par différentes plates-formes de séquençage et est utilisé pour conserver des données alignées dans le cadre du Genome Analysis Toolkit (GATK) et au sein du Broad Institute, Wellcome Sanger Institute et du projet 1000 Genomes. Ce format peut contenir des qualités d'appel de base ou base-calling, d'alignement et d'autres données[2],[3].
Le format SAM comprend un en-tête et une section d'alignement[1]. L'équivalent binaire d'un fichier SAM est un fichier BAM (Binary Alignment Map), qui stocke les mêmes données mais selon une représentation binaire compressée[3]. Les fichiers SAM peuvent être analysés et édités avec le logiciel SAMtools[1]. Si présente, la section d'en-tête doit précéder la section d'alignement. Les en-têtes commencent par le symbole "@", ce qui les distingue de la section d'alignement. La section d'en-tête peut indiquer si les reads sont triés et comment le cas échéant, et comprend en général les longueurs en paires de bases des chromosomes de référence de l'assemblage utilisé, ainsi que la ligne de commande utilisée par le programme d'alignement[4]. Les sections d'alignement comportent 11 champs obligatoires, ainsi qu'un nombre variable de champs facultatifs[1].
| Col | Champ | Type | Brève description |
|---|---|---|---|
| 1 | QNAME | Chaîne | NOM de la séquence requête |
| 2 | FLAG | Int | FLAG au niveau des bits |
| 3 | RNAME | Chaîne | NOM de la séquence de référence |
| 4 | POS | Int | POSition 5' (basée sur 1) de l'alignement |
| 5 | MAPQ | Int | Qualité MAPping |
| 6 | CIGAR | Chaîne | Chaîne de caractères CIGAR |
| 7 | RNEXT | Chaîne | Réf. nom du read apparié / prochaine read |
| 8 | PNEXT | Int | Position du read apparié / prochaine read |
| 9 | TLEN | Int | Longueur de séquence observée ou d'insertion (paired-end) |
| 10 | SEQ | Chaîne | segment SEQuence |
| 11 | QUAL | Chaîne | Qualités de base ASCII selon l'échelle Phred QUALity + 33 |