SAM (format de fichier)

From Wikipedia, the free encyclopedia

Développé par
Type de format
SAM (format de fichier)
Caractéristiques
Développé par
Type de format
Basé sur
Site web

Le format de cartographie d'alignement de séquence, en anglais sequence alignment map (SAM) est un format texte permettant de stocker des séquences biologiques alignées sur une séquence de référence développé par Heng Li et Bob Handsaker et al[1]. Il est largement utilisé pour stocker des données telles que séquences de nucléotides générées par les technologies de séquençage de nouvelle génération. Le format prend en charge les lectures (en anglais reads) courts et longs (jusqu'à 128 Mbit/s) produit(e)s par différentes plates-formes de séquençage et est utilisé pour conserver des données alignées dans le cadre du Genome Analysis Toolkit (GATK) et au sein du Broad Institute, Wellcome Sanger Institute et du projet 1000 Genomes. Ce format peut contenir des qualités d'appel de base ou base-calling, d'alignement et d'autres données[2],[3].

Le format SAM comprend un en-tête et une section d'alignement[1]. L'équivalent binaire d'un fichier SAM est un fichier BAM (Binary Alignment Map), qui stocke les mêmes données mais selon une représentation binaire compressée[3]. Les fichiers SAM peuvent être analysés et édités avec le logiciel SAMtools[1]. Si présente, la section d'en-tête doit précéder la section d'alignement. Les en-têtes commencent par le symbole "@", ce qui les distingue de la section d'alignement. La section d'en-tête peut indiquer si les reads sont triés et comment le cas échéant, et comprend en général les longueurs en paires de bases des chromosomes de référence de l'assemblage utilisé, ainsi que la ligne de commande utilisée par le programme d'alignement[4]. Les sections d'alignement comportent 11 champs obligatoires, ainsi qu'un nombre variable de champs facultatifs[1].

Col Champ Type Brève description
1 QNAME Chaîne NOM de la séquence requête
2 FLAG Int FLAG au niveau des bits
3 RNAME Chaîne NOM de la séquence de référence
4 POS Int POSition 5' (basée sur 1) de l'alignement
5 MAPQ Int Qualité MAPping
6 CIGAR Chaîne Chaîne de caractères CIGAR
7 RNEXT Chaîne Réf. nom du read apparié / prochaine read
8 PNEXT Int Position du read apparié / prochaine read
9 TLEN Int Longueur de séquence observée ou d'insertion (paired-end)
10 SEQ Chaîne segment SEQuence
11 QUAL Chaîne Qualités de base ASCII selon l'échelle Phred QUALity + 33

Description

Voir aussi

Références

Related Articles

Wikiwand AI