FASTA (programme informatique)
From Wikipedia, the free encyclopedia
| Développé par | William R. Pearson |
|---|---|
| Dernière version | 36.3.5 () |
| Dépôt | github.com/wrpearson/fasta36 |
| Écrit en | C |
| Système d'exploitation | Type Unix, Linux, Microsoft Windows et macOS |
| Environnement | UNIX, Linux, Windows, Mac OS X |
| Type | Bioinformatique |
| Licence | Libre pour un usage académique |
| Site web | fasta.bioch.virginia.edu |
FASTA est à l'origine un programme d'alignement de séquences d'ADN et de protéine développé par William R. Pearson en 1988[1]. Au fil de son développement, il est devenu une suite de programmes, étendant ainsi ses possibilités en termes d'alignement. FASTA est le descendant du programme FASTP publié par David J. Lipman et William R. Pearson en 1985[2]. Un des héritages de ce programme est le format de fichier FASTA qui est devenu un format standard en bioinformatique.
À l'origine, le programme FASTP était conçu pour la recherche de similarités dans les séquences protéiques (protéine:protéine)[2]. L'amélioration de ce dernier donna naissance au programme FASTA qui ajouta la possibilité de faire ce même type de recherche pour des séquences nucléiques (ADN:ADN) mais également des recherches de similarités entre séquences nucléiques et protéiques (ADN_traduit:protéine)[1]. Par ailleurs la méthode de calcul du score de similarité fut aussi améliorée pour prendre en compte de multiples régions[1].
En même temps que la publication de FASTA, deux autres programmes furent publiés[1] : RDF2, programme testant statistiquement la pertinence des scores de similarité par une méthode de randomisation, et LFASTA, programme identifiant des similarités de séquence localement et non à l'échelle de la séquence entière (on peut voir ici les prémices du programme BLAST) et permettant l'affichage de ces alignements.
FASTA devrait être prononcé [fasteɪ] puisqu'il signifie "FAST-All", étant donné qu'il fonctionne avec l'alphabet nucléique et protéique et est une extension des programmes d'alignement "FAST-P" (pour protéine) et "FAST-N" (pour nucléotide)[3]. Cependant la prononciation usuellement employé est [fasta].
Utilisation
Actuellement, FASTA est une suite de programmes permettant des alignements protéine:protéine, ADN:ADN, protéine:ADN_traduit (avec prise en charge des décalages de cadres de lecture) et pouvant utiliser des séquences ordonnées ou non-ordonnées[4]. Les versions récentes de cette suite incluent des algorithmes spéciaux de recherche par traduction qui traitent correctement les erreurs de décalage de cadres de lecture (ce qu'une recherche dans les six cadres de lecture ne traite pas aussi efficacement) lors d'une comparaison de séquences nucléique et protéique.
En plus des méthodes de recherche heuristique rapides, la suite FASTA fournit le programme SSEARCH qui est une implémentation de l'algorithme de Smith-Waterman.
L'un des objectifs de cette suite est le calcul de statistiques de similarités précises, de sorte que les biologistes puissent juger s'il s'agit d'un alignement obtenu par chance ou s'il peut être utilisé pour inférer une homologie.
La suite FASTA peut être utilisée localement ou à partir de trois serveurs se situant :
- sur le site officiel
- sur le site de l'Institut Européen de Bioinformatique (EBI)
- sur le site de l'Encyclopédie de Gènes et Génomes de Kyoto (KEGG)
Le format de fichier FASTA utilisé comme fichier d'entrée pour les programmes de cette suite est un format devenu un standard de facto par sa très large utilisation dans le domaine bioinformatique[5], étant amplement utilisé par d'autres programmes de recherche de séquences au sein de bases de données (tel que BLAST) ou d'alignement de séquences (comme Clustal, T-Coffee, etc.).