Bigramme

From Wikipedia, the free encyclopedia

Un bigramme est un cas particulier de n‑gramme : c'est une séquence de deux éléments adjacents, généralement deux mots consécutifs dans un texte.

En linguistique computationnelle, les modèles de n‑grammes (dont les bigrammes), sont largement utilisés pour analyser les fréquences de séquences et mettre en évidence des motifs récurrents, comme des préférences lexicales, des formules figées ou des tics de langage ; ces méthodes peuvent contribuer à identifier des formes de répétition cyclique que l’on peut décrire, dans une perspective plus interprétative, comme des « boucles textuelles » (Une boucle textuelle est un motif de texte (mot, groupe de mots, syntagme, fragment de phrase, titre, slogan) qui se répète de manière cyclique dans un discours ou un corpus, souvent avec une forme identique ou très proche. Cette répétition peut être intra‑texte (au sein d’un même texte : refrain, anaphore, leitmotiv, reprise d’un même segment) ; ou inter‑texte (à travers différents textes : recyclage de titres, de slogans, de formules fixées, etc.).

Dans le domaine de l'intelligence artificielle

Un modèle de langage bigramme est un modèle statistique qui prédit chaque mot d’une séquence uniquement à partir du mot qui le précède, en appliquant l’hypothèse de Markov pour simplifier les dépendances linguistiques.

Il calcule ainsi des probabilités conditionnelles sur des paires de mots consécutifs, ce qui en fait un outil simple mais limité, capturant seulement des dépendances locales. Malgré ces limites, il a été une base historique importante pour des applications comme la génération de texte, la reconnaissance vocale ou la traduction automatique, et il a servi de base à des modèles plus avancés tels que les trigrammes et les réseaux neuronaux modernes[1].

Dans le domaine des jeux

Applications

Références

Related Articles

Wikiwand AI