Hyperbase
From Wikipedia, the free encyclopedia
Hyperbase est un logiciel d'exploration documentaire et statistique des textes, accessible par le Web ou utilisable sur micro-ordinateur. Il est diffusé par le CNRS et l'université Côte d'Azur et est conçu et développé par Étienne Brunet et Laurent Vanni, au sein de l'UMR « Bases, corpus, langage »[1]. Entre sa naissance en 1989 et sa version actuelle, Hyperbase a intégré le savoir-faire lexicométrique français en matière de statistique textuelle et d'exploration documentaire des grands corpus ; il s'est ouvert sur le deep learning et l'intelligence artificielle. Le logiciel est utilisé en linguistique[2], recherche littéraire[3], histoire[4], sociologie ou sciences politiques[5].
La première version date de 1989. Après vingt ans d’expériences en divers langages sur gros systèmes, Étienne Brunet se tourne vers les microordinateurs et crée à l’occasion du bicentenaire de la Révolution française, au Centre Georges-Pompidou, un logiciel micro-installable d'analyse des textes. D'abord développé sous Mac avec Hypercard, Hyperbase s'épanouit à partir de la fin des années 1990 sous Windows. Dans les années 2000, Hyperbase s'articule aux lemmatiseurs et étiqueteurs TreeTagger ou Cordial et dépasse ainsi le seul traitement statistique des mots graphiques par le traitement combiné des formes, des lemmes, des codes grammaticaux ou des enchainements syntaxiques. En 2010, Hyperbase traite à côté du français et du latin, des grandes langues européennes (anglais, espagnol, allemand, italien, portugais). En 2017, Hyperbase est développé, d'une part, sous une version 10.0 pour ordinateur de bureau, qui offre plusieurs nouvelles fonctionnalités dont un traitement approfondi des cooccurrences, la comparaison des données avec GoogleBooks (70 milliards de mots) et une meilleure articulation avec des logiciels partenaires comme Iramuteq ou Gephi et, d'autre part, sous une version Web[6]. En 2024, la version web du logiciel, développée par Laurent Vanni, se dote de fonctionnalités de deep learning, d'apprentissage, de prédiction et description des textes[7].

Fonctionnalités
Hyperbase combine deux types de fonctions, documentaires et statistiques, qui permettent à l'analyste de décrire, caractériser, classer et interpréter les textes.
- Fonctions documentaires
- Retour au texte plein ou lemmatisé pour une lecture naturelle du corpus
- Navigation hypertextuelle dans le corpus par mots-clefs
- Recherche et tri des contextes et des concordances d'une unité
- Index et dictionnaires des formes, des lemmes, des codes et des fréquences

- Fonctions statistiques
- Calcul des spécificités et graphes de distribution des unités linguistiques du corpus
- Indices de richesse lexicale et d'accroissement du vocabulaire
- Traitement et représentation factoriels de matrices lexicales ou grammaticales complexes dans la lignée des travaux de Jean-Paul Benzécri
- Calcul de distances entre textes, classification et représentation arborées
- Extraction des phrases typiques et des segments répétés
- Calcul et représentations des cooccurrences et réseaux thématiques
- Comparaison statistique avec le Trésor de la langue française, GoogleBooks, le British National Corpus
Utilisation
Hyperbase est utilisé dans plusieurs disciplines des sciences humaines et sociales soucieuses de décrire et interpréter des textes (œuvres littéraires, archives historiques, discours politiques, questionnaires et entretiens sociologiques). Hyperbase permet d'établir des chronologies endogènes dans des corpus socio-historiques, de faire des typologies d'auteurs dans des corpus littéraires ou de caractériser les genres dans des corpus linguistiques. Le logiciel est particulièrement utilisé pour déceler les thématiques ou isotopies des discours, notamment grâce au calcul des univers lexicaux d'un mot-pole ou le traitement généralisé des cooccurrences.

Le logiciel se présente comme un outil heuristique qui permet grâce à l'articulation du quantitatif (statistique textuelle) et du qualitatif (retour assisté et systématique au texte) de nourrir et contrôler l'acte interprétatif au fondement des humanités.
Configuré de manière ad hoc, il permet l'analyse en ligne de certains corpus comme « L'observatoire du discours présidentiel français (1958-2014) »[8], la base Balzac (recherche hypertextuelle dans la Comédie humaine)[9], Rabelais[10] ou la cinquantaine des plus grands auteurs de la littérature française (du Bellay, Racine, Hugo, Sand, Rimbaud, Aragon, Le Clézio, etc.)[11].