Hyperbase

Développé par Centre national de la recherche scientifique et université Côte-d'Azur

Première version 1989

Système d'exploitation MacOS et Microsoft Windows

Environnement Navigateur web

Hyperbase

Informations
Développé par	Centre national de la recherche scientifique et université Côte-d'Azur
Première version	1989
Système d'exploitation	MacOS et Microsoft Windows
Environnement	Navigateur web
Langues	Français, allemand et anglais
Site web	https://hyperbase.unice.fr

Hyperbase est un logiciel d'exploration documentaire et statistique des textes, accessible par le Web ou utilisable sur micro-ordinateur. Il est diffusé par le CNRS et l'université Côte d'Azur et est conçu et développé par Étienne Brunet et Laurent Vanni, au sein de l'UMR « Bases, corpus, langage »^[1]. Entre sa naissance en 1989 et sa version actuelle, Hyperbase a intégré le savoir-faire lexicométrique français en matière de statistique textuelle et d'exploration documentaire des grands corpus ; il s'est ouvert sur le deep learning et l'intelligence artificielle. Le logiciel est utilisé en linguistique^[2], recherche littéraire^[3], histoire^[4], sociologie ou sciences politiques^[5].

La première version date de 1989. Après vingt ans d’expériences en divers langages sur gros systèmes, Étienne Brunet se tourne vers les microordinateurs et crée à l’occasion du bicentenaire de la Révolution française, au Centre Georges-Pompidou, un logiciel micro-installable d'analyse des textes. D'abord développé sous Mac avec Hypercard, Hyperbase s'épanouit à partir de la fin des années 1990 sous Windows. Dans les années 2000, Hyperbase s'articule aux lemmatiseurs et étiqueteurs TreeTagger ou Cordial et dépasse ainsi le seul traitement statistique des mots graphiques par le traitement combiné des formes, des lemmes, des codes grammaticaux ou des enchainements syntaxiques. En 2010, Hyperbase traite à côté du français et du latin, des grandes langues européennes (anglais, espagnol, allemand, italien, portugais). En 2017, Hyperbase est développé, d'une part, sous une version 10.0 pour ordinateur de bureau, qui offre plusieurs nouvelles fonctionnalités dont un traitement approfondi des cooccurrences, la comparaison des données avec GoogleBooks (70 milliards de mots) et une meilleure articulation avec des logiciels partenaires comme Iramuteq ou Gephi et, d'autre part, sous une version Web^[6]. En 2024, la version web du logiciel, développée par Laurent Vanni, se dote de fonctionnalités de deep learning, d'apprentissage, de prédiction et description des textes^[7].

Fonctionnalités

Hyperbase combine deux types de fonctions, documentaires et statistiques, qui permettent à l'analyste de décrire, caractériser, classer et interpréter les textes.

Fonctions documentaires
- Retour au texte plein ou lemmatisé pour une lecture naturelle du corpus
- Navigation hypertextuelle dans le corpus par mots-clefs
- Recherche et tri des contextes et des concordances d'une unité
- Index et dictionnaires des formes, des lemmes, des codes et des fréquences

Fonctions statistiques
- Calcul des spécificités et graphes de distribution des unités linguistiques du corpus
- Indices de richesse lexicale et d'accroissement du vocabulaire
- Traitement et représentation factoriels de matrices lexicales ou grammaticales complexes dans la lignée des travaux de Jean-Paul Benzécri
- Calcul de distances entre textes, classification et représentation arborées
- Extraction des phrases typiques et des segments répétés
- Calcul et représentations des cooccurrences et réseaux thématiques
- Comparaison statistique avec le Trésor de la langue française, GoogleBooks, le British National Corpus

Utilisation

Hyperbase est utilisé dans plusieurs disciplines des sciences humaines et sociales soucieuses de décrire et interpréter des textes (œuvres littéraires, archives historiques, discours politiques, questionnaires et entretiens sociologiques). Hyperbase permet d'établir des chronologies endogènes dans des corpus socio-historiques, de faire des typologies d'auteurs dans des corpus littéraires ou de caractériser les genres dans des corpus linguistiques. Le logiciel est particulièrement utilisé pour déceler les thématiques ou isotopies des discours, notamment grâce au calcul des univers lexicaux d'un mot-pole ou le traitement généralisé des cooccurrences.

Le logiciel se présente comme un outil heuristique qui permet grâce à l'articulation du quantitatif (statistique textuelle) et du qualitatif (retour assisté et systématique au texte) de nourrir et contrôler l'acte interprétatif au fondement des humanités.

Configuré de manière ad hoc, il permet l'analyse en ligne de certains corpus comme « L'observatoire du discours présidentiel français (1958-2014) »^[8], la base Balzac (recherche hypertextuelle dans la Comédie humaine)^[9], Rabelais^[10] ou la cinquantaine des plus grands auteurs de la littérature française (du Bellay, Racine, Hugo, Sand, Rimbaud, Aragon, Le Clézio, etc.)^[11].

Voir aussi

Bibliographie

Ouvrages

Cécile Alduy et Stéphane Wahnich, Marine Le Pen prise aux mots. Décryptage du nouveau discours frontiste, Paris, Sciences humaines, 304 p. (ISBN 2021172104 et 978-2021172102).
Étienne Brunet,Comptes d’auteurs. Tome 1. Études statistiques de Rabelais à Gracq, textes édités par Damon Mayaffre, préface d’Henri Béhar, Paris, Champion, 2009, 396 p. (ISBN 274532019X et 978-2745320193).
Étienne Brunet et Céline Poudat (dir.), Ce qui compte, tome 2, Méthodes statistiques, préface de Ludovic Lebart, Paris, Champion, 2011, 376 p. (ISBN 2745322257 et 978-2745322258).
Étienne Brunet, Au bout du compte, tome 3, Questions linguistiques, textes édités par Bénédicte Pincemin, préface de François Rastier, Paris, Champion, 2016.
Margareta Kastberg-Sjoblom, L'écriture de J.M.G. Le Clézio, Des mots aux thèmes, Paris, Champion, 2006, 304 p. (ISBN 2745314122 et 978-2745314123).
Véronique Magri-Mourgues, Voyage à pas comptés.Pour une poétique du récit de voyage au XIXe siècle, Paris, Champion, 2009, 328 p. (ISBN 2745319418 et 9782745319418).
Pascal Marchand, Le grand oral. Les discours de politique générale de la Ve République, Bruxelles, De Boeck, 2007, 215 p. (ISBN 2804153371 et 9782804153373).
Damon Mayaffre, Le discours présidentiel sous la V^e République. Chirac, Mitterrand, Giscard, Pompidou, de Gaulle, Paris, Presses de Sciences Po, 2012, 384 p. (ISBN 2724612442).
Damon Mayaffre, Mesure et démesure du discours. Nicolas Sarkozy (2007-2012), Paris, Presses de Sciences Po, 2012, 358 p. (ISBN 978-2-7246-1243-1).
Sylvie Mellet et Dominique Longrée (dir.), New Approaches in Text Linguistics, Amsterdam, John Benjamins Pub Co, 2009, 206 p. (ISBN 9027226830 et 9789027226839).

Thèses et travaux universitaires

Attika Yasmine Abbès et E. Brunet (dir.), Étude lexicologique, stylistique et pragmatique de l'œuvre de Mouloud Mammeri, Nice, 2000.
Marion Bendinelli et S. Mellet(dir.), Étude des auxiliaires modaux et des semi-modaux dans les débats présidentiels américains (1960-2008) : analyse qualitative et quantitative. Relations d’influence et enjeux de pouvoir, Nice, 2012.
Julien Bonneau et D. Mayaffre (dir.), Modulations mathématiques et descriptives pour l’émergence de parcours interprétatifs dans des corpus textuels. Application au corpus Mendès France (1922-1982), Nice, 2012.
Yann Bouvier et P.-Y. Beaurepaire (dir.), Chapitre III : « La lecture Logométrique et les outils d'Hyperbase », Récits de voyage et représentation de l'espace. La Méditerranée de Jérôme Maurand, un espace vécu, Nice, 2007, p. 72-85 .
Camille Bouzereau, G. Salvan (dir.) et D. Mayaffre (dir.), Doxa et contre-doxa dans la construction du territoire discursif du Front National (2000-2017), Nice, 2020.
Magali Guaresi (préface de Fraçoise Thébaud), Parler au féminin. Les professions de foi des député-e-s sous la Cinquième République (1958-2007), Paris, L'Harmattan, 2018. (Livre issu de la thèse dirigée par D. Mayaffre et J.-P. Pellegrinetti, soutenue en 2015 à Nice).
Aude Hendrick, Des mots de circonstance. Le discours de rentrée de la haute magistrature belge au XIX^e siècle (Promoteur^[Quoi ?] Jean-Pierre Nandrin et co-promoteur Xavier Rousseau, Bruxelles, 2012.
Hakim Hessas et F. Rastier (dir.), L’Europe dans la revue Europe. Analyse sémantique et statistique de corpus, Paris, 2010.
Véronique Magri-Mourgues et E. Brunet (dir.), Le Discours sur l’Autre à travers quatre récits de voyage en Orient (Voyage en Orient de Lamartine, Le Nil, Égypte et Nubie de Maxime Du Camp, Un Été dans le Sahara et Voyage en Égypte de Fromentin), Nice, 1993.
Damon Mayaffre, R. Schor (dir.), Le Discours politique dans les années 1930. Analyse du vocabulaire de Maurice Thorez, Léon Blum, Pierre-Etienne Flandin et André Tardieu (1928-1939), Nice, 1998.
Heba Metwally, D. Mayaffre (dir.), Les Thèmes et le temps dans Le Monde diplomatique (1990-2008), Nice, 2017.
Caroline Philippart et S. Mellet (dir.), Hagiographie et statistique linguistique, Nice, 2008.
José Parada-Ramirez et V. Magri-Mourgues (dir.), Lecture documentée et analyse textométrique de l'œuvre de Jules Verne : les influences de la Franc-Maçonnerie dans son œuvre, Nice, 2013.
Yumiko Tahata, J. Streiff-Fenart (dir.) et M. Sekine (dir.), « Qu'est-ce qu'un Français ». La construction et les effets de la « francité » dans la société française contemporaine, Nice et Keio.

Articles

Raymond Blanchard, Joceline Chabot et Sylvia Kasparian, « Sous la loupe d’Hyperbase : les combattants russes dans l’œil de la presse illustrée française de 1914 à 1919 », JADT 2012.
Étienne Brunet, « Nouveau traitement des cooccurrences dans Hyperbase », Corpus, 11, 2012, pp. 219-248.
Benoît Corvez et Anne-Sophie Lechevallier, « La verbalisation de 68 dans la doxa intellectuelle » dans A. Callu (dir.),Le mai 68 des historiens. Entre identités narratives et histoire orale, Villeneuve d'Ascq : Presses universitaires du Septentrion, 2010, pp. 37-52.
Carine Duteil-Mougel, « Les Mécanismes persuasifs des textes politiques. Propositions théoriques pour l’analyse de corpus », Corpus, 4, 2005.
Baptiste Foulquié, « De l'utilité de la sémantique textuelle comme médium entre corpus et analyse », Texto, 2006.
Jean-Philippe Genet, « Panorama critique de l’utilisation d’internet par les médiévistes en France », [Edito a stampa in Medioevo in retetra ricerca edidattica, acuradi Roberto Greci, Bologna 2002, pp. 23-34].
Véronique Magri-Mourgues, « Analyse textométrique et interprétation. Hyperbase, Rousseau et les Lumières », Travaux neuchâtelois de linguistique (TRANEL), n^o 5. La linguistique de corpus – de l’analyse quantitative à l’interprétation qualitative / Korpuslinguistik – von der quantitativen Analyse zur qualitativen Interpretation, Daniel Elmiger et Alain Kamber (éds), p. 77-93.
Damon Mayaffre, « Plaidoyer en faveur de l’Analyse de Données co(n)Textuelles Parcours cooccurrentiels dans le discours présidentiel français (1958-2014) », JADT 2014, Proceedings of the 12th International Conference on Textual Data Statistical Analysis, édité par E. Néé, M. Valette, J.-M. Daube et S. Fleury, Paris, Inalco-Sorbonne nouvelle, 2014, pp. 15-32.
Jean-Michel Rampon, « Professions de foi et élection présidentielle de 2002. Une approche verbale de la distance entre candidats », Mots. Les langages du politique [En ligne], n^o 81, 2006, mis en ligne le 1^er juillet 2008, consulté le 26 janvier 2015.
Laurent Vanni, « Hyperbase Web. (Hyper)Bases, Corpus, Langage », Corpus, 25, 2024.