Linguistique de corpus

From Wikipedia, the free encyclopedia

La linguistique de corpus est une branche de la linguistique qui étudie le langage à travers des exemples contenus dans des textes réels. En particulier elle se propose d'extraire d'un corpus les connaissances linguistiques essentielles à l’enseignement des langues et à l'élaboration des dictionnaires.

La linguistique de corpus situe la signification dans le discours et dans l'interaction entre les gens plutôt que dans l'esprit des locuteurs. En effet le sens des mots est déterminé par le contexte dans lequel ils sont employés. Aujourd'hui la création de ces corpus linguistiques est possible grâce au processus automatique c'est-à-dire grâce à l'emploi d'outils statistiques et de programmes informatiques qui rendent le travail humain beaucoup plus facile.

Concernant la valeur de l'annotation de corpus, il existe deux points de vue différents, l'un de John Sinclair, qui préfère l'annotation minimale afin que les textes puissent parler pour "eux-mêmes"[1], l'autre de l'équipe Survey of English Usage qui préconise l'annotation comme une compréhension linguistique plus efficace.

Définition et origine du mot

L'expression « linguistique de corpus » est une traduction de l'anglais Corpus Linguistics car c'est à partir du monde anglophone que l'étude de cette discipline commence à se développer dans le domaine linguistique. Si la linguistique est une discipline scientifique consacrée à l'étude du langage, le corpus représente son objet principal.

Dans la tradition, la notion de corpus est définie de manière canonique, dans les domaines religieux, juridiques et littéraires. Elle a été élaborée par des disciplines comme la philologie et l’herméneutique qui concernent le domaine des traitements automatiques du langage. Cette conception canonique de corpus comme « sac des mots « aujourd'hui est remplacée par une notion qui considère le corpus comme un ensemble de textes oraux ou écrits et pas seulement un ensemble de mots ou des phrases qui ne sont pas liés à un certain contexte[2].

Naissance de la linguistique de corpus

Certains affirment que la naissance de la linguistique de corpus peut être associée à la création en 1755 du Johnson, le premier dictionnaire de la langue anglaise basé sur un corpus. En effet, avec Johnson commence une tradition lexicographique plus normative qui se base sur des textes authentiques[3].Toutefois, malgré cette considération, le début d'une discipline aussi neuve est strictement lié à l’avènement d'ordinateurs de plus en plus puissants qui permettent d'obtenir plus facilement une analyse linguistique des textes. L'année 1964, en particulier, marque le véritable départ des travaux sur corpus, avec la création du premier corpus informatisé par une équipe de chercheurs de l'université Brown aux États-Unis[4]. Il s'agit du Computational Analysis of Present-Day American English, un corpus général, compilé en 1967 par Henri Kučera et W. Nelson Francis, qui possède 500 échantillons de textes en anglais. Ces derniers sont obtenus à partir de travaux publiés aux États-Unis et ils contiennent plus d’un million de mots en anglais-américain tirés de différentes sources. Pour l’étude de l’emploi de l’anglais, une autre publication très importante est le Survey of English Usage (SEU) qui émane du premier centre de recherche sur corpus en Europe. Selon l’auteur de ce projet, le linguiste Randolph Quirk, l’objectif est principalement didactique[5]. En effet, la linguistique de corpus nait pour répondre au besoin d’enseigner l’anglais comme seconde langue. Si les dictionnaires traditionnels dans leur analyse de mots isolés sont incapables de dire comment employer un mot, la linguistique de corpus réussit à combler cette lacune. Elle s’appuie sur la linguistique appliquée qui centre son effort sur l’enseignement de la langue et l’élaboration de dictionnaires[6].

Diffusion en France

En France la linguistique de corpus commence à se développer une dizaine d’années plus tard grâce à la constitution de Frantext, la première base de données de textes français (textes littéraires, philosophiques, scientifiques et techniques) qui permet de fournir des exemples pour le Trésor de la langue française. Par conséquent, à travers le traitement de textes, la plupart des données textuelles sont automatiquement saisies sur support électronique. Cela permet l’apparition des corpus écrits de taille variable et, dans un deuxième temps, des corpus de l’oral qui nécessitent une transcription manuelle des enregistrements sonores. Mais petit à petit, grâce à l’intérêt des linguistes pour la langue parlée, les corpus de l’oral commencent à apparaître aussi sur la Toile en devenant donc accessibles à l’analyse.

Méthodologie

Notes et références

Articles connexes

Related Articles

Wikiwand AI