Text Encoding Initiative

From Wikipedia, the free encyclopedia

Version initiale
1987
Type de format
TEI
Text Encoding Initiative
Caractéristiques
Extension
.tei
Développé par
Version initiale
1987
Type de format
Basé sur
Norme
Site web

La Text Encoding Initiative (abrégé en TEI, en français « initiative pour l’encodage du texte ») est un format de balisage et une communauté académique internationale dans le champ des humanités numériques visant à définir des recommandations pour l’encodage de ressources numériques, et plus particulièrement de documents textuels. Depuis 1987, le modèle théorique s’est adapté à différentes technologies, d’abord sous la forme d’une DTD SGML, puis XML. Dans sa version P5 (2007), le schéma TEI est représenté dans plusieurs langages, et notamment, Relax NG. Le schéma TEI est un noyau autour duquel gravitent beaucoup d’activités coordonnées sous forme de comités démocratiques et internationaux pour, notamment, conduire la maintenance et la croissance du schéma, rédiger la documentation, développer des outils génériques, assurer le support sur des listes de diffusions et faire connaître le format[1].

Selon l'un de ses fondateurs, Lou Burnard, le but de la TEI est de « fournir des recommandations pour la création et la gestion sous forme numérique de tout type de données créées et utilisées par les chercheurs en Sciences humaines et sociales[2] ».

Les trois principales raisons d'utiliser la TEI sont selon lui les suivantes :

  1. « XML-TEI s'intéresse au sens du texte plutôt qu'à son apparence » ;
  2. « XML-TEI est indépendant de tout environnement logiciel particulier » ;
  3. « XML-TEI a été conçu par la communauté scientifique qui est aussi en charge de son développement continu ».

Origine : les « principes de Poughkeepsie »

Le projet TEI a commencé le aux environs de New York, à Poughkeepsie. Une conférence organisée avec un cofinancement de la fondation nationale américaine pour les sciences humaines (National Endowment for the Humanities)[3] et de l’Union européenne a résulté en un texte définissant ses objectifs. Bien avant la fondation du W3C, un groupe se proposait de définir des recommandations pour l’encodage des textes informatiques. Après plus de trente ans, ces principes restent d’actualité pour décrire l’intention de la TEI, tant dans ses documents et son code, que son organisation. Le plus simple est de proposer une traduction de ces principes pour comprendre de quoi il s’agit[4].

1991, les financeurs et les comités de la TEI

Les recommandations visent à fournir un format standard pour favoriser l’échange de textes dans les sciences humaines et à suggérer des principes abstraits pour l’encodage des textes. Elles doivent définir une syntaxe recommandée pour ce format, définir un métalangage pour la description des structures d’encodage de textes, puis décrire ce format et ces structures, à la fois dans ce métalangage et en langage naturel.

Les recommandations doivent également proposer des ensembles de conventions d’encodage adaptés à plusieurs applications différentes. Notamment, il faut qu'elles incluent un ensemble minimal de conventions pour l’encodage de nouveaux textes. Les recommandations seront rédigées par plusieurs commissions coordonnées par un comité d’organisation représentant les principaux organismes impliqués (financièrement ou pas).

On distinguera :

  • la documentation (métadonnées) des textes (Committee for Text Documentation),
  • la représentation des composants textuels (Committee for Text Representation),
  • l’analyse et l’interprétation du texte (Committee for Text Analysis and Interpretation),
  • la définition du métalangage,
  • la description de structures textuelles proposées ou existantes (Metalanguage and Syntax Committee).

La compatibilité avec des standards existants sera maintenue le plus longtemps possible. Plusieurs grandes bibliothèques de textes sont d’accord sur le principe de soutenir les recommandations de la TEI dans leur fonction de format d’échange, encourageant tous les commanditaires à soutenir le développement d’outils pour faciliter cet échange. La conversion de textes numériques existants vers ce nouveau format implique la traduction de leurs conventions dans la syntaxe du nouveau format. Aucune information supplémentaire n'est exigée pour la conversion dans ce nouveau format.

La TEI est donc une organisation qui se réunit pour définir un format d’encodage. Dès l’origine sont distingués la représentation des composants textuels, qui ne dépend pas d’un ou plusieurs chercheurs et peut valoir pour une communauté large sur le long terme, et l’interprétation propre à une expérience, un projet de recherche, une école, ou une discipline. Cette information s’est jusqu’ici inscrite sous forme de balises, dans un schéma XML (ou SGML) ; mais elle est aussi réfléchie comme des principes abstraits, indépendants de toutes technologies, afin de faciliter l’importation en provenance d’autres formats, ainsi que le transcodage dans les formats futurs.

Historique (schéma et organisation)

  • 1988-1990 : TEI Proposal 1 (TEI P1), Guidelines for the Encoding and Interchange of Machine-Readable Texts, dir. Michael Sperberg-McQueen et Lou Burnard
  • 1990-1992 : TEI P2, phase d’expansion
  • 1993-1994 : TEI P3, considérée comme la première version complète.
  • 1995-1999 : promotion et valorisation non financée.
  • 2000 : naissance du TEI Consortium.
  • 2001-2007 : TEI P4, introduction de XML (maintien de SGML).
  • 2007-… : TEI P5 sur sourceforge[5] (abandon de SGML).
Nombre d’éléments des recommandations TEI de la P3 à la P5.

La TEI a été initiée en 1987 par trois sociétés savantes, l'Association for Computers and the Humanities[6], l'Association for Computational Linguistics[7] et l'Association for Literary and Linguistic Computing[8].

À l'heure actuelle, le « TEI Consortium » est une institution sans but lucratif financée par ses 64 membres[9], parmi lesquels on compte : le Research Technologies Service[10] à l'université d'Oxford (Royaume-Uni) ; le Scholarly Technology Group[11] à l'université Brown (États-Unis) ; un groupe francophone de recherche, à Nancy, composé de l'ATILF, de l'INIST, et du LORIA ; l'Electronic Text Center[12] et l'Institute for Advanced Technology in the Humanities[13] à l'université de Virginie (États-Unis) ; OpenEdition (France).

Le consortium s’organise en différentes instances[14]. La TEI Board of Directors[15] (conseil d’administration) décide de la direction stratégique et de la gestion financière. La TEI Technical Council[16] (conseil technique) maintient et développe les recommandations ainsi que les systèmes TEI. Les TEI Workgroups[17] (groupes de travail) sont des groupes spécialisés conduits par le conseil technique qui doivent faire des propositions concrètes pour les recommandations (ex : bibliographie, encodage de caractères…). Finalement, les TEI Special Interest Groups[18] (groupes d’intérêt spécifique) sont des groupes qui travaillent autour d’un sujet en lien avec la TEI mais pas nécessairement destiné à alimenter les recommandations (ex : outils, correspondances, enseignement…).

Exemple introductif

Pour illustrer la philosophie de la TEI, voici comment pourrait être codé un extrait du Cid de Pierre Corneille[19].

On cherche à représenter :

Acte II, Scène 2
DON RODRIGUE À moi, Comte, deux mots.
LE COMTE          Parle.
DON RODRIGUE                  Ôte-moi d'un doute.
Connais-tu bien Don Diègue ?
LE COMTE          Oui.
DON RODRIGUE                  Parlons bas, écoute.
Sais-tu que ce vieillard fut la même vertu,
La vaillance et l'honneur de son temps ? Le sais-tu ?

Avec le langage HTML, on aurait une codification limitée aux aspects « mise en page ».

 <h1>Acte II, Scène 2</h1>
 <br /> <b>DON RODRIGUE</b> À moi Comte, deux mots.
 <br /> <b>LE COMTE</b>&nbsp;&nbsp; ... &nbsp;Parle

Avec le schéma TEI, on obtiendrait ceci :

<div type="act" n="II" xml:id="II"><head>Acte II</head>
   <div type="scene" n="2" xml:id="II2"><head>Scène 2</head>
     <sp><speaker>Rodrigue</speaker>
         <l part="I">À moi, comte, deux mots.</l></sp>
     <sp><speaker>Comte</speaker>
         <l part="M">Parle</l></sp>
     <sp><speaker>Rodrique</speaker>
         <l part="F">Ôte-moi d'un doute</l>
         <l>Connais-tu bien Don Diègue ?</l></sp>
     <sp><speaker>Comte</speaker>
         <l part="M">Oui</l></sp>
     <sp><speaker>Rodrigue</speaker>
       <l part="F">Parlons bas, écoute.</l>
       <l>Sais-tu que ce vieillard fut la même vertu,</l>
       <l>La vaillance et l'honneur de son temps ? Le sais-tu ?</l></sp>
    ...
   </div>
 ...
 </div>

La TEI permet de décrire la structuration du texte tel qu'il a été conçu et non son rendu final (présentation). En fait, « les conventions élaborées dans le cadre du TEI visent à permettre la description de la manière dont un document a été créé ainsi que la façon dont il a été structuré : pages, paragraphes, lignes, chapitres, dialogues, soulignements, ajouts marginaux, ratures, etc. »[20].

Cet exemple montre notamment l'imbrication des actes et des paragraphes : deux éléments <div> imbriqués (avec un langage comme XPath, il est alors possible d'extraire un acte ou une scène), le découpage du dialogue par des éléments <sp>, la définition des interlocuteurs par des éléments <speaker> (il est possible facilement de lancer des requêtes pour localiser les endroits où Rodrigue cite Chimène) ainsi que la précision de la description de la versification par des éléments <l> (ligne) avec des indications sur la position d'un élément de dialogue en début, fin ou milieu de vers grâce aux attributs part.

Notion de balisages

Structure globale

  • <teiHeader> : métadonnées du fichier
  • <text> : texte transcrit
  • <front> : pièces pré-liminaires (privilège, dédicace, table des matières...) + page de titre <titlePage>
  • <body> : corps du texte
  • <back> : pièces post-liminaires (privilège, index, errata...)

Structure des métadonnées

  • <titleStmt> (title statement) : ensemble des informations sur le titre du document numérique et ceux qui l’ont créé.
  • <title> : titre du document numérique
  • <author> : auteur du document numérique (si document natif)
  • <editor> : responsabilité secondaire du document numérique (si document natif)
  • <respStmt> : responsabilité intellectuelle (= collaborateurs sur le fichier numérique, ex. le transcripteur, l’encodeur etc.) <name> : nom de la personne concernée
  • <resp> : fonction
  • <date> : date

Comparaison avec d’autres schémas

La TEI n’est pas le seul langage de balisage de document. Sa naissance doit beaucoup à la normalisation officielle de SGML ISO 8879:1986 qui posait déjà les principes fondamentaux qui inspirent TEI. En effet, une application SGML doit distinguer strictement un schéma (DTD), une feuille de style isolant les informations de présentation, et des documents purement sémantiques, balisés selon ce schéma.

Vers la même époque sont apparues d’autres applications SGML dont certaines existent encore, DocBook (1991), EAD (1993), ou HTML (1993). Ces trois exemples permettront de mieux situer TEI par comparaison avec d’autres milieux et besoins s’emparant de la même norme SGML. Docbook, EAD et HTML permettent de bien situer la différence de TEI parce que beaucoup de membres de la communauté connaissent très bien ces autres schémas et se situent relativement à eux. S’intéressant d’abord à l’encodage des textes du patrimoine, ce schéma concerne surtout les milieux académiques, les institutions de conservation (bibliothèques, archives), et parfois un peu, les maisons d’édition.

Docbook

Dès sa naissance, Docbook s’est concentré sur la documentation technique, et plus particulièrement, informatique. En associant le développement logiciel UNIX (commercial et libre) avec un éditeur de livres informatique O'Reilly, le schéma s’est donné d’emblée plusieurs destinations à satisfaire automatiquement à partir d’un même document balisé : impression papier, man page (manuel UNIX pour la console), puis HTML. La communauté est organisée comme un projet logiciel libre, avec un comité qui se réunit régulièrement pour présider à la croissance ordonnée du schéma selon les propositions des utilisateurs.

Ce schéma est de taille comparable à TEI (v5, ~400 éléments), mais plus limité car plus précis dans ses objectifs. Docbook distingue par exemple explicitement les éléments <book>, <chapter>, <preface>, <article>, <section>… tandis que TEI a essentiellement un seul élément structurant à ce niveau <div>, qui peut être précisé par un attribut @type. La TEI ne suggère pas une liste de valeurs pour qualifier les types de divisions[21], si bien qu’une application TEI ne sait pas a priori comment traiter les divisions, ne serait-ce que pour en extraire une table des matières qui s’arrête au niveau des chapitres. Il faut cependant comprendre que DocBook se destine principalement à la production de nouveau documents, que le schéma peut être normatif, et imposer une définition limitée des composants d’un livre. La TEI permet de produire des documents nouveaux, mais sa mission première est l’encodage pérenne des textes du patrimoine. Or, un manuscrit, une correspondance, une pièce de théâtre, beaucoup de types de documents ne se structurent pas selon les notions de chapitres et de sections. Si tous les composants textuels de la tradition avaient produit un élément comme dans Docbook, le schéma risquait une inflation incontrôlable, avec des casse-têtes indécidables (ex : si une lettre est un chapitre structurant dans une correspondance, peut-on choisir le même élément pour une lettre citée dans un roman structuré en chapitres ?).

L’attention que la TEI porte au texte lui complique lourdement la tâche d’exploitation des documents. Le simple développement de feuilles de style ne donne pas des résultats satisfaisants pour toute la variété des documents possibles. Docbook, grâce à la restriction de ses objectifs, est un modèle de déploiement applicatif d’un schéma (ex : la plupart des distributions linux ont un paquet pour le schéma Docbook et les transformations XSLT).

EAD

Comme la TEI, l’EAD (Encoded Archival Description : description archivistique encodée) concerne les documents patrimoniaux ; mais il s’agit d’un schéma métier, restreint dans son approche et sa vision du document. C’est d’abord la transposition XML de la Norme générale et internationale de description archivistique, l’ISAD(G). L’EAD encode principalement des inventaires de fonds d’archives, mais elle dispose d’assez d’éléments et d’attributs pour transcrire le texte des documents.

EAD a beaucoup emprunté à la TEI <eadheader> : <fildesc>, <titlestmt>, <publicationstmt>, <profiledesc>, <creation>, <langusage> …, elle pourrait aussi lui apporter plus, par exemple par son appareil d’indexation des entités nommées (personnes, lieux, dates…). Si les deux schémas peuvent partager certains objets et éléments, les différences permettent de mieux qualifier la TEI. L’EAD ne comporte pas plus de 150 éléments car elle doit être intégralement comprise par les archivistes qui l’emploient. Même si l’EAD a une origine universitaire (1993, Berkeley), elle a ensuite été reprise par la société des archivistes américains, soutenue par la Bibliothèque du Congrès.

Elle est très stable dans le temps : la version 1 date de 1998 (SGML), la version 2 date de 2002 et consiste surtout à transposer la version 1 en XML, la troisième version a été publiée en 2016. L’EAD pourrait représenter une sorte d’idéal d’interopérabilité pour les documents XML patrimoniaux, mais ce résultat s’obtient par une grande limitation.

HTML

HTML s’affiche comme une application SGML[22], souhaitant respecter les principes de séparation entre sémantique et présentation, avec une centaine d’éléments. Cependant les éléments sémantiques <abbr> abréviation, <dfn> définition, <samp> exemple se mélangent souvent avec l’apparence <i> italic italique, <b> bold gras, <s> strike barré, <u> underline souligné, <body bgcolor="blue">, <table border="1">. Cette confusion était nécessaire parce qu’au commencement des navigateurs, il n’y avait pas de langage adapté à la définition de feuilles de style pour l’écran, ce que devinrent les CSS. Pour qu’un sous-ensemble de la TEI puisse être le format de l’Internet, il aurait fallu plus de liens avec l’industrie, que l’équilibre de son consensus puisse accepter des éléments comme <i>, <b>, <s>, <u>, conformément à un des principes de Poughkeepsie « les recommandations doivent inclure un ensemble minimal de conventions pour l’encodage de nouveaux textes ». Notons que Docbook n’a pas non plus été repris par le W3C, mais que depuis 2014, HTML5 reprend quelques leçons sémantiques de ces schémas en introduisant les éléments <article>, <section>, <header>, <footer>.

Pensée modulaire du schéma

Notes et références

Voir aussi

Related Articles

Wikiwand AI