EScriptorium

plateforme de reconnaissance de texte pour les manuscrits et imprimés historiques From Wikipedia, the free encyclopedia

eScriptorium est une plateforme de segmentation et de reconnaissance de texte manuelle ou automatisée pour les manuscrits et imprimés historiques.

Faits en bref Dernière version, Dépôt ...
EScriptorium
Description de l'image Logo escriptorium.png.
Description de cette image, également commentée ci-après
Capture d'écran avec transcription eScriptorium du journal de Johann Reinhold Forster, Journal d'un voyage à bord du Resolution 1772-1774, vol. 1
Informations
Dernière version V1.0.0 ()[1]Voir et modifier les données sur Wikidata
Dépôt gitlab.com/scripta/escriptoriumVoir et modifier les données sur Wikidata
Écrit en Python, JavaScript et HTMLVoir et modifier les données sur Wikidata
Système d'exploitation GNU/Linux et macOSVoir et modifier les données sur Wikidata
Formats lus ALTO-XML (d), PAGE (XML) et Portable Document FormatVoir et modifier les données sur Wikidata
Formats écrits ALTO-XML (d), PAGE (XML), TEI/XML (d) et fichier texteVoir et modifier les données sur Wikidata
Type Application web
Logiciel à sources consultables (en)Voir et modifier les données sur Wikidata
Licence Licence MITVoir et modifier les données sur Wikidata
Fermer

Description

eScriptorium est un logiciel open source développé à l'Université Paris Sciences et Lettres dans le cadre des projets Scripta[2] et RESILIENCE[3] avec des contributions d'autres institutions. Il est partiellement financé par le programme de financement Horizon 2020 de l'Union européenne et une subvention de la fondation Andrew W. Mellon (en).

Les images numérisées de manuscrits ou d'imprimés importées dans eScriptorium sont exportées sous forme de texte dans différents formats (texte, ALTO ou PAGE XML, TEI). La segmentation des zones et lignes de texte à l'intérieur des images est manuelle ou automatique. Les lignes de texte sont ensuite elles-mêmes transcrites manuellement ou automatiquement[4].

La segmentation automatique et la reconnaissance de texte automatique peuvent toutes deux être entraînées à l'aide d'exemples créés ou corrigés manuellement (ground truth (en) ou « vérité terrain » en français). Les modèles ainsi créés sont faciles à partager et réutiliser[5].

eScriptorium s'appuie sur un logiciel de reconnaissance optique de caractères, le logiciel libre Kraken de Benjamin Kiessling, dérivé d'OCRopus, qui convient aux textes manuscrits et imprimés et prend en charge des écritures qui s'écrivent de droite à gauche telles que l'hébreu et l'arabe[6].

Ses fonctions sont similaires à celles de programmes comparables tels qu'OCR4All[7] et Transkribus.

Notes et références

Voir aussi

Related Articles

Wikiwand AI