EScriptorium
plateforme de reconnaissance de texte pour les manuscrits et imprimés historiques
From Wikipedia, the free encyclopedia
eScriptorium est une plateforme de segmentation et de reconnaissance de texte manuelle ou automatisée pour les manuscrits et imprimés historiques.
| Dernière version | V1.0.0 ()[1] |
|---|---|
| Dépôt | gitlab.com/scripta/escriptorium |
| Écrit en | Python, JavaScript et HTML |
| Système d'exploitation | GNU/Linux et macOS |
| Formats lus | ALTO-XML (d), PAGE (XML) et Portable Document Format |
| Formats écrits | ALTO-XML (d), PAGE (XML), TEI/XML (d) et fichier texte |
| Type |
Application web Logiciel à sources consultables (en) |
| Licence | Licence MIT |
Description
eScriptorium est un logiciel open source développé à l'Université Paris Sciences et Lettres dans le cadre des projets Scripta[2] et RESILIENCE[3] avec des contributions d'autres institutions. Il est partiellement financé par le programme de financement Horizon 2020 de l'Union européenne et une subvention de la fondation Andrew W. Mellon (en).
Les images numérisées de manuscrits ou d'imprimés importées dans eScriptorium sont exportées sous forme de texte dans différents formats (texte, ALTO ou PAGE XML, TEI). La segmentation des zones et lignes de texte à l'intérieur des images est manuelle ou automatique. Les lignes de texte sont ensuite elles-mêmes transcrites manuellement ou automatiquement[4].
La segmentation automatique et la reconnaissance de texte automatique peuvent toutes deux être entraînées à l'aide d'exemples créés ou corrigés manuellement (ground truth (en) ou « vérité terrain » en français). Les modèles ainsi créés sont faciles à partager et réutiliser[5].
eScriptorium s'appuie sur un logiciel de reconnaissance optique de caractères, le logiciel libre Kraken de Benjamin Kiessling, dérivé d'OCRopus, qui convient aux textes manuscrits et imprimés et prend en charge des écritures qui s'écrivent de droite à gauche telles que l'hébreu et l'arabe[6].
Ses fonctions sont similaires à celles de programmes comparables tels qu'OCR4All[7] et Transkribus.