OCRopus

logiciel libre de reconnaissance optique de caractères From Wikipedia, the free encyclopedia

OCRopus est un logiciel libre d'analyse de documents et de reconnaissance optique de caractères avec une conception très modulaire. OCRopus a été développé avec l'aide de Google sous la direction de Thomas Breuel du Centre de Recherche Allemand pour l'Intelligence Artificielle (DFKI) à Kaiserslautern et publié en tant que logiciel libre sous les conditions de la version 2.0 de la licence Apache.

Faits en bref Développé par, Dernière version ...
OCRopus
Description de l'image OCRopus Texterkennung.png.
Informations
Développé par Thomas Breuel (d)Voir et modifier les données sur Wikidata
Dernière version 1.3.3 ()[1],[2],[3]Voir et modifier les données sur Wikidata
Dépôt github.com/tmbdev/ocropy et github.com/ocropus/ocropy.gitVoir et modifier les données sur Wikidata
Écrit en PythonVoir et modifier les données sur Wikidata
Système d'exploitation FreeBSD, Linux, macOS et Windows 10Voir et modifier les données sur Wikidata
Formats écrits HOCR (en)Voir et modifier les données sur Wikidata
Type Reconnaissance optique de caractèresVoir et modifier les données sur Wikidata
Licence Licence ApacheVoir et modifier les données sur Wikidata
Site web github.com/tmbdev/ocropy et github.com/ocropus/ocropyVoir et modifier les données sur Wikidata
Fermer

OCRopus a été spécialement conçu pour être utilisé dans des projets de numérisation à grande échelle de livres tels que Google Livres, Internet Archive ou des projets de bibliothèques différentes, où un grand nombre de langues et de polices d'écriture doivent être prises en charge. Il peut également être employé dans des applications bureautiques, des applications pour l'usage privé, ou des applications pour les malvoyants.

Les principaux composants de l'OCRopus sont formés[4]:

La reconnaissance de texte est actuellement basée sur des réseaux de neurones récurrents (LSTM) et ne nécessite pas de modèle linguistiques. Cela permet l’entraînement de modèles indépendants de la langue pour lesquels des bons résultats de reconnaissance ont été achevés à la fois pour l'anglais, l'allemand et le français[5]. Outre l’alphabet latin, il y a des résultats pour d'autres scripts tels que Sanskrit, Ourdou ou Devanagari.

De très bons taux de reconnaissance peuvent être obtenus grâce à un entraînement approprié[6]. Cet effort supplémentaire est particulièrement intéressant pour les documents difficiles ou les polices de caractères qui ne sont plus courants aujourd'hui (par ex. Fraktur) et qui ne sont pas au centre des préoccupations des autres logiciels d'OCR.

Liens externes

Notes et références

Related Articles

Wikiwand AI