Tesseract (software)
From Wikipedia, the free encyclopedia
Tesseract es un motor de reconocimiento óptico de caracteres para varios sistemas operativos.[1] Es software libre, liberado bajo la licencia Apache, Versión 2.0[2] y su desarrollo es financiado por Google desde el 2006.[3]
| Tesseract | ||
|---|---|---|
|
| ||
|
| ||
| Información general | ||
| Tipo de programa | OCR software | |
| Información técnica | ||
| Programado en | C++ | |
| Versiones | ||
| Última versión estable | 5.5.226 de diciembre de 2025 | |
| Última versión en pruebas | Ninguna () | |
| Archivos legibles | ||
| Archivos editables | ||
| ||
| Enlaces | ||
Tesseract fue considerado en 2006 como uno de los motores de OCR de código abierto más precisos disponibles.[4]
Historia
Tesseract se desarrolló originalmente como programa de licencia privativa en los laboratorios de Hewlett-Packard en Brístol (Inglaterra) y Greeley (Colorado) entre 1985 y 1994. En 1996 se realizaron las modificaciones necesarias para portarlo a Windows y, más tarde, en 1998, se migró el sistema de C a C++. Tras diez años sin ningún desarrollo, fue liberado como código abierto en el año 2005 por Hewlett-Packard y la Universidad de Nevada, Las Vegas.
Características
En 1995, Tesseract era uno de los tres mejores motores OCR en cuanto a precisión, además está disponible para Linux, Windows y Mac OS X, sin embargo, sólo ha sido probado por los desarrolladores en Windows y Ubuntu.
Hasta la versión 2, Tesseract sólo podía aceptar como entrada imágenes de una sola columna en formato TIFF. En estas primeras versiones no se incluía análisis de patrones, y por tanto, las imágenes con múltiples columnas o anotaciones producían resultados ilegibles. Desde la versión 3, Tesseract soporta el formato en el texto y el análisis del patrón de la página. A través de la biblioteca Leptonica, se consigue la compatibilidad con nuevos formatos de imagen, además, se puede detectar si el texto proporcional o monoespaciado.
Tesseract puede procesar inglés, francés, italiano, alemán, español, portugués brasileño y neerlandés, y puede ser entrenado para funcionar con otros idiomas.
Versión 4
Intefaces de usuario

Tesseract se ejecuta desde una interfaz de línea de comandos.[6] Aunque Tesseract no se distribuye con una interfaz gráfica, hay varios proyectos independientes que le proporcionan una.[7] Ejemplos conocidos son VietOCR[8] y OCRFeeder.[9]