OCR a un pdf usando tesseract

1º Paso: convertir cada pagina del pdf a png:

Usar el siguiente comando en la terminal, suponiendo que el fichero se llame nombre.pdf:

$pdftoppm -png nombre.pdf nombre

Creará tantos ficheros .png como páginas haya:

nombre-01.png

nombre-02.png

.....

2º Escanear las paginas generadas (formato .png) usando el idioma español:

$for i in nombre-??.png; do tesseract "$i" "text-$i" -l spa; done;

Y crea tantos ficheros .txt como páginas haya.

3º Unimos todos los ficheros txt que ha generado:

$cat text-nombre* > unidos.txt

Finalmente en el fichero "unidos.txt" estará todo el texto que haya podido extraer del pdf.

Ahora nos toca revisarlo :)

Fuente:

OTRA FORMA:

find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done

Gambas Mis Programas y el Softwarelibre