Páginas

miércoles, 24 de noviembre de 2021

ocr a un pdf usando tesseract

 


OCR a un pdf usando tesseract

1º Paso: convertir cada pagina del pdf a png:

Usar el siguiente comando en la terminal, suponiendo que el fichero se llame nombre.pdf:

$pdftoppm -png nombre.pdf  nombre

Creará tantos ficheros .png como páginas haya:

nombre-01.png

nombre-02.png

.....


2º Escanear las paginas generadas (formato .png) usando el idioma español:

$for i in nombre-??.png; do tesseract "$i" "text-$i" -l spa; done;

Y crea tantos ficheros .txt como páginas haya.


3º Unimos todos los ficheros txt que ha generado:

$cat text-nombre* > unidos.txt


Finalmente en el fichero "unidos.txt" estará todo el texto que haya podido extraer del pdf.

Ahora nos toca revisarlo :)


Fuente:

https://www.howtogeek.com/682389/how-to-do-ocr-from-the-linux-command-line-using-tesseract/


OTRA FORMA:

find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done