OCR a un pdf usando tesseract
1º Paso: convertir cada pagina del pdf a png:
Usar el siguiente comando en la terminal, suponiendo que el fichero se llame nombre.pdf:
$pdftoppm -png nombre.pdf nombre
Creará tantos ficheros .png como páginas haya:
nombre-01.png
nombre-02.png
.....
2º Escanear las paginas generadas (formato .png) usando el idioma español:
$for i in nombre-??.png; do tesseract "$i" "text-$i" -l spa; done;
Y crea tantos ficheros .txt como páginas haya.
3º Unimos todos los ficheros txt que ha generado:
$cat text-nombre* > unidos.txt
Finalmente en el fichero "unidos.txt" estará todo el texto que haya podido extraer del pdf.
Ahora nos toca revisarlo :)
Fuente:
https://www.howtogeek.com/682389/how-to-do-ocr-from-the-linux-command-line-using-tesseract/
OTRA FORMA:
find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done