Dedicado a mis proyectos en Gambas ,un lenguaje de programación parecido al Visual Basic + Java pero ampliamente mejorado y...¡¡para gnu/linux!!.La potencia del gnu/linux sumada a la facilidad del Basic



Consultas, Desarrollo de programas y petición de presupuestos:



lunes, 11 de mayo de 2026

Instalacion de Vosk: reconocimiento de voz en tiempo real

 Instalar Vosk (el kit de herramientas de reconocimiento de voz sin conexión) en Windows 10 es un proceso bastante directo. La forma más común y sencilla de utilizarlo es a través de Python.

Aquí tienes los pasos exactos para dejarlo funcionando:

1. Instalar Python (si no lo tienes)

Vosk funciona como una librería de Python, por lo que necesitas tenerlo instalado en tu sistema.

  • Ve a la página oficial de Python y descarga la última versión para Windows.

  • Al ejecutar el instalador, asegúrate de marcar la casilla "Add Python to PATH" (Agregar Python al PATH) en la parte inferior de la ventana antes de hacer clic en "Install Now".

2. Instalar Vosk mediante la consola

Una vez que Python esté instalado, puedes instalar Vosk usando el gestor de paquetes pip.

  1. Presiona la tecla Windows, escribe cmd y presiona Enter para abrir el Símbolo del sistema.

  2. Escribe el siguiente comando y presiona Enter:

    Bash
    pip install vosk
    
  3. Espera a que termine la descarga e instalación.

3. Instalar dependencias de audio (Recomendado)

Si planeas capturar audio directamente desde tu micrófono (en lugar de procesar archivos de audio ya grabados), necesitarás la librería sounddevice.

  • En la misma consola, ejecuta:

    Bash
    pip install sounddevice
    

4. Descargar un modelo de idioma (Paso crucial)

Vosk no funciona sin un modelo de idioma. Necesitas descargar uno para el idioma que quieras que reconozca (por ejemplo, español).

  1. Ve a la página oficial de modelos de Vosk: https://alphacephei.com/vosk/models

  2. Busca la sección de Spanish (o el idioma que prefieras).

  3. Descarga un modelo ligero para empezar (por ejemplo, vosk-model-small-es-0.42).

  4. Descomprime el archivo .zip que acabas de descargar.

  5. Guarda la carpeta extraída en el mismo lugar donde vayas a crear tu proyecto de Python y renómbrala a model (esto hará que sea más fácil referenciarla en tu código).


5. Código rápido de prueba

Para comprobar que todo funciona, crea un archivo de texto, llámalo prueba_vosk.py, guárdalo en la misma carpeta donde pusiste la carpeta model y pega este código:

Python
import sys
import sounddevice as sd
import queue
from vosk import Model, KaldiRecognizer

# Cargar el modelo desde la carpeta 'model'
try:
    model = Model("model")
except Exception as e:
    print("Por favor, asegúrate de haber descargado y extraído el modelo en la carpeta 'model'.")
    sys.exit(1)

q = queue.Queue()

def callback(indata, frames, time, status):
    if status:
        print(status, file=sys.stderr)
    q.put(bytes(indata))

# Iniciar la grabación y el reconocimiento
with sd.RawInputStream(samplerate=16000, blocksize=8000, dtype='int16',
                       channels=1, callback=callback):
    print("Di algo en el micrófono...")
    rec = KaldiRecognizer(model, 16000)
    while True:
        data = q.get()
        if rec.AcceptWaveform(data):
            print(rec.Result())
        else:
            print(rec.PartialResult())

Para ejecutarlo, abre tu consola en esa carpeta y escribe python prueba_vosk.py. Habla por tu micrófono y verás cómo transcribe tus palabras en tiempo real.


Nota: 

Solución de problemas

el script de vosk, solo escribe ":" ¿que hago?

Si el script ahora se ejecuta pero en la consola solo ves cosas con dos puntos, como esto:

{ "partial" : "" }

o

{ "text" : "" }

Significa que Vosk y Python están funcionando perfectamente, pero no están logrando escuchar tu voz. El programa está entregando resultados "vacíos" porque, para él, hay un silencio total.

En Windows 10, esto casi siempre se debe a una de estas tres razones. Aquí tienes cómo solucionarlo paso a paso:

1. Dar permisos de micrófono a las aplicaciones (La causa #1)

Windows 10 tiene una medida de seguridad que bloquea el micrófono para las aplicaciones de terminal (como Python) por defecto.

  1. Presiona la tecla Windows en tu teclado y escribe Privacidad de micrófono. Abre esa configuración.

  2. Asegúrate de que la opción "Permitir que las aplicaciones accedan al micrófono" esté Activada.

  3. Desplázate un poco más hacia abajo hasta la sección "Permitir que las aplicaciones de escritorio accedan al micrófono" y asegúrate de que también esté Activada. (Aquí es donde suele caer Python).

2. Verificar tu micrófono predeterminado

La librería sounddevice toma automáticamente el micrófono que Windows tiene marcado como "Predeterminado". A veces, Windows selecciona una entrada de línea vacía, un micrófono de cámara web que no usas o un cable de audio virtual.

  1. Haz clic derecho en el ícono de volumen (el altavoz) en la esquina inferior derecha de tu barra de tareas de Windows.

  2. Selecciona Abrir configuración de sonido.

  3. En la sección Entrada, revisa la lista desplegable de "Elige el dispositivo de entrada".

  4. Asegúrate de que esté seleccionado el micrófono real por el que estás hablando.

  5. Habla un poco y verifica si la barra de "Probar el micrófono" se mueve. Si no se mueve, tu micrófono podría estar muteado físicamente o mal conectado.

3. Verificar que "sounddevice" detecte tus dispositivos

Si todo lo anterior está bien pero sigue sin funcionar, veamos qué micrófonos está viendo Python.

  1. Abre la terminal de VS Code y ejecuta este comando:

    Bash
    python -m sounddevice
    
  2. Te aparecerá una lista con todas las entradas y salidas de audio de tu computadora.

  3. El dispositivo que tenga el símbolo > al lado izquierdo es el que Python está usando por defecto para escuchar (Input). Si ese no es tu micrófono, tendrás que configurarlo como predeterminado en Windows (como vimos en el paso 2) y reiniciar VS Code.

Un pequeño consejo adicional:

Cuando hables, asegúrate de hablar claro y a un volumen normal. Los modelos ligeros de Vosk (como el small que descargaste) son súper rápidos, pero pueden ignorar murmullos o audio muy bajito.

Cierra la terminal de VS Code (haciendo clic en el ícono de la papelera en la pestaña de terminal), vuelve a abrirla, ejecuta el script de nuevo con python prueba_vosk.py y prueba hablar. ¡Deberías empezar a ver tus palabras en pantalla!