WebApp para transcribir de audio a texto usando Whisper

He creado una aplicación web sencilla en Flask que permite a los usuarios grabar y reproducir audio utilizando su navegador.

Whisper es un modelo de reconocimiento de voz de propósito general que permite realizar el reconocimiento de voz y la traducción a varios idiomas. Está entrenado con 680.000 horas de datos multilingües supervisados recopilados de Internet, es multitarea y es de código abierto. Es una herramienta muy potente y versátil.

Existen cinco tamaños de modelos, en el siguiente cuadro se muestra la cantidad de parámetros y requisitos de memoria

He creado una aplicación web sencilla en Flask que permite a los usuarios grabar y reproducir audio utilizando su navegador. Además, esta aplicación también permite transcribir el audio grabado mediante el uso de Whisper (medium)

La aplicación utiliza la API de grabación de audio de MediaRecorder para acceder a la entrada de audio del usuario y comenzar a grabar.

Los fragmentos de audio se almacenan en una matriz llamada “chunks” y se detienen cuando se hace clic en el botón “Detener”.

Cuando se detiene la grabación, se muestra un cuadro de diálogo para solicitar el nombre de la grabación y se crean elementos de audio con dos botones: uno para “Transcribir” y otro para “Borrar” la grabación. Al hacer clic en el botón “Transcribir”, se llama a una función que envía el audio en formato ogg al backend para obtener la transcripción del audio y mostrarla en una caja de texto en la página.