Audio a Texto con whisper


Una de las tareas que debemos realizar quienes trabajamos con técnicas de investigación en ciencias sociales que se registran en formatos como videos o audios (ej. entrevistas, grupos de discusión), es su transcripción o pasaje a texto para hacerlos procesables ya sea cualitativa o cuantitativamente. Generalmente, es una tarea que hacemos de forma manual y nos permite un primer acercamiento analítico al material producido en la etapa de trabajo de campo. Sin embargo, en muchos casos la masividad o falta de tiempo hace que sea útil complementar la tarea con técnicas de transcripción automática con modelo entrenados para tal fin.

Este pequeño tutorial y el código que se presenta fue hecho en conjunto con Gabriela Mathieu.


1. Contexto

Esta entrada tiene la intención de socializar una forma sencilla de realizar esa transcripción utilizando una librería de Open AI que se llama whisper y permite obtener transcripciones en alta calidad aún en español. Para ello utilizamos en lenguaje de programación Python combinado con un entorno para escribir y ejecutar código, que pertenece a Google denominado Google Colab y que tiene la ventaja, en este caso, de poder conectar con archivos alojados en Drive. El uso del entorno tiene un cuota gratuita por cuenta de 12 horas de ejecución de GPU (como referencia, en mi caso 240 minutos de audio me llevaron 33 minutos de ejecución, usando el modelo medio o medium).

El mismo código sería posible ejecutarlo a nivel local directamente desde Python (o en R usando el paquete audio.whisper), sin embargo los requerimientos de memoria que tiene si contamos con muchos archivos podría hacer inviable su ejecución.

2. Pasos

Como primer paso debemos tener una cuenta de Google para poder abrir el cuaderno en el cual estará y se ejecutará el código.

I. Abrimos este archivo denominado Audio_a_texto.ipynb que contiene todas las líneas necesarias para hacer la transcripción.

  1. Hago una copia del archivo y le pongo el nombre que quiero con Archivo -> Guardar una copia en Drive

  2. Voy al panel de Herramientas, abro Entorno de ejecución -> Cambiar tipo de entorno de ejecución -> T4 GPU

  1. Creo las carpetas Entrevistas y transcripciones en el Drive propio.

V. Voy ejecutando de a uno los 5 pasos que aparecen en el código, apretando la la flecha circular en cada uno de los pasos. Cuando aparece un tick en verde, significa que esa celda ya fue ejecutada correctamente. El paso 5 será el que más demore ya que es dónde se hacen efectivamente las transcripciones y su guardado. Acá un video en el cual ejecuto los primeros pasos:

Nota: si cerramos el archivo Audio_a_texto.ipynb, cuando lo volvemos a abrir, tenemos que ejecutar todo de nuevo desde el Paso 1.

Voilá!

Avatar
Elina Gómez
Socióloga. MSc, PhD(c)

Socióloga

Relacionado