Herramienta Voz a texto de Kdenlive. Esta es mi experiencia
La semana pasada, Pablinux les habló de la nueva versión de Kdenlive, la herramienta de edición de videos del proyecto de KDE. Cómo comenté alguna vez, yo prefiero OpenShot que tiene una curva de aprendizaje menor, pero, como me interesó mucho la herramienta de voz a texto que incorpora esta nueva versión, decidí darle una mirada.
Aunque tengo escrita mi cuota de artículos sobre alternativas Linux a tal o cual programa de Windows (Nadie puede llamarse a si mismo bloguero de Linux si no escribió uno de esos) no se trata de un enfoque que me guste. Creo que de los programas debe hablarse por sus propias características. Si tengo que definir Kdenlive de alguna manera, diré que se trata de un editor de video para aficionados que quieren que sus creaciones luzcan profesionales.
He dicho en el pasado y lo mantengo (vengan de a uno) que el software libre y de código abierto tiene bibliotecas para trabajo multimedia que hacen quedar a los productos de Adobe y Blackmagic como meros juguetes. El gran problema es que nadie se interesó en juntar esas herramientas con una interfaz simple y atractiva y una documentación completa y fácil de entender. Aunque Kdenlive está lejos de haber logrado su objetivo, sus desarrolladores van por el camino correcto.
En el caso de la capacidad para convertir voz a texto, Kdenlive recurre a dos herramientas del arsenal del repositorio del Índice de paquetes de Python.
Vosk es un conjunto de herramientas de reconocimiento del habla de código abierto y sin conexión. Ofrece modelos de reconocimiento del habla para 17 idiomas y dialectos: inglés, inglés indio, alemán, francés, español, portugués, chino, ruso, turco, vietnamita, italiano, holandés, catalán, árabe, griego, farsi y filipino.
Kdenlive utiliza los modelos de Vosk mediante un módulo escrito en Python.
Sin embargo, no basta con tener la transcripción. También hay que sincronizarla con el video. Para esto necesitamos otro módulo en Python para la creación de subtítulos.
Kdenlive comprobará que tienes instalado estos módulos. Para hacerlo necesitas primero instalar el paquete python3-pip en tu distribución y después ejecutar los comandos:
pip3 install vosk
pip3 install srt
A continuación, tenemos que instalar los modelos de voz. Para esto abrimos Kdenlive y vamos a Preferencias Configurar Kdenlive Speech to Text.
Para cargar los modelos tienes dos opciones: o descargar los modelos de esta página y cargarlos manualmente (Debes marcar primero el recuadro Custom modem folders) o pegar el enlace de la lista que te muestra esa misma página.
Usando la herramienta Voz a texto
- Asegúrate en el menú Ver que tienes activada la opción de subtítulos. A continuación, carga el video que quieres transcribir.
- Mueve el video a la primera pista de video y desliza la línea azul a lo largo de la duración que quieres transcribir.
- Pulsa en la pestaña subtítulos y a continuación en el signo +
- En la parte superior se agrega una pista. Pulsa en el icono que está a la izquierda del ojo.
- Selecciona el modelo de transcripción y si quieres transcribir un clip, todos los clips de una línea de tiempo o una parte de la línea de tiempo. Pulsa en Process
Comparé Speech to tech con la versión gratuita de una herramienta en la nube, y he visto videos auto subtitulados de Youtube y de plataformas de cursos de pago. Tengo que decir que no es perfecta, pero no es peor que las alternativas mencionadas. Tiene problemas cuando los que hablan no tienen buena dicción o lo hacen sobre música o algún otro sonido. Pero, imaginando la pregunta que me están haciendo, si, puede usarse para subtitular una serie o película. Aunque, por las limitaciones señaladas puede que haya que completarlos a mano.
Y, si los muchachos de Kdenlive se ponen un poco las pilas e integran algún módulo de traducción, la cosa sería perfecta.
Hay algo que podría mejorarse. Hoy por hoy, si quieres cambiar la apariencia de los subtítulos, deberás insertar código. Y, no hay forma de exportarlos. Solo podrás verlos incrustados en el video.
Pero, como dije más arriba, sin dudas el proyecto va por el buen camino.