Este verano el buscador Mozilla Firefox lanzaba un reto: quería conseguir 10.000 horas de grabaciones de voces en inglés, con diferentes acentos, para crear un sistema abierto de reconocimiento de voz.
Su objetivo es que empresas, estudiantes y desarrolladores tengan unas base de datos de voces abierta para generar soluciones basadas en reconocimiento de voz, como ya lo son Siri (Apple), Cortana (Microsoft), Alexa (amazon) o Google Assistant (Google).
El proyecto se ha denominado como Common Voice y desde que se lanzara este verano ya ha conseguido 500 horas de grabaciones en ingles con diferentes personas y acentos, que han cosechado desde la página web de la iniciativa.
Cuando la gente habla a productos como Alexa, Siri o Google Voice, las interacciones son registradas, creando una base de datos de voz siempre en expansión para Amazon, Apple y Google. Esto refuerza el monopolio de estas compañías en el reconocimiento de voz"
Una idea según directivos de Mozilla Firefox es ampliar el abanico de posibilidades. "Cuando la gente habla a productos como Alexa, Siri o Google Voice, las interacciones son registradas, creando una base de datos de voz siempre en expansión para Amazon, Apple y Google. Esto refuerza el monopolio de estas compañías en el reconocimiento de voz de alta calidad, haciendo que sea más difícil para los competidores desarrollar tecnologías o productos de reconocimiento de voz", asegura Kelly Davis, manager del grupo de Machine Learning en Mozilla.
"En Mozilla creemos que la tecnología de reconocimiento de voz debería estar disponible para todos para poder innovar con ella, no solo para que puedan hacerlo unas cuantas grandes compañías. Ser abiertos está en nuestro ADN", explica.
Hasta ahora los estudiantes, startups o investigadores que quieran desarrollar tecnologías de voz solo pueden acceder a unas bases de datos bastante limitadas. Además, según Davis, "pueden costar más de decenas de miles de dólares y son insuficientes entrenar modelos de voz".
Cuanto más rica sean las posibilidades en el ámbito de acentos y tipos de pronunciación más fácil es el entrenamiento, y más precisa la solución de reconocimiento de voz resultante
Disponer de una base de datos de voces es de suma importancia, dado que las soluciones de reconocimiento de voz se desarrollan realizando millones de pruebas y 'entrenamientos'. Cuanto más rica sean las posibilidades en el ámbito de acentos y tipos de pronunciación más fácil es el entrenamiento, y más precisa la solución de reconocimiento de voz resultante.
Acento español
Aunque el proyecto se circunscribe al ámbito del idioma inglés, es importante que personas de habla hispana colaboren con su voz, para que la riqueza de acentos sea más grande.
"Las muestras de voces en inglés de colaboradores españoles ya han ayudado al proyecto de una forma increíble, no solo a mejorar la calidad del software de reconocimiento de voz sino también a hacerlo inclusivo, reflejando la diversidad de voces en todo el mundo", explica Davis.