La última IA de Facebook puede aprender el habla sin transcripciones humanas

El reconocimiento de voz es un engranaje importante en la maquinaria de inteligencia artificial de Big Tech. La tecnología impulsa los asistentes digitales en nuestros teléfonos, en los automóviles y en los parlantes inteligentes de nuestros hogares. Pero, a pesar de su ubicuidad, el reconocimiento de voz todavía es un trabajo en progreso. Hoy, Facebook está presagiando un gran avance en la forma en que entrena estos sistemas para aprender nuevos idiomas. La compañía dice que ha desarrollado un método para crear herramientas de reconocimiento de voz que no requieren datos transcritos.

Según Facebook, su novedoso sistema puede liberar a la tecnología de su dependencia de la entrada de texto a voz. La tarea que lleva mucho tiempo implica que los humanos escuchen y transcriban horas de audio, un proceso monótono que debe repetirse para cada idioma. Mientras que el sistema «no supervisado» de Facebook aprende puramente del audio del habla y del texto no apareado para darle una mejor idea de cómo suena la comunicación humana.

El modelo de Facebook se basa esencialmente en un circuito de retroalimentación entre una red generativa de adversarios (GAN) compuesta por un «generador» y un «discriminador». El primero escupe representaciones de patrones de habla cargados que parecen un galimatías completo hasta que pasan por la red discriminadora correspondiente, que actúa como una especie de traductor. Al mismo tiempo, Facebook ingresa texto adicional escrito por humanos para ayudar al generador a distinguir la diferencia entre los resultados computarizados y del mundo real. Este proceso se repite hasta que la salida del generador coincide con el texto real.

Facebook dice que su método le ha permitido crear sistemas de reconocimiento de voz sin ningún conjunto de datos anotados. La compañía ya ha probado el modelo, conocido como Wav2vec-U (la U significa no supervisado), en swahili, kirguistán (hablado en la República de Kirguistán de Asia Central) y tártaro de Crimea, todos los cuales carecen de herramientas de reconocimiento de voz de alta calidad debido a una disparidad de datos de entrenamiento.

Las pruebas de Facebook mostraron que el sistema arrojó un 63 por ciento menos de errores que el siguiente mejor método sin supervisión. Agrega que la herramienta es tan precisa como los sistemas supervisados ​​de hace unos años. Para acelerar su desarrollo, Facebook ha compartido la código para Wav2vec-U en GitHub.

La compañía dice que el avance podría marcar el comienzo de sistemas de reconocimiento de voz para más idiomas y dialectos en todo el mundo, ayudando a democratizar la tecnología. Naturalmente, se beneficiará de esta proliferación: más del 76 por ciento de los 2.850 millones de usuarios mensuales de Facebook se encuentran fuera de América del Norte y Europa. Y la traducción automática es fundamental para su objetivo de conectar a miles de millones de personas a través de su idioma preferido.

Más artículos
Overwatch 2 presenta el mapa de Montecarlo y nuevos diseños