El modelo de Google AI ha estado avanzando bastante gracias al apoyo de muchos investigadores. Hace pocos días, se dio a conocer que, luego de varias pruebas y ensayos, los investigadores afiliados a Google y el University College London obtuvieron un modelo de inteligencia artificial (IA). La misma posee la capacidad de controlar las características de habla con solo 30 minutos de datos.

Modelo de Google AI: Mejora sus características del habla

Tanto la IA como la robótica son áreas de la tecnología que han ganado una popularidad bastante alta, ganando mucho terreno a lo largo de los años. De todo esto, se han logrado grandes avances, como el aquí presente, donde la Google IA controla las características del habla.

Según todo lo publicado con relación a este proyecto, los estudios recientes apuntan a que tienen sus orígenes en el mes de octubre del año pasado. Fue aceptado en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR) 2020.

Básicamente, muestra cómo el tono, la emoción y la velocidad del habla pueden ser controladas e imitados con total cabalidad. Pero eso no es lo más sorprendente ya que, para lograrlo, solo se necesita procesar 30 minutos de datos.

Se debe tener en cuenta que, si bien su connotación puede ser completamente comercial. La realidad es que, el hecho de la corrección de voz asistida por IA, podría llegar a eliminar de forma definitiva las necesidades de utilizar actores en la simulación de voces.

¿Qué resultados se obtuvieron de esta IA?

Lo primero que debemos saber es que esta no es la primera vez que vemos un sistema de este estilo. Sin embargo, esta destaca sobre otros porque pueden imitar la voz con prosodia variable. Con esto queremos decir que, imitar entonación, estrés, ritmo y más a fondo, la emoción fija.

El estudio llevado a cabo señala que los investigadores entrenaron el sistema con un conjunto aproximado de datos que comprende 72.405 grabaciones de 5 segundos aproximadamente. Dichas grabaciones provenían de 40 hablantes del idioma inglés.

Lo que quiere decir que fueron unas 45 horas de audio donde los oradores, actores de voz capacitados, estuvieron leyendo fragmentos de diferentes niveles de valencia, es decir, emociones como la facilidad o tristeza y excitación como la emoción y energía.

De todo esto, se lograron obtener resultados bastante positivos, ya que al finalizar los investigadores lograron obtener seis posibles estados afectivos.

Dichos estados fueron modelados y utilizado como etiquetas de emociones junto con etiquetas para la velocidad del habla. Fueron definidas como el número de sílabas, dando resultados positivos y más reales sobre las expresiones humanas.

De hecho, si comparamos el modo de habla obtenido de todo esto, nos damos cuenta que hay una marcada diferencia con el asistente de Google.

Gracias a estos resultados positivos, los investigadores, lograron concluir que este trabajo mejora la prosodia y ofrece beneficios potenciales para las interfaces hombre-computadora. Estos beneficios, probablemente, superen los riesgos actuales, como sucede con las deepfakes.