Lo consigue después de "aprender" fragmentos de voz de 6 segundos de 100.000 personas.A la hora de determinar el género logra un 94% de precisión y muy alta con la nariz y la boca.
Una inteligencia artificial ha sido capaz de reconstruir el aspecto del rostro de una persona tomando como punto de partida únicamente su voz. Se trata de un algoritmo de inteligencia artificial desarrollado por el Laboratorio de Ciencias Informáticas e inteligencia artificial del famoso Instituto Tecnológico de Massachusetts (MIT).
La herramienta se llama 'Speech2Face' (algo así como 'del habla al rostro') y es capaz de determinar la edad, el género y la etnia de una persona, a partir, únicamente, de un extracto de su habla. Funciona a través de una red neuronal de aprendizaje profundo diseñada y entrenada a partir de la base de datos abierta AVSpeech, que está compuesta por fragmentos cortos de seis segundos de más de 100.000 personas hablando.
Los investigadores han utilizado también la base de datos VoxCeleb, formada por millones de vídeos publicados en Internet en los que aparecen 7.000 personas famosas en entrevistas, en fragmentos cortos de al menos tres segundos.
La inteligencia artificial aprende de los vídeos de la base de datos correlaciones de audio y sonido entre las voces de las personas y sus caras, centrándose en la edad, el género y la etnia, pero añadiendo también medidas y proporciones craneofaciales. La imagen generada es la del rostro de una persona de frente, con gesto neutro, y se han expuesto junto a imágenes reales de los famosos en los vídeos para mostrar el parecido con el original.
Los responsables de este estudio han analizado las correlaciones estadísticas que existen entre los rasgos faciales y las voces, con un 94% de precisión a la hora de determinar el género. Ha habido buenos resultados con personas de etnias blancas y asiáticas, pero menos en los casos de personas de raza negra o de India.
En el caso de los atributos craneofaciales, el mayor índice de correlación con el habla y el aspecto se ha encontrado en la nariz y en la boca, resultados indicativos de que "la estructura de la nariz determina el habla".
El Laboratorio de Ciencias Informáticas e inteligencia artificial del MIT busca saber hasta qué punto es posible saber el aspecto de una persona a partir de su voz, y se inspira en la manera en que las personas construimos modelos de los rasgos de alguien de quien solamente conocemos su voz. Sus responsables aseguran que no buscan reconstruir una imagen precisa de la persona, "sino recuperar características físicas que están correlacionadas con el habla".