software, tecnología, voces, imitación, ética, computación
Imagen: César Mejías

Imitando voces humanas: pronto el computador podrá hablar como tú

Pronto los computadores podrán hablar con una voz más natural, al menos eso es lo que busca la tecnología desarrollada por la startup Lyrebird ¿Lo están logrando? Juzgue usted mismo escuchando sus demostraciones.

Por Juan Reyes | 2017-05-17 | 11:40
Tags | software, tecnología, voces, imitación, ética, computación

Hacer al computador “hablar” es algo que logramos hace décadas, pero la forma en la que damos significado a lo que decimos tiene tantos detalles, que aún queda camino por recorrer para crear voces sintéticas que... no suenen sintéticas. Usualmente para generar las voces se utilizan actores, en el caso de Siri (la app de asistencia virtual de Apple), la actriz Susan Bennett fue grabada por un mes completo por cuatro horas al día. Lo que no ha sido suficiente para lograr crear una voz que suene completamente natural.

Si grabamos a humanos, para crear las voces ¿por qué suenan sintéticas? La respuesta está en el contexto y en la manera en la que pronunciamos. No transmitimos sólo palabras, sino que también emociones y una sutil combinación de cambios en el ritmo, velocidad y volumen, que en las medidas adecuadas dan la naturalidad al sonido de nuestra voz. No basta meramente con unir grabaciones, hay que decidir qué palabra o sílaba se desea destacar y qué emoción se desea transmitir. Eso hace tan difícil que las voces generadas en un computador suenen humanas.

El software que imita cualquier voz humana

Si generar una voz que suene natural es muy difícil, lo es aún más poder imitar una voz. Justamente eso es lo que Lyrebird, una startup canadiense, está logrando a través de una interesante tecnología, que al parecer permitiría imitar la voz de cualquier persona. En su sitio web se pueden ver imitaciones de Barack Obama, Donald Trump y Hillary Clinton. El sistema utiliza técnicas de inteligencia artificial para aprender a partir de un audio de muestra y, según sus creadores, les basta contar con solo 1 minuto de grabación de cualquier voz para que su sistema sea capaz de imitarle. Si bien las voces generadas aún tienen cierto toque “robótico”, es una aproximación bastante cercana y que permite distinguir claramente a quien corresponde la voz imitada.

El sistema aprovecha las similitudes que hay entre las diferentes voces, que si bien pueden sonar muy diferente, comparten un montón de información común. Según uno de sus creadores, el estudiante de doctorado de la Universidad de Montreal Alexandre de Brebisson “luego de haber aprendido de las voces de muchas personas, aprender la voz de una persona nueva es mucho más rápido. Por ello no necesitamos muchos datos más para aprender una voz completamente nueva. Más datos definitivamente ayudan, aunque un minuto es suficiente para capturar un montón del ‘ADN’ de una voz”.

La empresa tiene planeado ofrecer un servicio a los desarrolladores de software, para dotar de mejores voces a los asistentes personales, lectores de libros y los sintetizadores de voz para gente con discapacidad.

El debate ético

Este tipo de avances tiene un profundo impacto en nuestra confianza sobre una grabación como medio de prueba; si pudiésemos reproducir la voz de una persona artificialmente, sería muy fácil poner en su boca palabras que no dijo. En un momento en el que las  noticias falsas han cobrado especial relevancia, el asunto se torna aún más delicado. No obstante, acorde a sus creadores, ellos prefieren que la herramienta pueda ser accesible con facilidad, a fin de que todos estemos conscientes de que pronto las grabaciones de audio “inventadas” serán tan comunes como las imágenes alteradas con Photoshop.

Según señaló de Brebisson “No publicar la tecnología debido a los potenciales malos usos no tiene sentido para nosotros porque pensamos que los aspectos positivos sobrepasan a los negativos (un martillo puede ser usado para construir, pero también para destruir). Si no publicamos la tecnología nosotros mismos, otros lo harán en el futuro (y, contrario a nosotros, podrían tener malas intenciones, tal vez escondiéndola a parte de la población".

En Hollywood ya tienen la capacidad de crear videos de una persona que a simple vista parecen tomas reales; se puede apreciar claramente en la película Terminator: Génesis, donde Schwarzenegger aparece luchando contra su versión más joven, la que fue creada digitalmente o en la película el Curioso Caso de Benjamin Button, donde Brad Pitt dotó de expresiones a un personaje creado por computadora. Este tipo de efectos pasan desapercibidos porque a diferencia de antes, somos totalmente engañados, ya no los notamos y creemos que simplemente son actores reales. Para lograr estos resultados se necesita un equipo de especialistas y altísima tecnología; en el caso del audio, solo bastaría un computador y acceso a la interfaz desarrollada por Lyrebird, ello hace que esta tecnología sea potencialmente accesible a las masas.

Tal vez pronto el computador tendrá una voz más natural y quién sabe si, en el futuro, se convierta en nuestro más íntimo confidente.

¿Crees que hay una semejanza notable? ¿qué otras oportunidades y/o problemas acarreará?

¿CÓMO TE DEJÓ ESTE ARTÍCULO?
Feliz
Sorprendido
Meh...
Mal
Molesto
ESTADÍSTICAS: APOYO A FRASES DE ESTE ARTÍCULO
Estas estadísticas sólo se le muestran a los usuarios que ya han dado su opinión con un click sobre alguna de las frases rojas destacadas en el texto del artículo.
Comentarios
* Debes estar inscrito y loggeado para participar.
© 2013 El Definido: Se prohíbe expresamente la reproducción o copia de los contenidos de este sitio sin el expreso consentimiento de nuestro representante legal.