software, tecnología, voces, imitación, ética, computación

Imagen: César Mejías

actualidad | Opinión

Imitando voces humanas: pronto el computador podrá hablar como tú

Pronto los computadores podrán hablar con una voz más natural, al menos eso es lo que busca la tecnología desarrollada por la startup Lyrebird ¿Lo están logrando? Juzgue usted mismo escuchando sus demostraciones.

Por Juan Reyes

| 2017-05-17 | 11:40

Share on Tumblr

Tags | software, tecnología, voces, imitación, ética, computación

Relacionadas

Actualidad | Mundo

La nueva tecnología que modifica los recuerdos (y su polémica)

Se trata de Project Inception, una técnica desarrollada por Steve Ramírez, doctor en neurociencia del MIT; que logra editar los recuerdos con el fin de eliminar de la memoria las sensaciones que detonan los traumas y las malas experiencias.

9 %

Opinión | Juan Reyes

La revolución inevitable: ¿cómo encarar el avance de la inteligencia artificial?

Los avances de esta tecnología ocurren más rápido de lo previsto y los impactos están comenzando a salir del laboratorio: diagnósticos médicos, abogados virtuales, vehículos que se conducen solos, etc. Juan hace una reflexión de lo que esto podría significar para nuestras vidas.

11 %

columna | Juan Reyes

Por qué haber superado al humano en el "Go" es importante

Las computadoras nos superan en dominios muy específicos y aún ni se acercan a nuestra aguda capacidad para adaptarnos y crear. No obstante, la derrota del humano en el juego "go" representa la llegada de nuevas técnicas para resolver problemas; las que podrían terminar directamente en tu bolsillo.

0 %

Actualidad | Mundo

La curiosa mezcla de animales que dio origen a la voz de Chewbacca

El peludo personaje de Star Wars es recordado y querido por su particular manera de hablar (a base de gruñidos). ¿Sabes de dónde vienen los sonidos tras su voz?

4 %

Hacer al computador “hablar” es algo que logramos hace décadas, pero la forma en la que damos significado a lo que decimos tiene tantos detalles, que aún queda camino por recorrer para crear voces sintéticas que... no suenen sintéticas. Usualmente para generar las voces se utilizan actores, en el caso de Siri (la app de asistencia virtual de Apple), la actriz Susan Bennett fue grabada por un mes completo por cuatro horas al día. Lo que no ha sido suficiente para lograr crear una voz que suene completamente natural.

Si grabamos a humanos, para crear las voces ¿por qué suenan sintéticas? La respuesta está en el contexto y en la manera en la que pronunciamos. No transmitimos sólo palabras, sino que también emociones y una sutil combinación de cambios en el ritmo, velocidad y volumen, que en las medidas adecuadas dan la naturalidad al sonido de nuestra voz. No basta meramente con unir grabaciones, hay que decidir qué palabra o sílaba se desea destacar y qué emoción se desea transmitir. Eso hace tan difícil que las voces generadas en un computador suenen humanas.

El software que imita cualquier voz humana

Si generar una voz que suene natural es muy difícil, lo es aún más poder imitar una voz. Justamente eso es lo que Lyrebird, una startup canadiense, está logrando a través de una interesante tecnología, que al parecer permitiría imitar la voz de cualquier persona. En su sitio web se pueden ver imitaciones de Barack Obama, Donald Trump y Hillary Clinton. El sistema utiliza técnicas de inteligencia artificial para aprender a partir de un audio de muestra y, según sus creadores, les basta contar con solo 1 minuto de grabación de cualquier voz para que su sistema sea capaz de imitarle. Si bien las voces generadas aún tienen cierto toque “robótico”, es una aproximación bastante cercana y que permite distinguir claramente a quien corresponde la voz imitada.

El sistema aprovecha las similitudes que hay entre las diferentes voces, que si bien pueden sonar muy diferente, comparten un montón de información común. Según uno de sus creadores, el estudiante de doctorado de la Universidad de Montreal Alexandre de Brebisson “luego de haber aprendido de las voces de muchas personas, aprender la voz de una persona nueva es mucho más rápido. Por ello no necesitamos muchos datos más para aprender una voz completamente nueva. Más datos definitivamente ayudan, aunque un minuto es suficiente para capturar un montón del ‘ADN’ de una voz”.

La empresa tiene planeado ofrecer un servicio a los desarrolladores de software, para dotar de mejores voces a los asistentes personales, lectores de libros y los sintetizadores de voz para gente con discapacidad.

El debate ético

Este tipo de avances tiene un profundo impacto en nuestra confianza sobre una grabación como medio de prueba; si pudiésemos reproducir la voz de una persona artificialmente, sería muy fácil poner en su boca palabras que no dijo. En un momento en el que las noticias falsas han cobrado especial relevancia, el asunto se torna aún más delicado. No obstante, acorde a sus creadores, ellos prefieren que la herramienta pueda ser accesible con facilidad, a fin de que todos estemos conscientes de que pronto las grabaciones de audio “inventadas” serán tan comunes como las imágenes alteradas con Photoshop.

Según señaló de Brebisson “No publicar la tecnología debido a los potenciales malos usos no tiene sentido para nosotros porque pensamos que los aspectos positivos sobrepasan a los negativos (un martillo puede ser usado para construir, pero también para destruir). Si no publicamos la tecnología nosotros mismos, otros lo harán en el futuro (y, contrario a nosotros, podrían tener malas intenciones, tal vez escondiéndola a parte de la población".

En Hollywood ya tienen la capacidad de crear videos de una persona que a simple vista parecen tomas reales; se puede apreciar claramente en la película Terminator: Génesis, donde Schwarzenegger aparece luchando contra su versión más joven, la que fue creada digitalmente o en la película el Curioso Caso de Benjamin Button, donde Brad Pitt dotó de expresiones a un personaje creado por computadora. Este tipo de efectos pasan desapercibidos porque a diferencia de antes, somos totalmente engañados, ya no los notamos y creemos que simplemente son actores reales. Para lograr estos resultados se necesita un equipo de especialistas y altísima tecnología; en el caso del audio, solo bastaría un computador y acceso a la interfaz desarrollada por Lyrebird, ello hace que esta tecnología sea potencialmente accesible a las masas.

Tal vez pronto el computador tendrá una voz más natural y quién sabe si, en el futuro, se convierta en nuestro más íntimo confidente.

¿Crees que hay una semejanza notable? ¿qué otras oportunidades y/o problemas acarreará?

Share on Tumblr

¿CÓMO TE DEJÓ ESTE ARTÍCULO?

Feliz

Sorprendido

Meh...

Mal

Molesto

ESTADÍSTICAS: APOYO A FRASES DE ESTE ARTÍCULO

Estas estadísticas sólo se le muestran a los usuarios que ya han dado su opinión con un click sobre alguna de las frases rojas destacadas en el texto del artículo.

Comentarios

En Portada

Opinión

Adiós, El Definido. ¡Hola, Desafío 10x!

leído

Mundo

Mormones: ¿Quiénes son y en qué creen?

comentado

País

¡Bienvenido a El Definido!

Adiós, El Definido. ¡Hola, Desafío 10x!

Mormones: ¿Quiénes son y en qué creen?

¡Bienvenido a El Definido!

Problemas

Las abuelas secas

Gustos refinados

Mormones: ¿Quiénes son y en qué creen?

¡Bienvenido a El Definido!

Básicamente, todas las parejas del mundo

El valor de la pesca artesanal en un frasco: el emprendimiento que pone sobre la mesa lo mejor de los mares chilenos

Por qué un supermercado holandés está probando cajas intencionalmente lentas

Imitando voces humanas: pronto el computador podrá hablar como tú

Pronto los computadores podrán hablar con una voz más natural, al menos eso es lo que busca la tecnología desarrollada por la startup Lyrebird ¿Lo están logrando? Juzgue usted mismo escuchando sus demostraciones.

La nueva tecnología que modifica los recuerdos (y su polémica)

Se trata de Project Inception, una técnica desarrollada por Steve Ramírez, doctor en neurociencia del MIT; que logra editar los recuerdos con el fin de eliminar de la memoria las sensaciones que detonan los traumas y las malas experiencias.

La revolución inevitable: ¿cómo encarar el avance de la inteligencia artificial?

Los avances de esta tecnología ocurren más rápido de lo previsto y los impactos están comenzando a salir del laboratorio: diagnósticos médicos, abogados virtuales, vehículos que se conducen solos, etc. Juan hace una reflexión de lo que esto podría significar para nuestras vidas.

Por qué haber superado al humano en el "Go" es importante

La curiosa mezcla de animales que dio origen a la voz de Chewbacca

El peludo personaje de Star Wars es recordado y querido por su particular manera de hablar (a base de gruñidos). ¿Sabes de dónde vienen los sonidos tras su voz?

El software que imita cualquier voz humana

El debate ético

¿Crees que hay una semejanza notable? ¿qué otras oportunidades y/o problemas acarreará?

Adiós, El Definido. ¡Hola, Desafío 10x!

Mormones: ¿Quiénes son y en qué creen?

¡Bienvenido a El Definido!