El cerebro es muy bueno reconociendo voces o patrones incluso donde no los hay y te sería muy fácil reconocerse una voz fue creada por una computadora o es una voz real por lo menos esto es así con los generadores de voz convencionales o Text To Speech.

lo que usa Apple en sus servicios como si estos generadores usan por lo general una técnica llamada síntesis concatenativa, esta técnica se basa en almacenar sílabas o sonidos individuales pregrabados para luego generar secuencias de sonido especificadas por el usuario a partir de esta misma base de datos el problema de esta técnica es que suena rara para el oído humano deja ciertos acentos que son pocos naturales y sonidos que podrían ser omitidos o que en el habla por lo general se acortan o no se notan sin mencionar que para cada voz distinta que queramos tener tenemos que grabar todos estos sonidos otra vez por lo que no es muy eficiente que digamos. 

En cambio, el clonado de voz multi parlante automático es que me serle sincero sonaba mejor en inglés, pero antes de hablar de esta técnica hay que ver cómo se emplea el machine learning en la generación de voz en base a texto el primer método que vamos a ver.

$ads={1}

Se llama síntesis de voz paramétrica estadística a grandes rasgos este método consiste en ingresar el texto que queremos generar el cual será enviado un categorizado este se encarga de fragmentar este texto en palabras y sílabas para que éstas a su vez sean enviadas a un modelo acústico que se encargará de representar la relación que hay entre las sílabas y los sonidos que deberán ser generados para que luego este resultado se ha enviado al codificador final que se encargará de reconstruir una onda de sonido en base al espectrograma generado por el modelo acústico esta onda de sonido sería el resultado final.

El problema de este método es que las tres secciones de nuestro algoritmo tienen que estar entrenados con el mismo data set es decir con la misma voz técnicamente es una forma de clara en una voz el problema es que necesitamos muchísimo tiempo para ello.

Para que se hagan una idea que le entregan una guía de semejante magnitud para que pueda generar la voz que nosotros queremos tenemos que tener cientos de horas de una misma voz la cual sería utilizada para entrenar a nuestro algoritmo muy poco prácticos y nuestro objetivo es clonar una voz con tan solo cinco segundos de información y ahí es donde entra el framework de síntesis de voz multi parlante que sea múltiplo tante quiere decir que podemos generar varias voces desde el mismo modelo este framework es similar a lo que acabamos de ver, pero tiene un agregado para cumplir nuestros requisitos los autores le agregaron un modelo basado en el paper titulado síntesis de audio neuronales eficientes

Para que ese framework pueda funcionar en tiempo real y generar una voz en un tiempo igual o menor al de la duración de la voz utilizada como ejemplo, de esta forma este framework puede generar una voz que nunca había escuchado antes en tan sólo unos segundos usando claro un ejemplo de dicha voz de una duración de 5 segundos.

lo que es más interesante de todo esto no es que solo podemos ver como una guía genera una voz idéntica a la de alguien que jamás había escuchado, sino que además lograron meter esto en una aplicación de escritorio haciendo que el proceso sea lo más sencillo posible.

Como se muestra en el vídeo titulado la herramienta de clonado de voz en tiempo real, el usuario comienza seleccionando un data set que será utilizado como base del framework incluso al mismo usuario puede grabar su propio data set, una vez que se carga este data set de audio este será computado y mostrado en la pantalla automáticamente dando a entender al usuario que ya se puede utilizar el programa, luego el usuario podrá escribir el texto que quiera en el cuadro de texto de la esquina superior derecha, este texto será el que se utilizará para generar el speech con la voz que queramos, esta voz la cargamos de la misma forma que cargamos el data set anteriormente, finalmente el usuario presiona el botón de generar y comenzará el proceso que describimos anteriormente generando un speech usando la voz que nosotros queremos.

Los resultados son increíbles teniendo en cuenta la cantidad de tiempo que se tarda para generar un speech, es un framework que funciona de maravilla y que puede dar cierto miedo.

Quizás le envías un audio del amigo y este clona tu voz, aunque eso sería lo mínimo que podría pasar siendo que este tipo de tecnologías podrían perjudicar a personas públicas de forma muy graves.


Post a Comment

Artículo Anterior Artículo Siguiente