ElEnviadoDelDiablo: Qué Pronto Se Te Ha Olvidado

La tecnología de texto a voz de Nuance Vocalizer Expressive tiene una calidad extraordinaria. Dispone de voces en más de 40 idiomas e incluye nuevas versiones de Loquendo TTS. Las voces de Nuance Vocalizer Expressive las suministramos para proyectos empresariales con licencia de publicación y distribución de audios a terceras personas en cualquier medio. Para comprar la licencia TTS de Nuance Vocalizer Expressive es necesario solicitarlo en nuestra página de contacto indicando de forma precisa las características del proyecto.

Sintetizador de voz

Construido por recomendación de la Universidad de Padua, aplicando la técnica de los llamados difonos (la unión de una consonante y una vocal, 150 en el idioma italiano) el grupo creo el primer sintetizador de voz con gran inteligibilidad en 1975^[5] era llamado MUSA (por sus siglas en inglés, Multichannel Speaking Automaton), que demostró lo que era posible con la tecnología de ese tiempo. Los resultados logrados en esos años fueron condensados en un disco de audio de 45 rpm, con miles de copias producidas y distribuidas por los medios de comunicación masivos. Fue principalmente distribuida la versión italiana de la canción Frère Jacques con mejor calidad de sonido (MUSA manejaba hasta 8 canales de síntesis en paralelo).
La evolución de este prototipo, con el incremento de número de los difonos (alrededor de 1000), el refinamiento de las herramientas de los análisis lingüísticos y el mejor manejo de la forma de onda llevó a una marcada mejora de la voz sintética. Esto llevó a la creación del «sintetizador de voz» en un circuito integrado desarrollado internamente en CSELT.
En los años noventa nació «ELOQUENS», un sintetizador de voz multi-plataforma para varios sistemas operativos incluyendo DOS, Windows, System 7 y Unix y también para tarjetas telefónicas con muchos canales, como las usadas por las operadoras de teléfono italianas para obtener la dirección y la identidad del suscripto de un número de teléfono.^[6]
A finales de los noventa la sintetización de voz tomó un nuevo camino, en vez de usar difonos se empezó a usar la selección y la concatenación de unidades acústicas de longitud variable. Esto provocó en “ACTOR” – “La voz que parece humana” que empezó a adquirir una gran audiencia dado al gran número de servicios telefónicos y aplicaciones creadas por empresas relacionadas con Loquendo. En los años 2000 el sintetizador fue puesto a la venta como un producto comercial, incluyendo un número de herramientas para editar la voz sintética con distintas emociones. También se lanzó una biblioteca SW para que se pueda usar en varios productos pequeños, como celulares, navegadores, computadoras PDA hasta más grandes como servidores telefónicos.

Reconocimiento de voz

Poco después de las investigaciones en síntesis de voz, comenzaron a investigar el reconocimiento de voz y al principio de los ochentas produjeron un primer prototipo capaz de reconocer diez dígitos y unos comandos simples.

Aplicando el modelo oculto de Márkov, en 1984, se llevó a cabo el desarrollo de un decodificador de voz que podía reconocer palabras conectadas y oraciones. Esto se llevó a cabo con la colaboración de ELSAG, otra compañía del grupo.
La necesidad de producir reconocimientos de voz independiente para aplicaciones telefónicas llevó a la creación de bases de datos con grabaciones de cientos de personas distintas y, en 1987, la primera gran base de datos, obtenida grabando a más de mil personas llamando por toda Italia.
Este material permitió el uso de los modelos de Márkov y usando un sofisticado algoritmo llevó al desarrollo de “AURIS”, el primer reconocedor de voz que podía “dar vuelta” en una variedad de dispositivos con procesadores de señales digitales (DSP).
En los noventa una colaboración europea comenzó y, junto a otras compañías y universidades de toda Europa, se adquirió una base de datos de voz muy grande, con voces de más de 65000 personas.^[7]
Este material, combinado con un nuevo acercamiento al modelo oculto de Márkov y a la red neuronal artificial, produjo “FLEXUS” el primer reconocedor de voz flexible, que permitía a varios servicios telefónicos usar reconocimientos de voz en sus interfaces humanas. Combinando “FLEXUS” y “ACTOR” en un mismo sistema surgió “Diálogos”, permitiendo la creación de servicios telefónicos de vanguardia.
El nacimiento de Loquendo como una compañía llevó al desarrollo de muchos lenguajes y al estreno de reconocedor en la forma de un software de biblioteca, para la creación de varias aplicaciones telefónicas.
Las campañas de grabaciones de voz se expandieron y no sólo fueron en Europa, sino que se movieron hasta los países mediterráneos luego a América del Sur, Centro y del Norte y finalmente países en el Este. Se recolectaron incontables horas de voz de cientos de miles de personas en las regiones. Las grabaciones fueron recolectadas para las conexiones telefónicas, entre otros usos.

ElEnviadoDelDiablo

DONACIONES

domingo, 22 de septiembre de 2019

Qué Pronto Se Te Ha Olvidado

Sintetizador de voz

Reconocimiento de voz

No hay comentarios:

Publicar un comentario

ELENVIADODELDIABLO

Denunciar abuso

Etiquetas

Popads