Tecnología

¿Qué es Google Duplex?

OPINIÓN: Por Alberto de Torres, profesor de ESIC

- Facebook
- Twitter
- Whatsapp
- Telegram
- Email

Jueves 19 de agosto de 2021

Google Duplex es un sistema integrado en el asistente de Google que, basado en inteligencia artificial, crea nuevas experiencias de voz que ayudan a realizar tareas por teléfono, permitiéndonos realizar muchas de estas gestiones de forma sencilla. id:75106

Solo tenemos que pedirle, mediante voz, que haga una reserva en un determinado restaurante, por ejemplo, e introducir algunos parámetros como el número de personas, la fecha, la hora y el nombre de quien reserva. Una vez hecho esto, el Asistente de Google utilizará automáticamente Duplex para hacer una llamada telefónica a ese restaurante y reservar por nosotros. Después, el sistema enviará una confirmación.

A la hora de realizar la reserva, Duplex imitará la voz humana para que la conversación telefónica sea natural, añadiendo incluso interjecciones como “hum” para que parezca más humano. Asimismo, Duplex reproduce fielmente las cadencias de las conversaciones, como puede ser la latencia en las respuestas. Así, con Duplex, Google ha logrado un sistema de voz muy avanzado, aunque en algunos momentos hace alguna inflexión poco natural y robótica.

¿Qué tecnología utiliza Duplex?

La tecnología que usa Duplex está basada en el procesamiento del lenguaje natural. Para ello, se necesita un traductor de voz a texto preciso con el que entender lo que le dice la persona al teléfono.

A continuación, otro modelo tiene que interpretar el contexto del objetivo de la llamada telefónica y luego hay que crear una respuesta adecuada.

Finalmente, un modelo de conversión de texto a voz traduce esta respuesta en una voz similar a la humana que la diga por teléfono. Estos pasos deben repetirse constantemente a lo largo de la llamada telefónica en tiempo real, por lo que los modelos deben ser precisos y rápidos.

Google Duplex utiliza una red neuronal recurrente combinada con la tecnología de reconocimiento automático del habla (RAH o, en inglés, ASR: automatic speech recognition) de Google, los parámetros de la conversación (por ejemplo: la hora deseada, los nombres) y un sistema de conversión de texto a voz (TTS: text-to-speech en inglés).