Recentemente, a Microsoft apresentou revelou sua nova inteligência artificial (IA) que é capaz de “imitar” vozes de pessoas em poucos segundos. A novidade reforça o uso de áudio para alimentar algoritmos chamados text-to-speech (TTS, na sigla em inglês).
A VALL-E, como foi batizada a IA, leva apenas três segundos para ouvir, sintetizar e reproduzir uma voz humana em diferentes contextos. Inicialmente, o recurso suporta somente o idioma inglês.
De acordo com a Microsoft, a VALL-E possibilita a combinação de suas ferramentas com outros tipos de IA, como a GPT-3. As tecnologias são consideradas generativas, ou seja, podem criar conteúdo a partir de amostras.
Mais natural – O TTS tem como objetivo tornar mais natural a forma com que textos são transformados em áudio. O recurso evita o uso de voz mecânica ou despersonalizada, de assistentes de áudio e de aplicativos.
Mais de 60 mil horas de gravações foram utilizadas nos treinos para que a IA pudesse identificar diferentes características e tom de voz humano. As gravações também contaram com situações distintas de humor e de ambiente externo.
Fonte: Estadão Conteúdo. Foto: Mike Blake/Reuters.