Google Cloud anuncia disponibilidade geral do Text-to-Speech

No total, ferramenta de conversão de texto para voz agora oferece 56 vozes em 14 idiomas e variantes.

Publicado:

06/09/2018 às 16:30

Leitura

2 minutos

O Google Cloud anunciou recentemente a disponibilidade geral da ferramenta de conversão de texto para voz Text-to-Speech, que foi disponibilizada ao público inicialmente há alguns meses.

Entre outras coisas, a solução ganhou 17 novas vozes, incluindo português, inglês (EUA) e espanhol, que permitem a criação de aplicativos em idiomas variados, como anunciado no evento Cloud Next’ 18, em julho.

No total, a API agora oferece 56 vozes em 14 idiomas e variantes, sendo 30 delas padrão e 26 delas WaveNet (produto da DeepMind), capazes de imitar vozes humanas e sons naturais, o que permite uma melhor experiência aos usuários.

Audio Profiles

O Google Cloud também revelou que o recurso Audio Profiles agora também está disponível. Com a novidade, o usuário pode otimizar a reprodução dos áudios Text-to-Speech nos diferentes tipos de equipamentos, como fones de ouvido, alto-falantes e linhas telefônicas.

“Por exemplo, se o áudio que o seu aplicativo produz é ouvido principalmente em fones de ouvido, você pode criar uma voz sintética a partir da API Cloud Text-to-Speech que seja otimizada especificamente para fones de ouvido”, explica o Google em um post no seu blog sobre as novidades.

Novas funções do Speech-to-Text

Além disso, o Google também anunciou novas atualizações beta para o serviço que transforma voz em texto Speech-to-Text, incluindo reconhecimento multicanal, diarização de alto-falante e detecção automática de idiomas, todas anunciadas durante o Google Cloud Next’ 18.

Entre outras coisas, essas funções possibilitam a transcrição de vários canais de áudio com identificação de vozes, de modo a registrar quais palavras foram ditas por quem.

E nos casos em que as amostras de áudio que não são separadas em canais, como em uma palestra, por exemplo, o Google disponibiliza a chamada diarização. Para usá-la, basta inserir o número de pessoas falantes como parâmetro à API e, por meio de aprendizagem de máquina (Machine Learning), a ferramenta elabora uma categoria de cada palavra com um número e, na transcrição, consegue identificar o falante de maneira assertiva.