Síntese de voz do Google, como funciona?

Em Dúvidas de aparelhos e apps por André M. Coelho

Quanto tempo vai demorar antes de o seu computador olhar em seus olhos e começar a expressar sentimentos realistas? Em teoria, pode acontecer já agora, pois praticamente todos os PCs modernos do Windows possuem um sintetizador de voz. que é uma voz computadorizada que transforma texto escrito em discurso, principalmente para ajudar pessoas com deficiências visuais que não conseguem ler pequenos textos impressos em um tela. Como exatamente a síntese de voz funciona?

O que é síntese de voz do Google?

Existe mais de um sistema de síntese de voz e resolvemos pegar o sistema do Google como nosso exemplo. Porém, o princípio de funcionamento em todos é mais ou menos o mesmo.

Como funciona o mecanismo de conversão de texto em voz?

Digamos que você tenha um parágrafo de texto escrito que você deseja que seu computador fale em voz alta. Como transformar as palavras escritas em sons que você realmente pode ouvir? Existem essencialmente três estágios envolvidos, que chamaremos de texto para palavras, palavras para fonemas e fonemas para sons.

Texto para palavras

Ler palavras parece fácil, mas se você já ouviu uma criança pequena lendo um livro que era muito difícil para eles, você saberá que não é tão trivial quanto parece. O principal problema é que o texto escrito é ambíguo: a mesma informação escrita pode muitas vezes significar mais do que uma coisa e geralmente você tem que entender o significado ou fazer um palpite educado para lê-lo corretamente. Portanto, o estágio inicial na síntese de fala, que geralmente é chamado de pré-processamento ou normalização, trata de reduzir a ambiguidade: trata-se de reduzir as diferentes maneiras pelas quais você pode ler um texto em um que é mais apropriado.

O pré-processamento envolve passar o texto e limpá-lo para que o computador cometa menos erros quando ele realmente lê as palavras em voz alta. Coisas como números, datas, horas, abreviaturas, siglas e caracteres especiais (símbolos de moeda e assim por diante) precisam ser transformados em palavras, e isso é mais difícil do que parece. Um número pode referir-se a uma quantidade de itens, um ano ou uma hora, ou uma combinação de um cofre, cada uma das quais é lida um pouco diferente. Enquanto os humanos seguem o sentido do que está escrito e descobrem a pronúncia desse jeito, os computadores geralmente não tem o poder de fazer isso, então eles precisam usar técnicas de probabilidade estatística (ou redes neurais (programas de computador estruturados de forma a aprender a reconhecer padrões) para chegar a pronúncia mais provável em vez disso. Então, se a palavra “ano” ocorrer na mesma frase que um número, pode ser razoável adivinhar que é uma data e pronunciá-la da forma apropriada. Se houvesse um ponto decimal antes dos números, eles deveriam ser lidos de maneira diferente.

O pré-processamento também tem de enfrentar homografias, que são palavras pronunciadas de diferentes maneiras de acordo com o que elas significam.Certas palavras podem ser pronunciadas com diferentes pronúncias e significados. Mas se pode descobrir o tempo verbal das frases, o contexto, e as palavras que antecedem e procedem para identificar a melhor pronúncia para cada uma delas..

A síntese de voz serve para o reconhecimento de padrões de fala humana pelas máquinas. (Foto: Chatbot News Daily)

Palavras para fonemas

Tendo descoberto as palavras que precisam ser ditas, o sintetizador de voz agora tem que gerar sons de fala que compõem essas palavras. Em teoria, este é um problema simples: todas as necessidades do computador são uma enorme lista alfabética de palavras e detalhes de como pronunciar cada uma. Para cada palavra, precisamos de uma lista dos fonemas que compõem o som.

Se um computador possui um dicionário de palavras e fonemas, tudo o que precisa fazer para ler uma palavra é procurar na lista e depois ler os fonemas correspondentes, certo? Na prática, é mais difícil do que parece. Como qualquer bom ator pode demonstrar, uma única frase pode ser lida de muitas maneiras diferentes de acordo com o significado do texto, a pessoa que fala e as emoções que eles querem transmitir (na linguística, essa ideia é conhecida como prosódia e é uma dos problemas mais difíceis para os sintetizadores de fala serem abordados). Dentro de uma frase, até uma única palavra pode ser lida de várias formas porque tem múltiplos significados. E mesmo em uma palavra, um fonema determinado soará diferente de acordo com os fonemas que vêm antes e depois dele.

Uma abordagem alternativa envolve a quebra de palavras escritas em seus grafemas (unidades de componentes escritas, normalmente feitas a partir de letras individuais ou sílabas que compõem uma palavra) e, em seguida, gerando fonemas que correspondem a eles usando um conjunto de regras simples. Isso é um pouco como uma criança tentando ler as palavras que ele ou ela nunca encontrou anteriormente. A vantagem de fazer isso é que o computador pode fazer uma tentativa razoável de ler qualquer palavra, seja ou não uma palavra real armazenada no dicionário, uma palavra estrangeira ou um nome ou termo técnico incomum. A desvantagem é que as línguas tem um grande número de palavras irregulares que são pronunciadas de uma maneira muito diferente da forma como elas estão escritas, exatamente o tipo de palavras que causam problemas para as crianças aprendendo a ler e as pessoas com a doença que se conhece como dislexia superficial (também chamada de dislexia ortográfica ou visual).

Fonemas para som

Agora convertemos nosso texto (nossa seqüência de palavras escritas) em uma lista de fonemas (uma sequência de sons que precisam falar). Mas, onde conseguimos os fonemas básicos que o computador lê em voz alta quando está transformando o texto em discurso? Existem três abordagens diferentes. Uma delas é usar gravações de seres humanos que dizem os fonemas, outroaé para o computador gerar os próprios fonemas gerando frequências sonoras básicas (parecido com um sintetizador de música) e uma terceira abordagem é imitar o mecanismo da voz humana.

Concatenativo

Os sintetizadores de voz que usam vozes humanas gravadas devem ser pré-carregados com pequenos trechos de som humano que podem ser reorganizados. Em outras palavras, um programador tem que registrar muitos exemplos de uma pessoa que diz coisas diferentes, quebra as frases faladas em palavras e as palavras em fonemas. Se houver amostras de fala suficientes, o computador pode reorganizar os bits de várias maneiras diferentes para criar palavras e frases totalmente novas. Este tipo de síntese de fala é chamado concatenativo (de palavras latinas que simplesmente significam ligar bits juntos em uma série ou cadeia). Uma vez que se baseia em gravações humanas, a concatenação é o tipo de síntese de voz mais natural e é amplamente utilizado por máquinas que têm apenas coisas limitadas para dizer (por exemplo, quadros de telefone corporativos). A principal desvantagem é que ele é limitado a uma única voz (um único falante de um único sexo) e (geralmente) um único idioma.

Formante

Se você considera que o discurso é apenas um padrão de som que varia em tom (frequência) e volume (amplitude) como o ruído que sai de um instrumento musical, deveria ser possível fazer um dispositivo eletrônico que possa gerar qualquer tipo de voz. Este tipo de síntese de fala é conhecido como formante, porque os formantes são as frequências de som de 3 a 5 (ressonantes) do som que o aparelho vocal humano gera e combina para fazer o som da fala ou do canto. Ao contrário dos sintetizadores de fala que usam concatenação, que se limitam a reorganizar sons pré-gravados, os sintetizadores de fala formantes podem dizer absolutamente qualquer coisa, até mesmo palavras que não existem ou palavras estrangeiras que nunca encontraram. Isso faz dos sintetizadores formantes uma boa escolha para computadores GPS (navegação), que precisam ser capazes de ler muitos milhares de nomes de lugares diferentes (e muitas vezes incomuns) que seriam difíceis de memorizar. Em teoria, os sintetizadores de formantes podem mudar facilmente de uma voz masculina para uma voz feminina (ao dobrar a frequência) ou para a voz de uma criança (triplicando) e podem falar em qualquer idioma. Na prática, os sintetizadores de concatenação agora usam enormes bibliotecas de sons para que eles possam dizer praticamente tudo. Uma diferença mais óbvia é que os sintetizadores de concatenação são muito mais naturais do que os formantes, que ainda tendem a parecer relativamente artificiais e robóticos.

Articulatório

A abordagem mais complexa para gerar sons é chamada de síntese articulatória, e significa fazer computadores falarem, modelando o aparelho vocal humano incrivelmente complexo. Em teoria, isso deveria dar a voz mais realista e humana de todos os três métodos. Embora numerosos pesquisadores tenham experimentado a imitação da caixa de voz humana, a síntese articulatória ainda é, de longe, o método menos explorado, em grande parte devido à sua complexidade. A forma mais elaborada de síntese articulatória seria a engenharia de um robô de “cabeça falante” com uma boca em movimento que produz o som de uma maneira similar a uma pessoa, combinando componentes mecânicos, elétricos e eletrônicos, conforme necessário.

Para que é usada a síntese de voz e o leitor de texto do Google?

Em um dia típico e você pode encontrar todos os tipos de vozes gravadas, mas, à medida que a tecnologia avança, fica cada vez mais difícil descobrir se você está ouvindo uma gravação simples ou um sintetizador de fala. Você pode ter um despertador que o desperte ao falar o tempo, provavelmente usando síntese de fala bruta e formante

Se você tiver um sistema GPS falante em seu carro, isso pode usar síntese de fala concatenada (se tiver apenas um vocabulário relativamente limitado) ou síntese de formantes (se a voz for ajustável e pode ler nomes de lugares).

Se você tem um leitor de ebook, talvez você tenha um com leitura incorporada. Se você tem deficiência visual, você pode usar um leitor de tela que fala as palavras em voz alta da tela do seu computador (a maioria dos computadores modernos do Windows tem um programa chamado Narrador que você pode ativar para fazer exatamente isso).

Se você o usa ou não, é provável que seu celular tenha a capacidade de ouvir suas perguntas e responder através de um assistente pessoal inteligente como a Siri (iPhone), Cortana (Microsoft) ou Google Assistant / Now (Android).

Se você estiver usando transporte público, você ouvirá as vozes gravadas o tempo todo falando anúncios de segurança ou dizendo o que trens e ônibus estão chegando em seguida. São gravações simples de seres humanos ou estão usando discurso concatenado e sintetizado? Veja se você consegue descobrir isso!

Um uso realmente interessante da síntese de fala é o ensino de línguas estrangeiras. Os sintetizadores de fala são agora tão realistas que são bons o suficiente para os estudantes de idiomas usarem como prática.

Como vocês usam a síntese de voz do Google? Qual a utilidade no seu dia a dia?

Sobre o autor

Quando André entrou na faculdade em 2004, notebooks eram ainda muito caros. Para anotar as informações, buscou opções, encontrando no Palm Zire 72 um aparelho para ajudá-lo a registrar informações das aulas. Depois, trocou por um modelo de celular com teclado, Qtek quando o 2G e o 3G ainda engatinhavam no Brasil. Usou o conhecimento adquirido na pesquisa de diferentes modelos para prestar consultoria em tecnologia a diversas empresas que se adaptavam para o mundo digital. André passou ainda por um Samsung Omnia, um Galaxy Note II, e hoje continua um entusiasta de smartphones, compartilhando neste site tudo que aprendeu.

Veja também