Síntese da fala

A síntese da fala é a produção artificial da fala humana. Um sistema informático utilizado para este fim é chamado de sintetizador de fala, e pode ser implementado em produtos de software ou hardware. Um sistema de texto-para-fala (TTS) converte texto de linguagem normal em fala; outros sistemas convertem representações linguísticas simbólicas como transcrições fonéticas em fala. A fala sintetizada pode ser criada através da concatenação de partes da fala gravadas que são armazenadas em um banco de dados. Os sistemas diferem no tamanho das unidades de fala armazenadas; um sistema que armazena telefones ou ditones fornece a maior faixa de saída, mas pode carecer de clareza. Para domínios de utilização específicos, o armazenamento de palavras ou frases inteiras permite uma saída de alta qualidade. Alternativamente, um sintetizador pode incorporar um modelo do trato vocal e outras características da voz humana para criar uma saída de voz completamente "sintética". Qual é o papel da linguagem de marcação da síntese de voz? A linguagem de marcação de síntese de voz (SSML) é uma linguagem de marcação padrão baseada em XML utilizada pelos programadores para controlar a geração da fala sintética. O objectivo principal da SSML é melhorar a qualidade da fala sintética, fornecendo uma forma padrão de descrever como o sintetizador deve gerar a fala.

O SSML é suportado por uma série de sintetizadores de fala populares, incluindo os utilizados pelo Google, Amazon, Microsoft e Apple. Além disso, há uma série de processadores SSML comerciais e de código aberto disponíveis.

O uso mais comum do SSML é para controlar a pronúncia das palavras. Por exemplo, a seguinte marcação SSML faria com que a palavra "cat" fosse pronunciada como "kat":

O cat sentou-se no tapete.
cat

Outros usos comuns do SSML incluem controlar a taxa, o tom e o volume da fala sintetizada, assim como especificar pausas, pausas, e outros efeitos prosódicos.

Porque é que precisamos de síntese de fala? Precisamos de síntese de fala para converter texto em palavra falada. Isto pode ser útil numa variedade de situações, como quando queremos ouvir um livro enquanto estamos a fazer outra coisa, ou quando precisamos de converter texto noutra língua. A síntese de fala é uma parte da PNL? Não, a síntese de fala não faz parte da PNL. PNL é um ramo da IA que lida com as interações entre humanos e computadores usando linguagem natural. A síntese da fala é a produção artificial da fala humana. A PNL é um discurso para o texto? PNL, ou processamento de linguagem natural, é um ramo da inteligência artificial que lida com a interpretação e manipulação da linguagem humana. A PNL pode ser usada para uma variedade de tarefas, incluindo a fala para o texto.

Como se faz uma pausa entre o texto e a fala?

Existem algumas maneiras diferentes de pausar texto-para-fala, dependendo da aplicação que você está usando.

Se você estiver usando um programa text-to-speech como Balabolka, você pode pausar a fala pressionando o botão "Pausar" na barra de ferramentas.

Se você estiver usando um programa de conversão de texto em fala como o NaturalReader, você pode pausar a fala pressionando o botão "Pausa" na barra de ferramentas, ou pressionando a barra de espaço no teclado.

Se você estiver usando um programa de texto-para-fala como o ReadAloud, você pode pausar a fala pressionando o botão "Pausa" na barra de ferramentas, ou pressionando a tecla Esc no seu teclado.