Síntese de voz através de texto

Síntese de voz

através de texto

A síntese de voz a partir de texto é uma importante e útil particularidade dos e-readers, permitindo aos utilizadores ouvir um ficheiro de leitura em vez de o ler.

Um sistema de conversão texto-fala, Text-to-Speech (TTS), sintetiza voz a partir de texto, realizando a leitura automática do mesmo. Este divide-se em dois principais blocos: o bloco de processamento linguístico-prosódico e bloco de processamento acústico do sinal de fala.

Gostava de experimentar um sistema deste género?

Processamento linguístico prosódico

O objetivo deste primeiro processamento é determinar no texto dois tipos de informação que permitem ao processamento acústico gerar uma fala natural.

A informação segmental diz respeito à cadeia de sons que compõem uma mensagem. Cada língua tem um conjunto de sons base que combinados permitem produzir as suas particularidades da respetiva língua, gerando fonemas.

A Informação supra-segmental diz respeito à prosódia, refletindo elementos linguísticos como frases, pausas, acentuação e agrupamento de elementos de significado e elementos não linguísticos. Esta é usualmente codificada utilizando três parâmetros acústicos do sinal de fala, a evolução temporal da frequência fundamental, a duração dos segmentos de som que compõem a frase e a curva temporal de energia do sinala acústico. Nos conversores atuais, os dois tipos de informação são extraídos através de uma sequência de tarefas.

No Pré-processamento, o texto é formatado, representando, por extenso, números, abreviaturas, acrónimos e possíveis caracteres.

Na Análise Linguística, são colocadas marcas nas fronteiras entre palavas, sendo realizada a divisão silábica, a marcação da sílaba acentuada e eventuais graus de acento podendo recorrer a algoritmos de divisão silábica. É também realizada uma análise morfológica com identificação da função gramatical das palavras recorrendo a dicionários e algoritmos de desambiguação e uma análise sintática que marca as fronteiras sintático-prosódicas e identifica o cerne da frase.

Na Transcrição Fonética, o texto é transcrito foneticamente para uma sequência ou códigos de fones, sendo o Speech Assessment Methods Phonetic Alphabet (SAMPA), o alfabeto mais utilizado. A representação fonética resulta de uma transcrição clássica do texto para fonema, enquanto a fonológica utiliza fones (variações de fonemas). Este aspeto é particularmente importante em línguas como o Português, em que a representação fonética diverge consideravelmente da fonológica.

No Processamento Prosódico, a informação segmental e supra-segmental é recolhida e traduzida em variações de duração segmental e inserção de pausas com duração adequada (ritmo), de frequência fundamental e de intensidade sonora.

Processamento ACÚSTICO

A geração e propagação de sons no sistema vocal é regida pelas leis fundamentais da física. Neste bloco, as sequências anteriores são selecionadas de uma base de dados e concatenadas de acordo com cada tipo de modelo acústico.

No Modelo de Formantes, é utilizado um modelo fonte-filtro onde o filtro se caracteriza por variar suavemente as formantes ao longo do tempo. A fonte de som e frequências formantes são modeladas e o trato vocal é descrito recorrendo às suas formantes e respetivas larguras de banda. Para uma boa qualidade de síntese, são necessários pelo menos quatro formantes.

No Modelo de Predição Linear, são estimados os parâmetros do sinal de fala em segmentos de sinal, prevendo o valor de uma amostra por combinação linear dos valores das amostras anteriores. Os coeficientes LPC são estimados por minimização do erro quadrático entre a amostra real e a sua predição, devendo ser atualizados num máximo de 30ms. Normalmente os segmentos de fala escolhidos para extração dos coeficientes são os primeiros 1, 2 ou 4 múltiplos do período fundamental. O filtro resultante, simula o trato vocal e é alimentado com impulsos que simulam os pulsos glotais e cuja periodicidade representa a frequência fundamental.

Na Modelização Sinusoidal, o sinal é dividido em segmentos em que cada um é descrito por uma soma de sinusoides. Determinando as frequências, amplitudes e fases de cada uma, é possível sintetizar o sinal. As sinusoides de um segmento não são independentes das utilizadas em segmentos adjacentes e sempre que duas sinusoides estejam ligadas, é necessário impor continuidade de frequência. Determinando os valores instantâneos nos extremos de cada segmento e interpolando os valores intermédios, é possível estudar a evolução das frequências, amplitudes e fases das sinusoides.

Os Métodos Pitch Synchronous Overlap And Add (PSOLA) geram o sinal de fala concatenando segmentos de forma síncrona, utilizando os períodos de frequência fundamental do sinal original. Existem algumas variações deste método como o Time Domain – PSOLA, o Frequency Domain PSOLA, o Residual Excitation Linear Prediction – PSOLA e o Multiband Resynthesis Overlap and Add que procuram resolver dificuldades existentes no modelo original.

Nos Modelos Articulatórios, é usado um modelo físico-acústico de produção de fala que inclui todos os articuladores, modelando diretamente o sistema e não o sinal. Num sintetizador deste tipo, a naturalidade da fala depende da modelação de alguns subsistemas da fala como as cordas vocais, que funcionam como fonte do sinal e o trato vocal, que é modelado como um sistema linear.

CARREGUE AQUI

Síntese de voz

através de texto

Deixe-nos a sua pergunta:

Pode encontrar um paper sobre este tema aqui: