© 2016 por BarbaAudioSolutions orgulhosamente criado para educação profissional.

Inteligibilidade da fala (Parte 1)

26.01.2017

A maioria das pessoas já tiveram essa experiência:

 

Você está dirigindo o seu carro com as janelas para baixo e o rádio tocando. É uma canção nova, uma que você nunca ouviu antes por um artista que você não reconhece, e você tem que reconhecer o nome para poder comprar o disco assim que puder. A música termina, o locutor aparece e. . .

 

. . . Você não pode entendê-lo por conta do ruído da estrada.

 

Como este exemplo simples ilustra, há uma diferença importante entre música e fala. O cérebro é capaz de "preencher" uma quantidade razoável de informações em falta na música, porque há um alto grau de redundância (se você não escutou a linha de baixo nas primeiras quatro partes, você vai buscá-la quando ela repete nos próximos quatro.) Mas a fala é rica em informações em constante mudança e tem menos redundância do que a música. Se mesmo uma porcentagem modesta da informação é ilegível ou falta, o cérebro não pode decifrar a mensagem.

 

Os sistemas de comunicação por voz, portanto, estão sujeitos a requisitos mais rigorosos do que os sistemas de música. Estas páginas discutem a inteligibilidade da fala no reforço de som - o que é, o que a afeta e como é medida.

 

O sinal de voz

 

A fala humana é uma forma de onda contínua com uma frequência fundamental na faixa de 100-400 Hz. (A média é de cerca de 100 Hz para os homens e 200 Hz para as mulheres.) Em múltiplos inteiros da fundamental temos uma série de harmônicos em mudança chamados "formantes" que são determinados pelas características ressonantes do trato vocal. Formantes criam vários sons vocálicos e transições entre eles. Os sons de consoante, que são impulsivos e / ou ruidosos, ocorrem na faixa de 2 kHz a cerca de 9 kHz. ( Aqui está um gráfico do espectro vocal para os oradores masculinos e femininos com um "ideal" espectro vocal humana sobreposto.)

 

 

A potência sonora na fala é transportada pelas vogais, que têm uma duração média de 30 a 300 milissegundos. Inteligibilidade é transmitida principalmente pelos consoantes, cuja média tem de 10 a 100 milissegundos de duração e podem ser menores cerca de 27dB de amplitude que as vogais. A intensidade do sinal de fala varia como um todo, e a intensidade das faixas de frequência individuais variam em relação às outras à medida que os formantes mudam.

 

Compreensão da Fala

O desafio do ouvinte é analisar os sons da fala em unidades significativas da linguagem - uma tarefa complicada. As lacunas no som não correspondem necessariamente a rupturas de palavras ou sílabas. Os sons da fala também não são eventos distintos: em vez disso, eles se fundem e se sobrepõem no tempo, e a articulação de um dado fonema difere em diferentes contextos e com os diferentes oradores.

 

De fato, as maneiras mais precisas pelas quais o mecanismo do ouvido-cérebro descodifica a fala permanecem um certo mistério. Fatores como sonoridade, duração e conteúdo espectral certamente afetam a percepção da fala, mas como eles podem interagir não é totalmente compreendido.

 

A inteligibilidade diminuída está associada a uma perda de informação que é codificada em vários elementos altamente interativos, e muitos fatores a influenciam. Ruídos de fundo podem mascarar o discurso. Tanto a direção da fonte, relativamente ao ouvinte, como a direção do ruído interferente podem alterar o grau de mascaramento. A inteligibilidade também é afetada pela previsibilidade da mensagem, a enunciação do orador e, não menos importante, a acuidade da audição do ouvinte.

 

 

Fatores que afetam inteligibilidade em sistemas de som 

 

O objetivo de um sistema de reforço de fala é entregar a voz falando aos ouvintes com clareza suficiente para ser entendida. Dada a complexidade do sinal de fala, a tarefa de proporcionar um reforço de fala de alta qualidade em condições reais, menos do que ideais, é duplamente complicada.

Aqui é um diagrama de um sistema de reforço de fala simplificado que mostra os principais fatores que afetam a inteligibilidade. Como o diagrama indica, uma série de fatores acústicos, eletromecânicos e eletrônicos precisam ser considerados para que a inteligibilidade possa ser mantida. A fim de lidar com todos esses fatores de forma eficaz, deve-se compreender como cada um afeta o sinal de fala.

 

 

Mascaramento

 

O obstáculo mais comum que os designers de sistemas de fala enfrentam é a intrusão de sons indesejados que inevitavelmente interferem com o sinal de fala. O efeito é chamado de "mascaramento", um termo geral que abrange uma grande variedade de situações.

 

O ruído de mascaramento pode vir de fontes acústicas, como equipamentos de ventilação, tráfego, multidões e, comumente, reverberação e ecos. Ele também pode surgir eletronicamente de ruído térmico, hiss de fita ou produtos de distorção. Se o sistema de som tem grandes e incomuns picos na sua resposta de frequência, o sinal de fala pode até mesmo terminar mascarando-se.

 

Uma relação entre a força do sinal de fala e o ruído de mascaramento é chamada de relação sinal-ruído expressa em decibéis. Idealmente, a relação S / N é maior que 0dB, indicando que a fala é mais alta do que o ruído. O quanto mais alto o discurso precisa ser para ser entendido varia, entre outras coisas, com o tipo e o conteúdo espectral do ruído de mascaramento.

 

O mascaramento mais uniformemente eficaz é o ruído de banda larga. Aqui está um gráfico mostrando a articulação das palavras  contra S / N quando a fonte de mascaramento é o ruído que mede de 20Hz  a 4kHz. 

 

Observe que o sinal deve ser 12dB mais alto do que o ruído de banda larga para alcançar 80% de compreensão das palavras.

 

Embora, ruído de banda estreita seja menos eficaz em mascarar a fala do que o ruído de banda larga, o grau de mascaramento variará com a frequência. Aqui esta um gráfico mostrando a articulação das palavras em relação ao S / N de duas bandas sonoras - 135 a 400Hz (a faixa de frequência fundamental da voz) e 1800-2500Hz (a faixa de frequência mais forte das consoantes).

 

Ruído de alta frequência mascara apenas as consoantes, e sua eficácia como mascara diminui na medida o ruído fica mais alto. Mas o ruído de baixa frequência é uma máscara muito mais eficaz na medida que o ruído é mais alto do que o sinal de voz, e em níveis de pressão sonora elevada mascara as vogais e as consoantes. É por isso que o efeito de proximidade dos microfones cardióides pode ser tão prejudicial à inteligibilidade da fala: faz com que o sinal de fala se mascare. Enquanto os cardioides sejam muito úteis para minimizar o ruído de captação na fonte, eles devem sempre ser usados ​​com um high-pass filter (12dB /oitava ou maior) sintonizado em  cerca de 100 Hz (ou superior, se o speaker de voz permitir) para que problemas do efeito de proximidade sejam minimizados.

 

Uma voz humana que transmite uma mensagem concorrente, às vezes chamada de "distractor", também é muito boa para mascarar a fala - particularmente com ou abaixo de 0dB S/N. Além disso, o efeito de mascaramento aumenta com o número de vozes distrativas. Aqui temos um diagrama que compara o mascaramento para uma, duas e três vozes. 

 

Observe que, abaixo de 0 dB S / N, três vozes se tornam tão eficazes como uma fonte de mascaramento de ruído de banda larga. Acima de 0 dB S/N, no entanto, a inteligibilidade melhora rapidamente à medida que o S/N aumenta. Isso ilustra a importância de ter força suficiente no sistema para superar o ruído da multidão.

 

A direção a partir da qual um som de mascaramento chega, em relação à direção do sinal de fala, pode afetar o grau de mascaramento. Se o ruído vem do mesmo lugar, o mascaramento é maior; Ele diminui à medida que a distância entre o ruído e a fala aumenta porque isso torna mais fácil para o cérebro identifica-los. O efeito de máscara é mais baixo quando o teste  é feito através de fones de ouvido, tendo o discurso em uma orelha e o mascaramento na outra. (Infelizmente, não podemos aproveitar esse recurso no reforço sonoro).

 

A partir desta discussão, podemos ver por que a reverberação é tão destrutiva para inteligibilidade, especialmente além da distância crítica. Sendo ele próprio causado pela fala, o reverb imita o espectro da fala, mas geralmente com maior energia das baixas frequências. 

 

Reverb longos e ecos - como são encontrados em catedrais e grandes arenas esportivas - podem realmente funcionar como múltiplas vozes distrativas. E por sua natureza, a energia reverberante chega de todos os ângulos, assim que fica difícil separar o discurso usando guias direcionais.

 

Resposta de frequência

 

Um dos aspectos mais óbvios do desempenho do sistema de som que afeta a inteligibilidade é a resposta em frequência. Sistemas severamente limitados em banda entregam um som pobre. Por exemplo, os telefones são geralmente limitados a uma largura de banda de 2 kHz, o que dificulta a distinção entre sons "f" e "s" ou "d" e "t".

 

Sistemas de fala de alta qualidade precisam cobrir a faixa de frequência de 80 Hz (especialmente para vozes masculinas profundas) até cerca de 10 kHz (para melhor reprodução das consoantes, que são cruciais para a inteligibilidade). A resposta abaixo de 80 Hz deve ser eliminada na medida do possível: não só estas frequências caem abaixo do alcance do sinal de fala, mas também causarão máscaras particularmente destrutivas quando os níveis sonoros são elevados.

 

É importante, também, que a resposta do sistema seja razoavelmente plana em toda a sua faixa. O ajuste gradual da alta frequência que muitos profissionais reforçam para aplicações de música tenderá a enfatizar as consoantes, já que são 27dB mais baixos do que as vogais. Do mesmo modo, picos proeminentes ou vales na resposta podem causar auto-mascaramento ou perda de articulação das consoantes.

 

Finalmente, a cobertura do sistema deve ser consistente em toda a área de escuta pretendida, com o mínimo de cancelamento na resposta ou caindo fora do eixo nas altas frequências críticas. Este requisito, com frequência, determina uma distribuição no sistema de alto-falantes ou cuidadosamente orienta e atrasa uma quantidade de altofalantes. O uso de alto-falantes high-Q ajudarão a elevar a relação  S/N entre os níveis de fala e reverberação.

 

Distorção

 

Estudos iniciais de inteligibilidade em sistemas de comunicação sugerem que clipar os picos do sinal de fala, e, em seguida, amplificar para restaurar a sua amplitude de pico a pico, melhora a inteligibilidade. O truque funciona em situações muito barulhentas, porque o clip gera parciais que estão harmoniosamente relacionadas com a fundamental - e, portanto, será menos provável mascarar o discurso - e porque ambos acentuam as consoantes e aumentam a potência sonora do sinal. Como tal, tem sido útil para sistemas de comunicação de banda-limitada que são usados ​​em ambientes muito ruidosos, como o convés de um porta-avião.

 

No entanto, o fato é que o clipping no sinal para melhorar a inteligibilidade funciona apenas nos casos em que a relação sinal-ruído é muito pobre. Aqui está um gráfico mostrando a articulação das palavra em relação ao S/N para um clip infinito e um clip no sinal de voz. 

 

Observe que a pontuação de inteligibilidade para o sinal clipado atinge cerca de 50% a 0 dB S/N; Acima de +3dB S/N, o sinal não clipado obtém melhores resultados.

 

Nos sistemas de reforço de fala da vida real, clipping deve ser evitado. Obviamente, ele soará horrível através de um sistema de som de alta qualidade. Também irá aumentar o mascaramento de qualquer ruído que é pego pelo microfone, uma vez que o ruído será clipado junto com a fala.

 

Outro tipo de distorção que é muito destrutivo para a inteligibilidade é a distorção de intermodulação. Embora seja facilmente controlado na eletrônica de um sistema de som, significativamente IM pode ser gerado quando alguns tipos de alto-falantes (particularmente coaxiais de duas vias) são colocados em níveis elevados. IM produz soma e diferentes produtos que não estão harmonicamente relacionados com a frequência fundamental. Como tal, eles têm um efeito de máscaramento muito maior do que os produtos harmônicos do clipping.

 

Resposta do Tempo

 

Talvez porque ela permaneça mal compreendida e seus efeitos sejam mais sutis, a resposta de fase em sistemas de comunicação tem recebido pouca atenção. Na verdade, a maioria das pesquisas publicadas sobre "fase" e inteligibilidade atuais falam dos efeitos da polaridade relativa. Foi mostrado, por exemplo, que quando a fala é apresentada juntamente com ruído sobre fones de ouvido, a inteligibilidade aumenta em cerca de 25% se o sinal de fala em uma orelha é invertido em relação à outra orelha. Mas este resultado não tem aplicação em reforço de som, exceto para monitores de ouvido in-nears.

 

CONTINUA...

 

https://www.dicasdobarba.com/single-post/2017/04/15/Inteligibilidade-da-fala-Parte-2

 

Traduzido na integra por Douglas Barba

FONTE: Meyer Sound

Please reload

 Siga o #DICASDOBARBA 
  • YouTube - Black Circle
  • Facebook B&W
 POSTS recentes: 

03.09.2019

Please reload

 procurar por TAGS: 
Please reload