© 2016 por BarbaAudioSolutions orgulhosamente criado para educação profissional.

Inteligibilidade da fala (Parte 2)

15.04.2017

 

Seção III 

Medições estatísticas de Inteligibilidade da fala

 

As medições de inteligibilidade estatística utilizam os seres humanos, em vez de instrumentos de teste eletrônico, para avaliar os sistemas de comunicação de fala.

Proposto pela primeira vez em 1910 e refinado com a introdução do telefone e o advento dos sistemas de comunicação eletrônica na Segunda Guerra Mundial, tais testes ainda são considerados as medidas mais precisas e confiáveis ​​de inteligibilidade. Embora muitas variações estejam em uso, esta discussão lida diretamente com o procedimento aprovado pelo American National Standards Institute (ANSI S3.2-1989, "Método para Medir a Inteligibilidade de Sistemas de Discurso por Comunicação").

 

Método e Aplicações

 

O processo de medição estatística utiliza oradores treinados, fluentes em inglês, que falam listas de palavras padronizadas através do sistema de comunicação para ouvintes fluentes e treinados. As listas de palavras são criadas para avaliar aspectos específicos da transmissão da fala. A capacidade dos ouvintes para identificar palavras individuais ou pares de palavras indica a qualidade da transmissão.

 

Esses testes são utilizados em uma ampla variedade de aplicações, desde o exame da acústica das salas de conferência até a avaliação de intercomunicadores para mergulhadores de profundidade. No reforço de som profissional, os testes estatísticos fornecem informações cruciais para arquitetos e consultores, tanto na concepção de sistemas de reforço de fala como no aperfeiçoamento de seu desempenho no campo. Eles também podem ser usados ​​para avaliar as contribuições que microfones específicos, alto-falantes e processadores de sinal fazem para a inteligibilidade da fala.

 

Preparação

 

Para que os resultados de qualquer teste de inteligibilidade sejam válidos, os que conduzem o teste devem ser bem versados ​​em desenho experimental e análise de dados estatísticos. Uma vez que os sujeitos humanos são centrais para os testes, os experimentadores também devem compreender os fatores psicológicos envolvidos, incluindo os efeitos da motivação e da aprendizagem através da repetição. Finalmente, eles devem, naturalmente, saber como operar o sistema de som corretamente para evitar a introdução de erros. Por todas estas razões, os testes de inteligibilidade são invariavelmente feitos por consultores treinados que se especializam no campo.

 

Os testes usam um mínimo de cinco locutores e cinco ouvintes; Grupos de assuntos maiores reduzem a margem de erro. Os interlocutores e os ouvintes são selecionados para assegurar uma representação da idade e do sexo. Todos devem falar inglês como sua primeira língua e ter audição normal. Locutores deve ter uma boa articulação, e são treinados tanto para falar em um nível consistente e para sincronizar as palavras com sinais de tempo para que a taxa de apresentação não distorça os resultados do teste de qualquer forma. Os ouvintes devem ter boa discriminação, estarem familiarizados com todas as palavras que serão utilizadas no teste, e com o som da voz de cada palestrante e do método de registro das respostas.

Uma série de listas de palavras especializadas estão em uso comum para testar vários aspectos da comunicação da fala. O padrão ANSI especifica três:

  • O teste Modificado Rhyme

  • O teste de diagnóstico Rhyme

  • O conjunto de vinte listas de palavras foneticamente balanceadas

Outros exemplos de listas de palavras incluem:

  • O teste de diagnóstico Alliteration

  • O Teste de diagnostico médio das Consoante

  • O teste de ortografia do alfabeto

Teste

 

Se possível, o sistema de som deve ser testado em condições reais de utilização: se houver fontes potenciais de ruído de mascaramento, tais como tráfego externo ou um sistema HVAC, estes devem estar presentes durante os testes e documentados para o relatório. Também é importante que os ganhos do sistema sejam ajustados para um nível de pressão sonora representativo. O material de teste pré-gravado pode ser utilizado desde que o equipamento de gravação e reprodução não introduza ruídos ou distorções significativos.

 

No mínimo, cada falante recebe três listas de palavras PB ou MRT - ou a lista DRT completa - para ler. Onde apenas um sistema de som está sendo testado, os sujeitos treinados são primeiro testados face a face ou em condições idênticas para estabelecer um "controle" ou medição de linha de base. (Nestas circunstâncias, a inteligibilidade deve ser quase perfeita.) Esse escore é então usado como referência para o qual o sistema em teste possa ser comparado. Durante o teste, informações adicionais, como a velocidade / certeza das respostas dos ouvintes e suas opiniões estatísticas sobre o sistema de som devem ser coletadas.

 

Analisando os resultados

Existem muitas maneiras de analisar os dados do teste dependendo das características da lista de palavras em particular e das variáveis ​​que estão sendo testadas. No mínimo, um conjunto de pontuações percentuais é calculado mostrando o número de vezes que as palavras foram identificadas corretamente por cada ouvinte. Tomando uma média destes pode-se produzir uma única pontuação global. Se o DRT ou MRT é usado, os resultados são ajustados matematicamente para explicar adivinhação (nenhum ajuste é necessário para o teste PB). Análises estatísticas mais aprofundadas podem fornecer informações mais detalhadas sobre o sistema de som, se forem realizadas com cuidado.

 

Seção IV

Máquina de medição de inteligibilidade da fala

 

Testes estatísticos usando oradores treinados e ouvintes são de longe os métodos mais precisos e confiáveis ​​para testes de inteligibilidade. Infelizmente, eles são complicados de configurar, consomem muito tempo para conduzir e exigem extensa análise estatística para interpretar.

Assim, consultores e profissionais acusticos há muito tempo buscavam um teste automatizado, baseado em máquina, que pudesse rápida e facilmente produzir pontuações significativas de inteligibilidade para sistemas de fala. Um número de métodos têm emergido ao longo dos últimos cinquenta anos e se enquadram em duas categorias básicas: A análise do campo reverberante, e as medições com base na relação sinal-ruído.

 

Análise da Reverberação

 

Pelo menos do antigo período clássico, os arquitetos reconheceram que a reverberação e os ecos dificultam a inteligibilidade. Na verdade, essa realização resultou no desenvolvimento do anfiteatro grego, um modelo arquitetônico durável que sobrevive até hoje.

Os acústicos modernos têm à sua disposição vários métodos diferentes para testar a reverberação em espaços fechados. Os mais utilizados são:

  • % ALcons - uma medida que é familiar para muitos engenheiros de sistemas de som

  • Proporção Direta-Reverberante

  • Taxa de sons úteis para prejudiciais

  • Proporção de energia sonora primária a tardia

Cada um desses testes pode nos dizer algo sobre as qualidades reverberantes de um espaço e, portanto, como a fala inteligível poderia estar nesse espaço. Uma vez que eles lidam predominantemente com reverberação, no entanto, eles não levam em conta a maioria dos fatores que podem afetar o desempenho de um sistema de reforço da fala.

 

Método Sinal/Ruído

Com o advento dos sistemas de comunicação eletrônica e seus complexos problemas potenciais, profissionais acústicos e engenheiros reconheceram que diferentes abordagens do teste de máquina eram necessárias. Começando já nos anos 40 com a pesquisa da telefonia nos laboratórios Bell, diversos testes baseados em instrumentos evoluíram , cada qual baseia-se em medições do sinal-ruído em uma forma ou em outra. Elas são:

  • AI - Índice de Articulação

  • STI - Índice de transmissão da voz

  • RASTI (outra medida que é familiar a alguns engenheiros de sistemas de som)

  • SII - Índice de inteligibilidade da fala

AI é agora interessante principalmente por ter demonstrado a importância relativa de diferentes bandas de frequência no espectro da fala; porque efetivamente não conta para reverberação, ele tem sido largamente substituído pelos métodos mais recentes. Destes, somente o RASTI está disponível em um instrumento simples e de preço razoável.

 

SII (que é proposta como norma ANSI S3.5-1997) é a mais robusta das medidas de inteligibilidade de máquina, mas requer equipamentos sofisticados e os cálculos que ele envolve são bastante complexos. Dado o prodigioso poder de computação que agora está disponível a um custo razoável, no entanto, um instrumento SII prático e acessível pode em breve se tornar uma realidade.

 

Limitações das medições de máquina

Independentemente da sua relativa conveniência, todas as medidas de inteligibilidade baseadas em máquina têm limitações inerentes.

Cada método de teste da máquina exige que o operador tenha experiência significativa e habilidade analítica se os resultados forem precisos e úteis. Pode ser muito difícil identificar escores imprecisos ou enganosos e determinar suas causas. Mais significativamente, os ajustes no sistema que melhoram a inteligibilidade podem não afetar positivamente o escore medido - e ajustes que melhoram as medidas podem não aumentar a inteligibilidade.

 

Além desses fatores, cada método de teste tem suas próprias limitações particulares que devem ser pesadas tanto na realização dos testes quanto na interpretação dos resultados.

 

% Alcons

Porcentagem de perda por articulação de consoantes. Esta medição de inteligibilidade está intimamente associada com o analisador de som TEF. Ele é calculado a partir de medições do Índice de som direto para o reverberante e o tempo de decaimento primário usando um conjunto de correlações definidos pela SynAudCon, e é especificado em porcentagem.

 

% ALcons expressa a perda de definição das consoante, valores mais baixos estão associados com maior inteligibilidade. Supõe-se geralmente que o valor máximo permitido para aplicações típicas de paginação é de 10%, assumindo que o ambiente é relativamente livre para mascarar o ruído. Para ambientes de aprendizagem e sistemas de aviso de voz, o valor desejado é 5% ou menos.

 

O método de % Alcons é amplamente utilizado por consultores acústicos (particularmente nos Estados Unidos), mas tem inconvenientes significativos. Primeiro, é baseado em medições em uma única banda de um terço de oitava centrada em 2 kHz; todas as outras frequências são ignoradas, de modo que a resposta de freqüência do sistema deve ser verificada de alguma outra maneira para que a pontuação de % Alcons seja significativa.

 

Além disso, o método não tem em conta muitos fatores que podem afetar dramaticamente a inteligibilidade, incluindo a relação sinal-ruído, o espectro de ruído de fundo, distorção, reflexões tardias ou ecos, resposta em frequência do sistema, compressão, fase não linear, equalização e poder acústico .As medições de %Alcons de sistemas de som, portanto, muitas vezes rendem resultados excessivamente otimistas. Onde a reverberação ou reflexões fortes, de chegada tardia são o principal problema, no entanto, às vezes podem ser mais úteis e precisas do que o RASTI.

 

Proporção Direta-Reverberante

 

A relação entre as intensidades de som direto e reverberação . Existem várias medidas para esta quantidade. C50, um dos mais populares, expressa a clareza da fala como a razão de energia dos primeiros 50 milissegundos de som direto para a reverberação global em estado estacionário, sendo 0 dB o valor mínimo aceitável e +4 dB ou acima preferido. Uma medida similar, C7, é usada na Alemanha; C35 é mais uma versão. As medições são feitas numa única banda de frequência (normalmente centrada em 1 kHz). Cada uma destas medidas pode ser mais confiável e repetível do que % ALcons , que também lida com a relação de som direto para reverberante.

 

Taxa de sons úteis / prejudiciais

A relação logarítmica entre a energia dos sons que são úteis para a inteligibilidade e aqueles que são prejudiciais para ela, expressa em decibéis.

Sons "úteis" são a energia integrada dos sons da fala que chega nos primeiros 50 ou 80 milissegundos após o som direto , e os sons "prejudiciais" E os sons "prejudiciais" são a soma da energia da fala e do ruído ambiente. Na prática, ambas as quantidades podem ser encontradas integrando porções apropriadas da resposta de impulso da sala.

 

Proporção de energia sonora primária a tardia

Proposto em 1996 por G. Marshall, ELR é semelhante ao C50 , mas é ponderado para o discurso e incorpora medições em mais de uma banda de frequência. Tal como acontece com outros métodos de som direto para reverberante, no entanto, fatores diferentes de reverberação não são contabilizados.

 

AI

Uma das primeiras tentativas de medir por máquina a inteligibilidade de um sistema de transmissão de voz, o Índice de Articulação foi desenvolvido pela Bell Telephone Laboratories em 1940.

 

A AI baseia-se na idéia de que a resposta de um sistema de comunicação de fala pode ser dividida em vinte bandas de freqüência, cada uma das quais carrega uma contribuição independente para a inteligibilidade do sistema, e que a contribuição total de todas as bandas é a soma das Contribuições das bandas individuais. (AI também podem ser medida usando uma oitava ou um terço de oitava) A taxa sinal/ruído é calculada para cada faixa individual, são ponderadas e combinadas para produzir uma pontuação de inteligibilidade.

 

O Al varia em valor de 0 (completamente ininteligível) a 1 (inteligibilidade perfeita). Um AI de 0,3 ou inferior é considerado insatisfatório, 0,3 a 0,5 satisfatório, 0,5 a 0,7 bom e superior a 0,7 muito bom a excelente.

 

ITS

 

Desenvolvido no início dos anos 70, o Índice de Transmissão do Discurso (STI) é uma medida mecânica de inteligibilidade cujo valor varia de 0 (completamente ininteligível) a 1 (inteligibilidade perfeita).

 

No teste de STI, a fala é modelada por um sinal de teste especial com características da fala. Seguindo o conceito de que a fala pode ser descrita como uma forma de onda fundamental que é modulada por sinais de baixa freqüência, a STI emprega um complexo esquema de modulação de amplitude para gerar seu sinal de teste. Na extremidade da recepção do sistema de comunicação a profundidade de modulação do sinal recebido é comparada com a do sinal de teste em cada banda de frequência. Reduções na profundidade da modulação estão associadas à perda de inteligibilidade.

 

RASTI

 

Rapid Speech Transmission Index, um método de máquina para testar a inteligibilidade em sistemas de som que está associado com Brüel e Kjaer, a empresa de instrumentação que fabrica um dispositivo portátil para implementá-lo.

 

RASTI foi desenvolvido como uma alternativa mais simples ao mais complexo STI (Índice de Transmissão da fala). Em contraste com STI, RASTI mede apenas em duas bandas de oitava centradas em 500 Hz e 2 kHz, respectivamente. Ele usa um sinal de excitação da fala e, como o STI, correlaciona reduções na profundidade da modulação com a perda de inteligibilidade.

 

O RASTI foi implementado em um instrumento simples e portátil que pode fazer medições de inteligibilidade muito rápida, tanto acusticamente como com um sistema de som instalado. Por esta razão, foi adaptada para uma série de normas europeias e especificações do sistema civil. Sendo uma versão radicalmente simplificada de STI, entretanto, sofre compromissos que forçaram a reavaliação desses padrões.

 

Por exemplo, testes RASTI em apenas duas faixas de freqüência, com a suposição de que a resposta do sistema de som realmente se estende de uma forma razoavelmente plana de 100 Hz ou inferior a 8 kHz ou superior. Embora isso possa muito bem ser o caso em um sistema de auditório adequadamente projetado, muitos tipos de sistemas de paginação ficam aquém desse desempenho. Nestes casos, RASTI quase invariavelmente dá uma imagem excessivamente otimista. (De fato, um sistema de som que reproduzisse apenas as duas faixas de freqüência em questão poderia receber uma classificação perfeita.)

 

Além disso, uma vez que afeta a profundidade de modulação, qualquer compressão ou limitação no sistema pode causar um valor RASTI artificialmente baixo - apesar de, na realidade, poder atuar para aumentar a inteligibilidade. O RASTI também não leva em consideração a distorção do sistema ou amplitude e fase não-lineares.

 

SII

Derivado de e em essência idêntico ao STI , SII é o método de medição de inteligibilidade da fala que está proposto no projeto do formulário padrão ANSI S3.5-1997.

 

No Standard, quatro procedimentos de medição são permitidos, cada um usando um número e tamanho diferentes de bandas de freqüência. Em ordem decrescente de precisão, eles são:

  • Faixa crítica (21 bandas)

  • Um terço de banda de oitava (18 bandas)

  • Faixa crítica de contribuição igual (17 bandas)

  • Banda de oitavas (6 bandas)

O valor de SII varia de 0 (completamente ininteligível) a 1 (inteligibilidade perfeita).

 

O SII é um método de teste altamente capaz que, nas condições corretas, apresenta boa correlação com os testes estatísticos. Possui tanto largura de banda larga (150 Hz a 8,5 kHz) e, especialmente no procedimento de banda crítica tem resolução muito maior do que qualquer outro método. SII inclui adequadamente reverberação, ruído e distorção, todos os quais são contabilizados na função de transferência da modulação. Operadores de teste experientes podem ir além de gerar uma única pontuação de inteligibilidade para diagnosticar a fonte da perda de inteligibilidade.

 

Sob certas condições, no entanto, SII pode produzir resultados enganosos. Em particular, as reflexões de tardias e os ecos podem distorcer a medida significativamente. Tal como o RASTI, o SII é susceptível de dar escores de inteligibilidade artificialmente baixos se a compressão ou limitação for introduzida no sistema. E porque o procedimento de banda crítica ignora frequências abaixo de 100 Hz, pode muito bem perder fontes significativas de mascaramento de baixa freqüência.

 

Finalmente, o SII não leva em consideração a fase não linear. No entanto, quando usado corretamente por um operador qualificado, ele permanece o mais confiável e preciso dos métodos de máquina.

 

 

Seção V 

 

Direções Futuras 

 

Apesar de suas limitações inerentes, todos os métodos de teste de máquina que nós discutimos podem mostrar um bom acordo se o sistema em teste é razoavelmente bem comportado. Mas o teste de inteligibilidade é mais consequente (e potencialmente mais útil) quando o sistema tem problemas suficientemente graves para prejudicar a transmissão da fala. Tais problemas podem surgir de uma variedade de fontes e condições, muitas das quais podem "enganar" qualquer um dos métodos de teste da máquina.

 

Os sistemas de som contemporâneos são sofisticados e complexos tendo componentes diversos e interagentes. 

 

Como este simplificado diagrama ilustra

 

, invariavelmente incluem elementos de processamento de sinal, cujos efeitos sobre a inteligibilidade, e sobre os instrumentos destinados a medir, pode ser difícil de prever. Embora as consequências do processamento analógico relativamente simples (como equalização e limitação) geralmente sejam benignas, o mesmo pode não ser verdade para as novas e poderosas tecnologias de processamento de sinal digital.

 

Por exemplo, muita atenção agora está focada no uso de DSPs para "desenvolver" a resposta de um espaço e suprimir ecos e subtrair ou adicionar reverberação. Como os algoritmos envolvidos afetam a ordem do tempo do sinal, podem ocorrer grandes consequências se esses dispositivos estiverem desajustados. Além disso, se os altofalantes são reposicionados, ou a acústica do espaço muda (quando uma cortina é fechada, por exemplo), então a desconvolução particular provavelmente não será mais válida e pode, de fato, causar efeitos muito destrutivos.

 

Nenhuma das medidas atuais de máquina para a inteligibilidade explica distorções do tempo. De fato, poderíamos conceber um sistema hipotético que inverta o aspecto temporal de um sinal, como reproduzir uma fita para trás: mas nenhum método de máquina mostraria qualquer diminuição na pontuação de inteligibilidade para tal sistema, embora obviamente tornaria a fala ininteligível.

 

O que é necessário é um analisador suficientemente "inteligente" para detectar todos os fatores que afetam a inteligibilidade, e fazer um julgamento conclusivo, sem depender fortemente da interpretação do operador. Mas a verdade inevitável é que, por mais sofisticados que sejam os sistemas de medição baseados em máquinas, eles ainda não podem abordar a complexidade do mecanismo do ouvido / cérebro humano, informado por uma vida de experiência de decodificação da fala. Podemos apenas modelar os aspectos desse mecanismo requintadamente refinado que chegamos a entender. As muitas questões restantes sobre como ele funciona e quais fatores podem afetá-lo só pode ser respondida por uma pesquisa mais aprofundada.

 

TEXTO TRADUZIDO NA INTEGRA POR DOUGLAS BARBA

FONTE: MEYER SOUND

Tags: ajuste de fase , subwoofer , alinhamento

Please reload

 Siga o #DICASDOBARBA 
  • YouTube - Black Circle
  • Facebook B&W
 POSTS recentes: 

03.09.2019

Please reload

 procurar por TAGS: 
Please reload