Compreensão de fala: dependência simultânea de pistas

fala

Escrito por Sigla Educacional

28 de outubro de 2024

Compreensão de fala: dependência simultânea de pistas

A pesquisa auditiva moderna identificou a capacidade dos ouvintes de segregar fluxos de fala simultâneos com uma dependência de três principais pistas, a saber: são a estrutura harmônica da fala, a localização do falante em relação à posição da nossa cabeça e o nível relativo dos diferentes fluxos de fala, seja, parâmetros de voz, frequência fundamental, nível e localização.

Vale aqui lembrar que a estrutura harmônica na fala é formada pela frequência dos pulsos glóticos, que gera a sensação de tom, com frequência fundamental (F0). Homens geralmente têm F0 mais baixos devido às pregas vocais mais longas e pesadas. Assim, homens e mulheres são diferenciados pelo tom da voz. Além disso, a fala chega aos nossos ouvidos de forma distinta, dependendo da posição do falante, e essas diferenças de tempo e nível ajudam a identificar a direção do som e separar diferentes falantes. O nível de volume também é crucial para destacar uma voz em meio a outras, sendo usado em estudos sobre como uma fala mascara a outra.

Entretanto, até o momento, poucos desses estudos avaliaram a dependência dessas pistas apresentadas simultaneamente como ocorre na natureza, e menos ainda consideraram a dependência relativa dos ouvintes nessas pistas devido às diferentes unidades de medida das pistas. O conhecimento sobre a importância das dicas auditivas vem de estudos que analisam o impacto dessas dicas no desempenho dos ouvintes em ambientes com vários falantes.

A confiança do ouvinte em uma dica é observada quando seu desempenho cai em situações onde a dica é alterada ou removida. No entanto, os resultados variam entre indivíduos, com alguns mostrando desempenho excelente e outros, dificuldades, mesmo em condições similares. Isso levanta a hipótese de que diferenças na atenção a dicas específicas podem afetar o desempenho e explicar por que algumas pessoas, mesmo com audição normal, têm dificuldade para entender a fala em ambientes ruidosos.

Lutfi, Zandona e Lee publicaram no The Journal do the Acoustical Society of America, em 23 de outubro de 2023, um artigo sobre um trabalho, que ainda está em andamento, no qual avaliam a influência de dicas auditivas específicas no desempenho dos ouvintes, mas há desafios importantes.

Em contextos com várias dicas simultâneas, remover ou alterar uma dica pode não afetar o desempenho, pois o ouvinte pode simplesmente usar outra dica disponível. A psicofísica molecular surgiu como resposta a essa limitação, analisando a influência das dicas com base na resposta do ouvinte em cada tentativa, ao invés de uma média geral de isolamento. Esse método permite entender como os ouvintes ponderam diferentes características do estímulo para tomar decisões..

Os autores realizaram a análise das tentativas que foram usadas para isolar a dependência simultânea do ouvinte nas três pistas de voz, com o comportamento de um observador ideal, servindo como um padrão de comparação para avaliar a dependência relativa. Os participantes ouviram, em cada tentativa, um par de gravações simultâneas selecionadas, aleatoriamente, de frases faladas naturalmente. Uma das gravações era sempre do mesmo falante, um distrator e a outra, com igual probabilidade, era de um dos dois falantes alvos que diferiam nas três pistas de voz. A tarefa do ouvinte era identificar o falante alvo. Entre 33 adultos clinicamente normais, apenas um confiou predominantemente no nível da voz, os restantes foram divididos entre frequência fundamental da voz e/ou localização.

Somado ao exposto, há o desafio de avaliar a confiança do ouvinte em dicas de diferentes unidades físicas das dicas (Hz, dB, angular) que não são diretamente comparáveis. Sem uma padronização, os ouvintes podem favorecer uma dica sobre outra, influenciada pelos valores escolhidos. Para resolver isso, a teoria de detecção de sinais (SDT) permite comparar os efeitos das dicas ao expressar o desempenho do ouvinte em relação a um “observador ideal” que toma decisões baseadas na razão de probabilidade de sinal-ruído. Assim, é possível distinguir a verdadeira preferência de um ouvinte sem depender de valores arbitrários de estímulo.

Em estudo publicado no The Journal of the Acoustical Society of America, os autores descreveram os resultados de um estudo que combinou análises moleculares com elementos de SDT para avaliar a confiança relativa simultânea que os ouvintes depositaram em pistas de frequência fundamental, localização e nível de voz para uma tarefa de mascaramento de fala sobre fala. Os objetivos eram: documentar a confiança relativa simultânea nessas pistas para um grupo de adultos com audição clinicamente normal, identificar quaisquer diferenças individuais entre os ouvintes na confiança relativa depositada nessas pistas e determinar o impacto dessas diferenças, se houver, na precisão geral do desempenho.

As análises deste estudo mostraram que, ao apresentar várias pistas de estímulo com sensibilidade igual para um observador ideal, os ouvintes confiaram principalmente em F0 e localização para separar falantes, ignorando o nível relativo de fala, mesmo quando mudar para essa pista poderia ser vantajoso. Embora diferenças significativas entre ouvintes tenham sido observadas na confiança em cada pista, elas não explicaram totalmente as grandes variações individuais no desempenho.

Além disso, o estudo descobriu que os ouvintes confiam em F0 e localização para separar falantes, apesar de terem sensibilidade semelhante às mudanças em todas as faixas (F0, localização e nível). Uma explicação pode ser a “saliência”, ou seja, que as pistas mais perceptíveis (como a localização) recebem mais peso. Porém, a avaliação da saliência varia com as métricas usadas,

Outros fatores incluem possíveis interferências de mascaramento energético, embora ele provavelmente não tenha influenciado o resultado, pois as frases eram diferentes e especialmente separadas. Modulações de nível e F0 dentro da frase podem ter desencorajado o uso da dica de nível. Além disso, a associação entre F0 e gênero pode ter favorecido a preferência por F0. Por fim, em ambientes naturais, F0 e localização geralmente são mais eficazes e confiáveis ​​para identificar os falantes do nível, que está mais sujeito a variações no ambiente, embora essa hipótese seja complexa de testar.

O estudo não apresenta razões claras para que os ouvintes ignorem o nível da fala como uma dica, mas isso sugere uma implicação metodológica importante. Geralmente, o nível da fala é usado como medida da confiança em dicas, baseado em pesquisas anteriores que definem o mascaramento de ruído em relação ao nível do sinal necessário para detecção. Quando a interferência na fala é considerada, essa mesma medida é adotada. Contudo, essa abordagem muda ao medir a confiança na dica, já que o nível da fala do alvo também atua como uma dica, competindo pela atenção dos ouvintes.

Portanto, ao ser utilizado como uma medida de confiança, ele ganha um status especial que pode influenciar os resultados. A questão é se o resultado mudaria se essa posição fosse atribuída a outra dica. Curiosamente, quando todas as dicas são tratadas igualmente, a que mais se utiliza para medir a confiança dos ouvintes é a que eles menos consideram confiável. Isso levanta dúvidas sobre a precisão de inferir a confiança a partir de métricas de desempenho.

Por fim, é importante destacar que as escolhas feitas neste estudo visaram simular uma situação de audição natural sem comprometer os objetivos da pesquisa. Utilizaram-se gravações de frases gramaticais faladas de maneira natural, filtradas por HRTFs, para criar uma imagem sonora realista através de fones de ouvido. As dicas foram apresentadas simultaneamente aos ouvintes, sendo perturbadas para refletir a variação natural na fala. Optou-se por uma tarefa de identificação do falante em vez de apenas identificação da fala, para evitar que a proficiência em inglês influenciasse os resultados.

No entanto, para permitir conclusões significativas sobre a dependência dos ouvintes nas dicas, as informações fornecidas foram fixadas em cada bloco de teste, e os ouvintes foram informados sobre qual dica ou combinação de dicas seria correta antes de cada bloco. Na escuta real, as informações das dicas são muito mais dinâmicas, com diversas pistas (como timbre e taxa de fala), e os ouvintes não têm conhecimento prévio do que devem prestar atenção. Os resultados podem, portanto, variar em condições.

Você pode gostar também

Os autistas e a percepção de tempo

Os autistas e a percepção de tempo

Os autistas e a percepção de tempo Os cientistas Daniel Poole, Luke Jones, Emma Gowen e Ellen Poliakoff, realizaram uma pesquisa com o objetivo de avaliar a percepção de tempo de pessoas autistas. Muitas pessoas autistas relatam dificuldades relacionadas ao tempo,...

ler mais
Crianças e dificuldades auditivas

Crianças e dificuldades auditivas

Crianças e dificuldades auditivas: respostas cerebrais ao tom de voz podem oferecer respostas Crianças frequentemente precisam se comunicar em ambientes com ruídos e ecos que distraem. Esses ambientes representam um grande desafio, especialmente para aquelas com perda...

ler mais
O envelhecimento e o córtex pré-frontal

O envelhecimento e o córtex pré-frontal

O córtex pré-frontal e seu risco durante o envelhecimento Durante a evolução “ganhamos” o córtex pré-frontal, mas ele está em maior risco durante o envelhecimento. O grande córtex pré-frontal, que nos proporciona vantagens evolutivas e cognitivas em relação aos...

ler mais
O ruído, o silêncio e a aprendizagem

O ruído, o silêncio e a aprendizagem

O ruído, o silêncio e a aprendizagem O ruído está em todos os lugares, restaurantes, ginásios de esporte, sejam abertos ou fechados, shows, auditórios e tantos outros que você possa imaginar. Infelizmente, o ruído também está presente nas salas de aula. Entretanto,...

ler mais
Ruído branco indutor de sono para recém-nascidos?

Ruído branco indutor de sono para recém-nascidos?

Ruído branco indutor de sono para recém-nascidos: mocinhos os vilões? Sempre achei fantástico pensar que a audição não pode ser desligada, não funciona como a visão que, caso não queríamos ver determinada cena, simplesmente fechamos os olhos e eliminamos a indesejada...

ler mais
Nipah vírus, a volta daquele que nunca se foi

Nipah vírus, a volta daquele que nunca se foi

Nipah vírus, a volta daquele que nunca se foi Antes de entendermos a nova presença do vírus, vamos entender o que é o Nipah Vírus. O Nipah Vírus é transportado por morcegos frugívoros, conhecidos como raposas voadoras. A descoberta desse vírus ocorreu em 1999 após um...

ler mais
Gripe aviária: nova pandemia humana?

Gripe aviária: nova pandemia humana?

Você sabia que a gripe aviária pode se tornar uma nova pandemia humana? Será que estamos preparados? Artigo recente da Revista Nature reforça a necessidade de toda comunidade estar atenta a esse novo risco. Com o aumento dos casos de gripe aviária em gado nos Estados...

ler mais
Escolhas alimentares e restaurantes barulhentos

Escolhas alimentares e restaurantes barulhentos

Está achando um absurdo essa informação? Está achando que deve ser impossível isso ser possível? Mas não é, nas últimas décadas pesquisadores tem se dedicado ao assunto e estudado qual é o impacto do som nas suas escolhas alimentares, que variam do tipo de música,...

ler mais

0 comentários

Enviar um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *