Compreensão de fala: dependência simultânea de pistas
A pesquisa auditiva moderna identificou a capacidade dos ouvintes de segregar fluxos de fala simultâneos com uma dependência de três principais pistas, a saber: são a estrutura harmônica da fala, a localização do falante em relação à posição da nossa cabeça e o nível relativo dos diferentes fluxos de fala, seja, parâmetros de voz, frequência fundamental, nível e localização.
Vale aqui lembrar que a estrutura harmônica na fala é formada pela frequência dos pulsos glóticos, que gera a sensação de tom, com frequência fundamental (F0). Homens geralmente têm F0 mais baixos devido às pregas vocais mais longas e pesadas. Assim, homens e mulheres são diferenciados pelo tom da voz. Além disso, a fala chega aos nossos ouvidos de forma distinta, dependendo da posição do falante, e essas diferenças de tempo e nível ajudam a identificar a direção do som e separar diferentes falantes. O nível de volume também é crucial para destacar uma voz em meio a outras, sendo usado em estudos sobre como uma fala mascara a outra.
Entretanto, até o momento, poucos desses estudos avaliaram a dependência dessas pistas apresentadas simultaneamente como ocorre na natureza, e menos ainda consideraram a dependência relativa dos ouvintes nessas pistas devido às diferentes unidades de medida das pistas. O conhecimento sobre a importância das dicas auditivas vem de estudos que analisam o impacto dessas dicas no desempenho dos ouvintes em ambientes com vários falantes.
A confiança do ouvinte em uma dica é observada quando seu desempenho cai em situações onde a dica é alterada ou removida. No entanto, os resultados variam entre indivíduos, com alguns mostrando desempenho excelente e outros, dificuldades, mesmo em condições similares. Isso levanta a hipótese de que diferenças na atenção a dicas específicas podem afetar o desempenho e explicar por que algumas pessoas, mesmo com audição normal, têm dificuldade para entender a fala em ambientes ruidosos.
Lutfi, Zandona e Lee publicaram no The Journal do the Acoustical Society of America, em 23 de outubro de 2023, um artigo sobre um trabalho, que ainda está em andamento, no qual avaliam a influência de dicas auditivas específicas no desempenho dos ouvintes, mas há desafios importantes.
Em contextos com várias dicas simultâneas, remover ou alterar uma dica pode não afetar o desempenho, pois o ouvinte pode simplesmente usar outra dica disponível. A psicofísica molecular surgiu como resposta a essa limitação, analisando a influência das dicas com base na resposta do ouvinte em cada tentativa, ao invés de uma média geral de isolamento. Esse método permite entender como os ouvintes ponderam diferentes características do estímulo para tomar decisões..
Os autores realizaram a análise das tentativas que foram usadas para isolar a dependência simultânea do ouvinte nas três pistas de voz, com o comportamento de um observador ideal, servindo como um padrão de comparação para avaliar a dependência relativa. Os participantes ouviram, em cada tentativa, um par de gravações simultâneas selecionadas, aleatoriamente, de frases faladas naturalmente. Uma das gravações era sempre do mesmo falante, um distrator e a outra, com igual probabilidade, era de um dos dois falantes alvos que diferiam nas três pistas de voz. A tarefa do ouvinte era identificar o falante alvo. Entre 33 adultos clinicamente normais, apenas um confiou predominantemente no nível da voz, os restantes foram divididos entre frequência fundamental da voz e/ou localização.
Somado ao exposto, há o desafio de avaliar a confiança do ouvinte em dicas de diferentes unidades físicas das dicas (Hz, dB, angular) que não são diretamente comparáveis. Sem uma padronização, os ouvintes podem favorecer uma dica sobre outra, influenciada pelos valores escolhidos. Para resolver isso, a teoria de detecção de sinais (SDT) permite comparar os efeitos das dicas ao expressar o desempenho do ouvinte em relação a um “observador ideal” que toma decisões baseadas na razão de probabilidade de sinal-ruído. Assim, é possível distinguir a verdadeira preferência de um ouvinte sem depender de valores arbitrários de estímulo.
Em estudo publicado no The Journal of the Acoustical Society of America, os autores descreveram os resultados de um estudo que combinou análises moleculares com elementos de SDT para avaliar a confiança relativa simultânea que os ouvintes depositaram em pistas de frequência fundamental, localização e nível de voz para uma tarefa de mascaramento de fala sobre fala. Os objetivos eram: documentar a confiança relativa simultânea nessas pistas para um grupo de adultos com audição clinicamente normal, identificar quaisquer diferenças individuais entre os ouvintes na confiança relativa depositada nessas pistas e determinar o impacto dessas diferenças, se houver, na precisão geral do desempenho.
As análises deste estudo mostraram que, ao apresentar várias pistas de estímulo com sensibilidade igual para um observador ideal, os ouvintes confiaram principalmente em F0 e localização para separar falantes, ignorando o nível relativo de fala, mesmo quando mudar para essa pista poderia ser vantajoso. Embora diferenças significativas entre ouvintes tenham sido observadas na confiança em cada pista, elas não explicaram totalmente as grandes variações individuais no desempenho.
Além disso, o estudo descobriu que os ouvintes confiam em F0 e localização para separar falantes, apesar de terem sensibilidade semelhante às mudanças em todas as faixas (F0, localização e nível). Uma explicação pode ser a “saliência”, ou seja, que as pistas mais perceptíveis (como a localização) recebem mais peso. Porém, a avaliação da saliência varia com as métricas usadas,
Outros fatores incluem possíveis interferências de mascaramento energético, embora ele provavelmente não tenha influenciado o resultado, pois as frases eram diferentes e especialmente separadas. Modulações de nível e F0 dentro da frase podem ter desencorajado o uso da dica de nível. Além disso, a associação entre F0 e gênero pode ter favorecido a preferência por F0. Por fim, em ambientes naturais, F0 e localização geralmente são mais eficazes e confiáveis para identificar os falantes do nível, que está mais sujeito a variações no ambiente, embora essa hipótese seja complexa de testar.
O estudo não apresenta razões claras para que os ouvintes ignorem o nível da fala como uma dica, mas isso sugere uma implicação metodológica importante. Geralmente, o nível da fala é usado como medida da confiança em dicas, baseado em pesquisas anteriores que definem o mascaramento de ruído em relação ao nível do sinal necessário para detecção. Quando a interferência na fala é considerada, essa mesma medida é adotada. Contudo, essa abordagem muda ao medir a confiança na dica, já que o nível da fala do alvo também atua como uma dica, competindo pela atenção dos ouvintes.
Portanto, ao ser utilizado como uma medida de confiança, ele ganha um status especial que pode influenciar os resultados. A questão é se o resultado mudaria se essa posição fosse atribuída a outra dica. Curiosamente, quando todas as dicas são tratadas igualmente, a que mais se utiliza para medir a confiança dos ouvintes é a que eles menos consideram confiável. Isso levanta dúvidas sobre a precisão de inferir a confiança a partir de métricas de desempenho.
Por fim, é importante destacar que as escolhas feitas neste estudo visaram simular uma situação de audição natural sem comprometer os objetivos da pesquisa. Utilizaram-se gravações de frases gramaticais faladas de maneira natural, filtradas por HRTFs, para criar uma imagem sonora realista através de fones de ouvido. As dicas foram apresentadas simultaneamente aos ouvintes, sendo perturbadas para refletir a variação natural na fala. Optou-se por uma tarefa de identificação do falante em vez de apenas identificação da fala, para evitar que a proficiência em inglês influenciasse os resultados.
No entanto, para permitir conclusões significativas sobre a dependência dos ouvintes nas dicas, as informações fornecidas foram fixadas em cada bloco de teste, e os ouvintes foram informados sobre qual dica ou combinação de dicas seria correta antes de cada bloco. Na escuta real, as informações das dicas são muito mais dinâmicas, com diversas pistas (como timbre e taxa de fala), e os ouvintes não têm conhecimento prévio do que devem prestar atenção. Os resultados podem, portanto, variar em condições.
0 comentários