Repository logo
 
Loading...
Thumbnail Image
Publication

Rastreio de vozes patológicas através de técnicas de processamento de fala

Use this identifier to reference this record.
Name:Description:Size:Format: 
BrunoRodrigues_MEET.pdf4.63 MBAdobe PDF Download

Abstract(s)

Em 2012, um inquérito da American Speech-Language-Hearing Association (ASHA) revelou que um em cada treze norte-americanos sofre anualmente de distúrbios vocais. Extrapolando essa proporção para a população mundial, estima-se que mais de 600 milhões de pessoas possam ser afetadas anualmente. Estes distúrbios impactam negativamente a vida social e profissional, sendo habitualmente diagnosticados através de métodos invasivos e desconfortáveis. Este trabalho propõe métodos não invasivos, baseados em processamento de sinais de fala, para discriminar entre oradores saudáveis e patológicos, e entre patologias. Utilizaram-se duas bases de dados contendo sinais de fala com a vogal /a/ sustentada, categorizados em quatro classes, sendo uma relativa a oradores saudáveis e as outras a oradores patológicos. Os sinais de fala foram segmentados em tramas e os seus espectros foram decompostos em 20 bandas de energia. As médias e variações de cada banda ao longo do sinal foram usadas para discriminar entre classes, obtendo-se taxas de acerto médias entre 57,2%, numa das discriminações multiclasse, e 100%, na discriminação entre oradores saudáveis e com condições neurodegenerativas. Observou-se que as bandas correspondentes às primeiras harmónicas têm mais informação para as discriminações, seguidas das bandas relacionadas com o primeiro formante da vogal /a/. Posteriormente, usaram-se parâmetros espectrais derivados das bandas mais relevantes, isoladamente e em conjunto com os parâmetros acústicos shimmer e HNR, para discriminar entre classes. A combinação dos parâmetros produziu melhorias estatisticamente significativas nas taxas de acerto médias em 7 das 16 discriminações consideradas. O ganho mais expressivo foi de 10,8%, numa das discriminações multiclasse, e a taxa de acerto média mais elevada foi de 96,8%, numa das discriminações entre oradores saudáveis e com patologias laríngeas fisiológicas. Globalmente, os resultados indicam que a combinação de parâmetros espectrais e acústicos é vantajosa para as discriminações analisadas.
Abstract In 2012, a survey by the American Speech-Language-Hearing Association (ASHA) revealed that one in thirteen Americans suffers from voice disorders annually. Extrapolating this proportion to the global population, it is estimated that more than 600 million people may be affected annually. These disorders negatively impact social and professional life and are usually diagnosed through invasive and uncomfortable methods. This study proposes non-invasive methods, based on speech signal processing, to distinguish between healthy and pathological speakers, as well as between different pathologies. Two datasets containing speech signals of the sustained vowel /a/ were used, categorized into four classes: one corresponding to healthy speakers and the others to pathological speakers. The speech signals were segmented into frames and the frame spectra were decomposed into 20 energy bands. The average and variation values of each band across the signals were used to classify the samples, achieving average accuracy rates ranging from 57.2%, in one of the multiclass discriminations, to 100%, in the discrimination between healthy speakers and those with neurodegenerative conditions. Bands corresponding to the first harmonics were found to be the most informative for classification, followed by bands associated with the first formant of the vowel /a/. Subsequently, spectral parameters derived from the most relevant bands were used both independently and combined with acoustic parameters shimmer and HNR to classify the samples. The combination of parameters led to statistically significant improvements in average accuracy rates in 7 out of the 16 classifications considered. The most notable gain was 10.8% in one of the multiclass discriminations, and the highest average accuracy rate was 96.8% in the discrimination between healthy speakers and those with physiological laryngeal pathologies. Overall, the results indicate that combining spectral and acoustic parameters is advantageous for the analyzed classifications.

Description

Dissertação para obtenção do grau de Mestre em Engenharia de Eletrónica e Telecomunicações, Perfil de Telecomunicações

Keywords

Patologias de voz Parâmetros espectrais Parâmetros acústicos Discriminação Sinais de fala Voice pathologies Spectral features Acoustic parameters Discrimination Speech signals

Citation

RODRIGUES, Bruno Sérgio Antunes – Rastreio de vozes patológicas através de técnicas de processamento de fala. Lisboa: Instituto Superior de Engenharia de Lisboa. 2024. Dissertação de Mestrado.

Research Projects

Organizational Units

Journal Issue