Emotion recognition in multimedia content

Ferreira, Artur JorgeLeite, Nuno Miguel da Costa de SousaCondesso, Sofia Fernandes2026-03-032026-03-032025-12-05http://hdl.handle.net/10400.21/22692Abstract Emotion Recognition (ER) has become crucial in Human-Computer Interaction (HCI), with applications ranging from mental health support to adaptive learning. While many existing approaches rely on controlled environments or hardware-based sensors, this thesis explores non-contact unimodal methods—speech, facial expressions, and textual data—for a more naturalistic and practical analysis of emotions. First, we conduct a systematic evaluation of unimodal ER, comparing classical Machine Learning (ML) and Deep Learning (DL) approaches across multiple unimodal and multimodal datasets. For speech modality (audio), we extract acoustic features using openSMILE (GeMAPS), and learn with models such as Support Vector Machines (SVM) and Random Forests. Results show that feature selection on acoustic features can improve Speech Emotion Recognition (SER). For Facial Emotion Recognition (FER), we experiment with DeepFace and a lightweight Convolutional Neural Networks (CNN). For textual emotion recognition, we employ Word2Vec and GloVe with ML and DL models, and also experiment zero-shot and few-shot learning with large language models. In multimodal experiments, fusion of text and audio modalities improved accuracy to 0.45, confirming the benefit of combining complementary emotional cues. However, adding the visual modality led to a slight degradation in performance, attributed to suboptimal frame sampling. Overall, results highlight the trade-offs between unimodal simplicity and multimodal robustness, demonstrating that lightweight, interpretable models can achieve practical performance for real-world emotion-aware applications.O Reconhecimento de Emoções (RE) tem vindo a ganhar importância na Interação Humano-Computador (IHC), com aplicações em áreas como saúde mental, ensino adaptativo e interfaces inteligentes. Muitos métodos existentes dependem de ambientes controlados ou sensores físicos; esta dissertação explora abordagens não intrusivas e unimodais—baseadas em fala, expressões faciais e texto — para uma análise mais naturalista e acessível das emoções. Numa primeira fase, é realizada uma avaliação sistemática de métodos unimodais de RE, comparando algoritmos de Machine Learning (ML) e Deep Learning (DL) em diversos conjuntos de dados unimodais e multimodais. Para a modalidade de fala (áudio), são extraídas características acústicas com a biblioteca openSMILE (GeMAPS), e o treino executado com modelos tradicionais, como Support Vector Machines (SVM) e Random Forests. Verifica-se que a seleção de características melhora o desempenho em Reconhecimento de Emoções na Fala (REF). Para o Reconhecimento Facial de Emoções (RFE), são explorados modelos como o DeepFace e uma Convolutional Neural Network (CNN) leve. No caso do Reconhecimento de Emoções em Texto (RET), são utilizados Word2Vec, GloVe e abordagens baseadas em zeroshot e few-shot learning com Large Language Models (LLM). Na fusão multimodal, a combinação das modalidades de texto e áudio aumentou a taxa de acerto para 0.45, demonstrando a utilidade de combinar diferentes fontes de informação emocional. A adição da modalidade visual resultou numa ligeira degradação de desempenho, atribuída à estratégia de amostragem de frames. Os resultados revelam o equilíbrio entre a simplicidade dos métodos unimodais e a robustez das abordagens multimodais, mostrando que soluções leves e interpretáveis podem alcançar desempenho competitivo em aplicações reais de reconhecimento emocional.engAcoustic featuresDeep learningEmotion recognitionFacial expressionsHuman-computer interactionLarge language modelsMachine learningMultimodal dataAprendizagem automáticaAprendizagem profundaCaracterísticas acústicasDados multimodaisExpressões faciaisInteração humano-computadorLarge language modelsReconhecimento de emoçõesEmotion recognition in multimedia contentmaster thesis204224012