Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: http://www.bdtd.uerj.br/handle/1/11760
Tipo do documento: Dissertação
Título: Reconhecimento de emoções em sinais de fala usando transferência de aprendizado
Título(s) alternativo(s): Speech emotion recognition using transfer learning
Autor: Gomes Junior, Sergio Pinto 
Primeiro orientador: Tcheou, Michel Pompeu
Primeiro coorientador: ávila, Flávio Rainho
Primeiro membro da banca: Lima, Amaro Azevedo de
Segundo membro da banca: Leite, Karla Tereza Figueiredo
Terceiro membro da banca: Souza Filho, Joao Baptista de Oliveira e
Resumo: A fala tem se tornado um meio de interação entre o ser humano e os computadores cada vez mais importante. Visando tornar essa interação ainda mais natural, pesquisadores têm proposto diferentes sistemas de reconhecimento de emoções na fala. Na área de reconhecimento de emoções em sinais de fala, as redes neurais profundas vêm sendo foco de intensa investigação. Visto isso, neste trabalho foi avaliado o efeito da técnica de transferência de aprendizado e do aumento da base de dados na acurácia de uma rede neural convolucional residual para a predição de emoções, comparando-a com outras técnicas de classificação tais como: a ResNet sem pré-treino, o Modelo de Mistura de Gaussianas e a Rede Neural Probabilística. Para isto, foram utilizadas as amostras das classes Felicidade, Neutra, Raiva e Tristeza contidas nas bases de dados IEMOCAP e EmoDb visando o treino e teste dos sistemas propostos. Nos experimentos com o GMM foi alcançada uma taxa de reconhecimento de 85,77% para a base de dados EmoDb e 66,83% para a IEMOCAP. Já a rede probabilística desenvolvida nesse trabalho conseguiu classificar corretamente 79,64% das amostras de teste da base de dados EmoDb. Nos experimentos com a ResNet, foram gerados os espectrogramas dos sinais de voz para serem utilizados no lugar de imagens. Nesses experimentos foi observado que as técnicas de aumento da base e de transferência de aprendizado contribuem significativamente para um melhor reconhecimento das emoções. Nesse caso, a rede convolucional classificou corretamente 81,26% das amostras.
Abstract: Speech has become an increasingly important mean of interaction between humans and computers. Aiming at making this interaction even more natural, researchers have proposed different systems of speech emotion recognition. In this area, in recent years, deep neural networks have been the focus of research. Given this, in this work we investigated the effect of techniques of transfer learning and data augmentation on the accuracy obtained by a residual convolutional neural network, comparing it to other classification strategies like ResNet without pre-training, the Gaussian Mixture Model and the Probabilistic Neural Network. In addition, samples of the Happiness, Neutral, Anger and Sadness classes contained in two emotion datasets (IEMOCAP and EmoDb) were used for training and testing of the proposed systems. In the experiments with the GMM, a accuracy of 85.77 % was achieved for the EmoDb dataset, and 66.83 % for the IEMOCAP. On the other hand, the probabilistic network developed in this work was able to correctly classify 79.64 % of the test samples from the EmoDb dataset. In the experiments with ResNet, the spectrograms of the speech signals were generated to be used instead of images. In these experiments it was observed that the techniques of data augmentation and transfer learning greatly contribute to the result of the emotion recognition. Using those techniques, the convolutional network correctly classified 81.26 % of the test samples.
Palavras-chave: Electronic Engineering
Man-machine interaction
Neural networks (Computation)
Speech processing systems
Emotions
Computer learning
Emotion Recognition
Speech
Convolutional Neural Networks
Transfer Learning
Engenharia eletrônica
Interação homem-máquina
Redes neurais (Computação)
Sistemas de processamento da fala
Emoções
Aprendizado do computador
Reconhecimento de emoções
Fala
Redes Neurais Convolucionais
Transferência de Aprendizado
Área(s) do CNPq: CNPQ::ENGENHARIAS
Idioma: por
País: BR
Instituição: Universidade do Estado do Rio de Janeiro
Sigla da instituição: UERJ
Departamento: Centro de Tecnologia e Ciências::Faculdade de Engenharia
Programa: Programa de Pós-Graduação em Engenharia Eletrônica
Citação: GOMES JUNIOR, Sergio Pinto. Reconhecimento de emoções em sinais de fala usando transferência de aprendizado. 2019. 101 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2019.
Tipo de acesso: Acesso Aberto
URI: http://www.bdtd.uerj.br/handle/1/11760
Data de defesa: 28-Fev-2019
Aparece nas coleções:Mestrado em Engenharia Eletrônica

Arquivos associados a este item:
Arquivo TamanhoFormato 
Sergio Pinto Gomes Junior_BDTD.pdf1,34 MBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.