Compartilhamento |
|
Use este identificador para citar ou linkar para este item:
http://www.bdtd.uerj.br/handle/1/11760
Tipo do documento: | Dissertação |
Título: | Reconhecimento de emoções em sinais de fala usando transferência de aprendizado |
Título(s) alternativo(s): | Speech emotion recognition using transfer learning |
Autor: | Gomes Junior, Sergio Pinto |
Primeiro orientador: | Tcheou, Michel Pompeu |
Primeiro coorientador: | ávila, Flávio Rainho |
Primeiro membro da banca: | Lima, Amaro Azevedo de |
Segundo membro da banca: | Leite, Karla Tereza Figueiredo |
Terceiro membro da banca: | Souza Filho, Joao Baptista de Oliveira e |
Resumo: | A fala tem se tornado um meio de interação entre o ser humano e os computadores cada vez mais importante. Visando tornar essa interação ainda mais natural, pesquisadores têm proposto diferentes sistemas de reconhecimento de emoções na fala. Na área de reconhecimento de emoções em sinais de fala, as redes neurais profundas vêm sendo foco de intensa investigação. Visto isso, neste trabalho foi avaliado o efeito da técnica de transferência de aprendizado e do aumento da base de dados na acurácia de uma rede neural convolucional residual para a predição de emoções, comparando-a com outras técnicas de classificação tais como: a ResNet sem pré-treino, o Modelo de Mistura de Gaussianas e a Rede Neural Probabilística. Para isto, foram utilizadas as amostras das classes Felicidade, Neutra, Raiva e Tristeza contidas nas bases de dados IEMOCAP e EmoDb visando o treino e teste dos sistemas propostos. Nos experimentos com o GMM foi alcançada uma taxa de reconhecimento de 85,77% para a base de dados EmoDb e 66,83% para a IEMOCAP. Já a rede probabilística desenvolvida nesse trabalho conseguiu classificar corretamente 79,64% das amostras de teste da base de dados EmoDb. Nos experimentos com a ResNet, foram gerados os espectrogramas dos sinais de voz para serem utilizados no lugar de imagens. Nesses experimentos foi observado que as técnicas de aumento da base e de transferência de aprendizado contribuem significativamente para um melhor reconhecimento das emoções. Nesse caso, a rede convolucional classificou corretamente 81,26% das amostras. |
Abstract: | Speech has become an increasingly important mean of interaction between humans and computers. Aiming at making this interaction even more natural, researchers have proposed different systems of speech emotion recognition. In this area, in recent years, deep neural networks have been the focus of research. Given this, in this work we investigated the effect of techniques of transfer learning and data augmentation on the accuracy obtained by a residual convolutional neural network, comparing it to other classification strategies like ResNet without pre-training, the Gaussian Mixture Model and the Probabilistic Neural Network. In addition, samples of the Happiness, Neutral, Anger and Sadness classes contained in two emotion datasets (IEMOCAP and EmoDb) were used for training and testing of the proposed systems. In the experiments with the GMM, a accuracy of 85.77 % was achieved for the EmoDb dataset, and 66.83 % for the IEMOCAP. On the other hand, the probabilistic network developed in this work was able to correctly classify 79.64 % of the test samples from the EmoDb dataset. In the experiments with ResNet, the spectrograms of the speech signals were generated to be used instead of images. In these experiments it was observed that the techniques of data augmentation and transfer learning greatly contribute to the result of the emotion recognition. Using those techniques, the convolutional network correctly classified 81.26 % of the test samples. |
Palavras-chave: | Electronic Engineering Man-machine interaction Neural networks (Computation) Speech processing systems Emotions Computer learning Emotion Recognition Speech Convolutional Neural Networks Transfer Learning Engenharia eletrônica Interação homem-máquina Redes neurais (Computação) Sistemas de processamento da fala Emoções Aprendizado do computador Reconhecimento de emoções Fala Redes Neurais Convolucionais Transferência de Aprendizado |
Área(s) do CNPq: | CNPQ::ENGENHARIAS |
Idioma: | por |
País: | BR |
Instituição: | Universidade do Estado do Rio de Janeiro |
Sigla da instituição: | UERJ |
Departamento: | Centro de Tecnologia e Ciências::Faculdade de Engenharia |
Programa: | Programa de Pós-Graduação em Engenharia Eletrônica |
Citação: | GOMES JUNIOR, Sergio Pinto. Reconhecimento de emoções em sinais de fala usando transferência de aprendizado. 2019. 101 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2019. |
Tipo de acesso: | Acesso Aberto |
URI: | http://www.bdtd.uerj.br/handle/1/11760 |
Data de defesa: | 28-Fev-2019 |
Aparece nas coleções: | Mestrado em Engenharia Eletrônica |
Arquivos associados a este item:
Arquivo | Tamanho | Formato | |
---|---|---|---|
Sergio Pinto Gomes Junior_BDTD.pdf | 1,34 MB | Adobe PDF | Baixar/Abrir Pré-Visualizar |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.