Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: http://www.bdtd.uerj.br/handle/1/11840
Tipo do documento: Dissertação
Título: Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.
Título(s) alternativo(s): Automatic Speech Recognition of Phonemes in Portuguese Using Mixtures of Neural Networks Experts.
Autor: Cardona, Diana Alejandra Bonilla 
Primeiro orientador: Nedjah, Nadia
Primeiro coorientador: Mourelle, Luiza de Macedo
Primeiro membro da banca: Flauzino, Rogério Andrade
Segundo membro da banca: Gomes, José Gabriel Rodriguez Carneiro
Terceiro membro da banca: Szwarcfiter, Jayme Luiz
Resumo: Os sistemas de reconhecimento automático de fala para a detecção de fonemas proporcionam vantagens para o reconhecimento online de fala representada por um sinal de som. Os estudos na área de inteligência computacional tem permitido associar as vantagens do processamento paralelo de informação à distribuição da carga computacional visando simplificar o uso de modelos complexos de sistemas. O desenvolvimento de um sistema de reconhecimento automático de fala envolve vários processos que abrangem várias áreas da pesquisa, tais como a linguística, o processamento de sinais e a inteligência computacional. Nesta dissertação, o processo inicia-se com o pré-processamento do sinal de fala fornecido na entrada do sistema, visando extrair e representar de modo mais sucinto as características principais relacionadas ao sinal em um dado instante de tempo. Inspirado pelo preceito que recomenda "dividir para conquistar", um modelo de composição de redes neurais especialistas é explorado, permitindo dividir o espaço de decisão do problema complexo de reconhecimento de fala para que cada especialista cuide somente de uma área bem delimitada deste espaço de decisão. Vale ressaltar que cada especialista incluído no modelo composto precisa tratar e tomar uma decisão a respeito de cada uma das amostras pré-processadas. O conjunto de decisões assim obtidas pelos especialistas são ponderadas. Desse modo, o sistema especialista que estiver com maior peso na saída acaba determinando o resultado final da classificação a respeito da amostra considerada. Em seguida, uma etapa de pós-processamento dinâmico, implementado através de uma rede recorrente é realizada. Esta permite mitigar os efeitos de oscilação que ocorre durante o reconhecimento de classes com características semelhantes. Nesta dissertação são investigados dois modelos de composição de especialistas. O primeiro é baseado no agrupamento de classes associadas a fonéticas semelhantes enquanto o segundo leva em conta a distribuição desequilibrada das amostras apresentadas nos dados de treinamento. A comparação do modelo proposto nesta dissertação com os trabalhos relacionados ao reconhecimento automático de fala indica um ganho de 7,62% em termos de acurácia.
Abstract: The automatic speech recognition based on detection of phonemes provides advantages for online recognition of a speech represented by a sound signal. Studies in computational intelligence have allowed associating the advantages of information parallel processing to the computational workload distribution, aiming at simplifying the use of complex models. The development of a system for automatic speech recognition involves various processes, covering several areas of research, such as linguistics, signal processing and computational intelligence. In this dissertation, the process starts with a speech signal pre-processing to extract and represent more succinctly, the main characteristics of the speech signal at a given instant of time. Inspired by the principle that recommends to "divide and conquer", a model of mixture of neural network experts is explored, allowing to divide the decision space of the complex problem of speech recognition so that each expert takes care only of a delimited area of this decision space. It is noteworthy to point out that each expert included in the composed model takes handles in the decision regarding each one of the preprocessed input sample. This set of decisions thus obtained is weighted. So, the expert system with the highest weight for the output will determine the final classification of the considered sample. After that, a dynamic post-processing step, implemented as a recurrent network, is executed. It aims at mitigating the oscillatory effect that occurs during the recognition of classes with similar characteristics. In this dissertation, two models of mixture of experts are investigated. The first is based on the grouping of similar phonetics classes while the second considers the imbalanced distribution of samples in the training set. The comparison of the model proposed in this dissertation with the work related to automatic speech recognition indicates a gain of 7.62% in terms of accuracy.
Palavras-chave: Automatic speech recognition
Phonetic recognition
Artificial neural networks
Mixture of experts
Recorrent neural networks
Engenharia eletrônica
Reconhecimento automático de fala
Reconhecimento fonético
Redes neurais artificiais
Composição de especialistas
Redes neurais recorrentes
Reconhecimento automático da voz
Área(s) do CNPq: CNPQ::ENGENHARIAS
Idioma: por
País: BR
Instituição: Universidade do Estado do Rio de Janeiro
Sigla da instituição: UERJ
Departamento: Centro de Tecnologia e Ciências::Faculdade de Engenharia
Programa: Programa de Pós-Graduação em Engenharia Eletrônica
Citação: CARDONA, Diana Alejandra Bonilla. Reconhecimento automático dos fonemas da língua portuguesa usando modelos de composição de redes neurais especialistas.. 2016. 156 f. Dissertação (Mestrado em Redes de Telecomunicações; Sistemas Inteligentes e Automação) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2016.
Tipo de acesso: Acesso Aberto
URI: http://www.bdtd.uerj.br/handle/1/11840
Data de defesa: 30-Ago-2016
Aparece nas coleções:Mestrado em Engenharia Eletrônica

Arquivos associados a este item:
Arquivo TamanhoFormato 
Diana Alejandra Bonilla Cardona.pdf10,56 MBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.