Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: http://www.bdtd.uerj.br/handle/1/23918
Tipo do documento: Dissertação
Título: Um Método para a Tradução de Objetos em Imagens Digitais através de Redes Generativas Adversariais com Consistência Cíclica
Título(s) alternativo(s): A method for translating objects into digital images through adversarial generative networks with consistency cyclical
Autor: Oliveira, Lucas Armand Souza Assis de
Primeiro orientador: Mota, Guilherme Lucio Abelha
Segundo orientador: Costa, Gilson Alexandre Ostwald Pedro da
Primeiro membro da banca: Leite, Karla Tereza Figueiredo
Segundo membro da banca: Oliveira, Dario Augusto Borges
Terceiro membro da banca: Vega, Pedro Juan Soto
Resumo: Métodos de tradução de imagens baseados em aprendizagem profunda permitem transformar uma imagem de um determinado contexto em outra imagem, associada a um contexto diferente. O método proposto neste trabalho é um caso particular de tradução imagens, onde apenas certos objetos presentes numa imagem são traduzidos. A ideia central é estampar sobre a imagem original um símbolo, ou uma representação padrão de uma classe de objetos. Esta nova imagem é então processada por um conjunto de redes neurais que compõem uma arquitetura chamada de CycleGAN, ou redes generativas adversariais com consistência cíclica. Na imagem final, o símbolo estampado aparece de forma realista, incorporando características da imagem orginal, como iluminação e distorções visuais. Para avaliar o método proposto optou-se por uma aplicação de grande importância para tecnologia de direção autônoma de veículos, a saber, o reconhecimento de placas de trânsito em imagens de cenas urbanas. Em função do grande número de classes de placas existentes, e do considerável desbalanceamento de amostras das diferentes classes, o método proposto foi usado para gerar novas imagens, substituindo os símbolos de placas nas imagens originais. Desta forma, o método proposto foi usado para balancear as amostras de uma base de dados pública de placas de trânsito, num esquema de data augmentation para o treinamento de um modelo de detecção e reconhecimento de objetos previamente proposto, o YOLOv3. A análise visual das imagens sintetizadas mostrou que elas possuem boa qualidade no sentido de parecerem realistas. Além disso, a acurácia do modelo de reconhecimento passou de 0,41 mAP para 0,54 mAP (resultados de experimentos), para uma base de dados com originalmente 900 imagens e 43 classes. Acredita-se que esse resultado comprova quantitativamente a efetividade do método proposto e aponta como é possível usar técnicas de tradução imagem para se adicionar conhecimento no treinamento de uma rede de reconhecimento de objetos.
Abstract: Image translation methods based on deep learning allow transforming an image from a given context into another image associated with a different context. The method proposed in this work is a particular case of image translation, where only certain objects present in an image are translated. The central idea is to stamp a symbol, or a standard representation of a class of objects, on the original image. This new image is then processed by a set of neural networks that make up an architecture called CycleGAN, or cycle consistent adversarial generative networks. In the final image, the stamped symbol appears realistically, incorporating features of the original image, such as lighting and visual distortions. To evaluate the proposed method, an application of great importance for autonomous vehicle driving technology was chosen, namely, the recognition of road signs in images of urban scenes. Due to the large number of existing road sign classes, and the considerable imbalance of samples from different classes, the proposed method was used to generate new images, replacing the road sign symbols in the original images. In this way, the proposed method was used to balance the samples of a public database of road signs, in a data augmentation scheme for training a previously proposed object detection and recognition model, the YOLOv3 . Visual analysis of the synthesized images showed that they have good quality in the sense of looking realistic. In addition, the accuracy of the model increased from 0.41 mAP to 0.54 mAP, for a database with originally 900 images and 43 classes We believe that this result quantitatively proves the effectiveness of the proposed method and points out how it is possible to use image translation techniques to add knowledge in the training of an object recognition network.
Palavras-chave: Dados Sintéticos
Aprendizagem profunda
Tradução imagem a imagem
Detecção de imagens
Detecção de placas de transito
Sensoriamento remoto
Redes neurais
Synthetic Data
Deep learning
Picture-to-picture translation
Image detection
Traffic sign detection
Data Augmentation
Área(s) do CNPq: CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Instituição: Universidade do Estado do Rio de Janeiro
Sigla da instituição: UERJ
Departamento: Centro de Tecnologia e Ciências::Instituto de Matemática e Estatística
Programa: Programa de Pós-Graduação em Ciências Computacionais
Citação: OLIVEIRA, Lucas Armand Souza Assis de. Um Método para a Tradução de Objetos em Imagens Digitais através de Redes Generativas Adversariais com Consistência Cíclica . 2022. 70 f. Dissertação (Mestrado em Ciências Computacionais) - Instituto de Matemática e Estatística, Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2022.
Tipo de acesso: Acesso Aberto
URI: http://www.bdtd.uerj.br/handle/1/23918
Data de defesa: 16-Dez-2022
Aparece nas coleções:Mestrado em Ciências Computacionais

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Dissertação - Lucas Armand Souza Assis de Oliveira - 2022 - Completa.pdfDissertação completa18,61 MBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.