Compartilhamento |
![]() ![]() |
Use este identificador para citar ou linkar para este item:
http://www.bdtd.uerj.br/handle/1/23918
Tipo do documento: | Dissertação |
Título: | Um Método para a Tradução de Objetos em Imagens Digitais através de Redes Generativas Adversariais com Consistência Cíclica |
Título(s) alternativo(s): | A method for translating objects into digital images through adversarial generative networks with consistency cyclical |
Autor: | Oliveira, Lucas Armand Souza Assis de |
Primeiro orientador: | Mota, Guilherme Lucio Abelha |
Segundo orientador: | Costa, Gilson Alexandre Ostwald Pedro da |
Primeiro membro da banca: | Leite, Karla Tereza Figueiredo |
Segundo membro da banca: | Oliveira, Dario Augusto Borges |
Terceiro membro da banca: | Vega, Pedro Juan Soto |
Resumo: | Métodos de tradução de imagens baseados em aprendizagem profunda permitem transformar uma imagem de um determinado contexto em outra imagem, associada a um contexto diferente. O método proposto neste trabalho é um caso particular de tradução imagens, onde apenas certos objetos presentes numa imagem são traduzidos. A ideia central é estampar sobre a imagem original um símbolo, ou uma representação padrão de uma classe de objetos. Esta nova imagem é então processada por um conjunto de redes neurais que compõem uma arquitetura chamada de CycleGAN, ou redes generativas adversariais com consistência cíclica. Na imagem final, o símbolo estampado aparece de forma realista, incorporando características da imagem orginal, como iluminação e distorções visuais. Para avaliar o método proposto optou-se por uma aplicação de grande importância para tecnologia de direção autônoma de veículos, a saber, o reconhecimento de placas de trânsito em imagens de cenas urbanas. Em função do grande número de classes de placas existentes, e do considerável desbalanceamento de amostras das diferentes classes, o método proposto foi usado para gerar novas imagens, substituindo os símbolos de placas nas imagens originais. Desta forma, o método proposto foi usado para balancear as amostras de uma base de dados pública de placas de trânsito, num esquema de data augmentation para o treinamento de um modelo de detecção e reconhecimento de objetos previamente proposto, o YOLOv3. A análise visual das imagens sintetizadas mostrou que elas possuem boa qualidade no sentido de parecerem realistas. Além disso, a acurácia do modelo de reconhecimento passou de 0,41 mAP para 0,54 mAP (resultados de experimentos), para uma base de dados com originalmente 900 imagens e 43 classes. Acredita-se que esse resultado comprova quantitativamente a efetividade do método proposto e aponta como é possível usar técnicas de tradução imagem para se adicionar conhecimento no treinamento de uma rede de reconhecimento de objetos. |
Abstract: | Image translation methods based on deep learning allow transforming an image from a given context into another image associated with a different context. The method proposed in this work is a particular case of image translation, where only certain objects present in an image are translated. The central idea is to stamp a symbol, or a standard representation of a class of objects, on the original image. This new image is then processed by a set of neural networks that make up an architecture called CycleGAN, or cycle consistent adversarial generative networks. In the final image, the stamped symbol appears realistically, incorporating features of the original image, such as lighting and visual distortions. To evaluate the proposed method, an application of great importance for autonomous vehicle driving technology was chosen, namely, the recognition of road signs in images of urban scenes. Due to the large number of existing road sign classes, and the considerable imbalance of samples from different classes, the proposed method was used to generate new images, replacing the road sign symbols in the original images. In this way, the proposed method was used to balance the samples of a public database of road signs, in a data augmentation scheme for training a previously proposed object detection and recognition model, the YOLOv3 . Visual analysis of the synthesized images showed that they have good quality in the sense of looking realistic. In addition, the accuracy of the model increased from 0.41 mAP to 0.54 mAP, for a database with originally 900 images and 43 classes We believe that this result quantitatively proves the effectiveness of the proposed method and points out how it is possible to use image translation techniques to add knowledge in the training of an object recognition network. |
Palavras-chave: | Dados Sintéticos Aprendizagem profunda Tradução imagem a imagem Detecção de imagens Detecção de placas de transito Sensoriamento remoto Redes neurais Synthetic Data Deep learning Picture-to-picture translation Image detection Traffic sign detection Data Augmentation |
Área(s) do CNPq: | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Idioma: | por |
País: | Brasil |
Instituição: | Universidade do Estado do Rio de Janeiro |
Sigla da instituição: | UERJ |
Departamento: | Centro de Tecnologia e Ciências::Instituto de Matemática e Estatística |
Programa: | Programa de Pós-Graduação em Ciências Computacionais |
Citação: | OLIVEIRA, Lucas Armand Souza Assis de. Um Método para a Tradução de Objetos em Imagens Digitais através de Redes Generativas Adversariais com Consistência Cíclica . 2022. 70 f. Dissertação (Mestrado em Ciências Computacionais) - Instituto de Matemática e Estatística, Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2022. |
Tipo de acesso: | Acesso Aberto |
URI: | http://www.bdtd.uerj.br/handle/1/23918 |
Data de defesa: | 16-Dez-2022 |
Aparece nas coleções: | Mestrado em Ciências Computacionais |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Dissertação - Lucas Armand Souza Assis de Oliveira - 2022 - Completa.pdf | Dissertação completa | 18,61 MB | Adobe PDF | Baixar/Abrir Pré-Visualizar |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.