Compartilhamento |
![]() ![]() |
Use este identificador para citar ou linkar para este item:
http://www.bdtd.uerj.br/handle/1/20124
Tipo do documento: | Dissertação |
Título: | Deduplicação de dados não-estruturados de processos streaming em tempo real |
Título(s) alternativo(s): | Unstructured data deduplication in real-time streaming processes |
Autor: | Esteves, João Victor Azevedo ![]() |
Primeiro orientador: | Costa, Rosa Maria Esteves Moreira da |
Primeiro coorientador: | Almeida, Ana Carolina Brito de |
Primeiro membro da banca: | Lifschitz, Sergio |
Segundo membro da banca: | Sztajnberg, Alexandre |
Terceiro membro da banca: | Baião, Fernanda Araujo |
Resumo: | A duplicação de dados é um problema comum em aplicações de processamento contínuo de dados, que pode ocorrer devido aos erros de software ou à adoção de medidas de prevenção de perda de dados, esse problema é usualmente tratado após a ingestão dos dados de um repositório, seja por um processo auxiliar ou pelas próprias análises sobre os dados desconsiderarem duplicatas. Entretanto, com a necessidade de análises feitas o mais próximo do momento da criação de um dado e no menor tempo possível, ambas abordagens se tornam insuficientes para atender a ambos os requisitos, sendo necessário que a deduplicação ocorra em tempo de ingestão. Este trabalho explora métodos podem ser utilizados com a biblioteca Apache Spark para tratar a deduplicação de dados em tempo real, analisando o uso de recursos e o tempo de entrega de cada método e identificando seus casos de usos. E investiga operadores de deduplicação nativos do Apache Spark (distinct e dropDuplicates) e ferramentas auxiliares (RocksDB, Apache Ignite e Apache Hudi), que fornecem mecanismos de deduplicação de dados e tolerância a falhas a aplicação. Os resultados experimentais mostram que há um aumento no tempo de entrega dos dados ao utilizar mecanismos externos, mas que estes mecanismos se tornam primordiais para que um processo de ingestão garanta que não haja a perda dos dados utilizados durante a deduplicação, garantindo que nenhuma duplicata seja persistida. Além disso, outros fatores influenciam a escolha do melhor método de deduplicação, como o uso de recursos computacionais e o tamanho dos dados persistidos |
Abstract: | Data duplication is a widespread problem in data streams processing applications that can occur due to software errors or the adoption of data loss prevention measures, this problem is usually treated after ingesting the data into a repository, either by an auxiliary process or by the analyzes themselves about the data disregarding duplicates. However, with the need for analyzes made as close to the moment of data creation and in the shortest possible time, both approaches become insufficient to meet both requirements, making it necessary for deduplication to occur during ingestion. This work explores methods that can be used with the Apache Spark library to deal with data deduplication in real time, analyzing the use of resources and the delivery time of each method and identifying their use cases. This work investigates Apache Spark native deduplication operators (distinct and drop Duplicates) and auxiliary tools (RocksDB, Apache Ignite and Apache Hudi) that provide data deduplication and fault tolerance mechanisms to the application. The experimental results show that there is an increase in the data delivery time when using external mechanisms, but that these mechanisms become essential for an ingestion process to ensure that there is no loss of data used during deduplication, ensuring that no duplicates are persisted. In addition, other factors influence the choice of the best deduplication method, such as the use of computational resources and the size of the persisted data |
Palavras-chave: | Processamento de dados Processamento de arquivo (Computação) Mineração de dados (Computação) Deduplicação de dados Processamento de dados em streaming Tolerância a falhas Data deduplication Streaming data processing Fault tolerance |
Área(s) do CNPq: | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
Idioma: | por |
País: | Brasil |
Instituição: | Universidade do Estado do Rio de Janeiro |
Sigla da instituição: | UERJ |
Departamento: | Centro de Tecnologia e Ciências::Instituto de Matemática e Estatística |
Programa: | Programa de Pós-Graduação em Ciências Computacionais |
Citação: | ESTEVES, João Victor Azevedo. Deduplicação de dados não-estruturados de processos streaming em tempo real. 2021. 86 f. Dissertação (Mestrado em Ciências Computacionais) Instituto de Matemática e Estatística, Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2021. |
Tipo de acesso: | Acesso Aberto |
URI: | http://www.bdtd.uerj.br/handle/1/20124 |
Data de defesa: | 11-Jun-2021 |
Aparece nas coleções: | Mestrado em Ciências Computacionais |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Dissertação - João Victor Azevedo Esteves - 2021 - Completa.pdf | Dissertação completa | 1,64 MB | Adobe PDF | Baixar/Abrir Pré-Visualizar |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.