Compartilhamento |
![]() ![]() |
Use este identificador para citar ou linkar para este item:
http://www.bdtd.uerj.br/handle/1/23352
Tipo do documento: | Tese |
Título: | Árvore de decisão por agrupamento com DBSCAN aproximativo |
Título(s) alternativo(s): | Decision tree with approximate DBSCAN |
Autor: | Goulart, Jorge Luiz de Jesus ![]() |
Primeiro orientador: | Oliveira, Fabiano de Souza |
Segundo orientador: | Pinto, Paulo Eustáquio Duarte |
Primeiro membro da banca: | Szwarcfiter, Jayme Luiz |
Segundo membro da banca: | Faria, Luerbio |
Terceiro membro da banca: | Xavier, Vinicius Layter |
Quarto membro da banca: | Queiroz, Aquiles Braga de |
Quinto membro da banca: | Santos, Fabio Pereira dos |
Resumo: | O aprendizado de máquina tem como objetivo geral criar sistemas que podem aprender com dados, identificar padrões e tomar decisões com o mínimo de intervenção humana. Em geral, métodos de aprendizado de máquina empregam diversos conceitos geométricos, envolvendo pontos no espaço multidimensional. Por outro lado, na literatura de algoritmos para a resolução de conceitos geométricos, há inúmeros algoritmos dessa natureza que envolvem procedimentos randomizados e aproximativos. Tais procedimentos resultam ora em melhoria de complexidade de tempo esperada, ora na simplificação da implementação desses algoritmos. Esta tese apresenta uma variante do modelo de árvore de decisão, na qual novos predicados são considerados para particionar os dados. Ao invés de empregar apenas predicados univariados (associados a uma única característica do dado) como é o caso da árvore de decisão ordinária, a nova variante considera também predicados multicaracterísticas. Tais predicados consistem em separar os dados pela pertinência dos mesmos a cada um dos grupos produzidos pelo modelo de agrupamento não-supervisionado DBSCAN. O algoritmo do DBSCAN possui complexidade computacional de tempo elevada para ser diretamente integrado às árvores de decisão. Assim, a proposta consiste no emprego de uma versão aproximativa de tempo linear do algoritmo DBSCAN, para suavizar tal impacto. A tese faz a proposta além de fazer experimentos em diversas bases de referência em aprendizado de máquina. |
Abstract: | Machine learning aims to create systems that can learn from data, identify patterns, and make decisions with minimal human intervention. Generally, machine learning methods employ various geometric concepts involving points in multidimensional space. On the other hand, in the literature of algorithms for solving geometric concepts, there are numerous algorithms of this nature that involve randomized and approximate procedures. These procedures sometimes result in an improvement in expected time complexity and at other times in simplifying the implementation of these algorithms. This thesis presents a variant of the decision tree model, where new predicates are considered to partition the data. Instead of using only univariate predicates (associated with a single feature of the data), as is the case with the ordinary decision tree, the new variant also considers multi-feature predicates. Such predicates involve separating the data by their relevance to each of the groups produced by the unsupervised clustering model DBSCAN. The DBSCAN algorithm has a high computational time complexity to be directly integrated into decision trees. Therefore, the proposal involves using an approximate version with linear time complexity of the DBSCAN algorithm to mitigate this impact. The thesis not only proposes this but also conducts experiments on various machine learning benchmark datasets. |
Palavras-chave: | Decision tree Randomized algorithms Machine learning Approximate algorithms Árvore de decisão Algoritmos randomizados Aprendizado de máquina Algoritmos aproximativos |
Área(s) do CNPq: | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
Idioma: | por |
País: | Brasil |
Instituição: | Universidade do Estado do Rio de Janeiro |
Sigla da instituição: | UERJ |
Departamento: | Centro de Tecnologia e Ciências::Instituto de Matemática e Estatística |
Programa: | Programa de Pós-Graduação em Ciências Computacionais e Modelagem Matemática |
Citação: | GOULART, Jorge Luiz de Jesus. Árvore de decisão por agrupamento com DBSCAN aproximativo. 2024. 76 f. Tese (Doutorado em Ciências Computacionais e Modelagem Matemática) - Instituto de Matemática e Estatística, Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2024. |
Tipo de acesso: | Acesso Aberto |
URI: | http://www.bdtd.uerj.br/handle/1/23352 |
Data de defesa: | 22-Fev-2024 |
Aparece nas coleções: | Doutorado em Ciências Computacionais e Modelagem Matemática |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Tese- Jorge Luiz de Jesus Goulart - 2024 - Completa.pdf | Tese completa | 1,53 MB | Adobe PDF | Baixar/Abrir Pré-Visualizar |
Termo - Jorge Luiz de Jesus Goulart - 2024.pdf | 463,24 kB | Adobe PDF | Baixar/Abrir Pré-Visualizar Solictar uma cópia | |
CRN - Jorge Luiz de Jesus Goulart - 2024.pdf | 376,12 kB | Adobe PDF | Baixar/Abrir Pré-Visualizar Solictar uma cópia |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.