Compartilhamento |
![]() ![]() |
Use este identificador para citar ou linkar para este item:
http://www.bdtd.uerj.br/handle/1/23428
Tipo do documento: | Dissertação |
Título: | Uma Análise das Principais Técnicas de Agrupamento de Dados, aplicadas a Coletâneas Textuais recuperadas de Páginas Web |
Título(s) alternativo(s): | Analysis of the Main Data Grouping Techniques, applied to the Text Collection recovered from Web Pages |
Autor: | Loureiro, Fábio Mascarenhas ![]() |
Primeiro orientador: | Silva, Célia Martins Cortez |
Primeiro coorientador: | Machado, Alan Freitas |
Primeiro membro da banca: | Marzulo, Leandro Augusto Justen |
Segundo membro da banca: | Kubrusly, Jéssica Quintanilha |
Resumo: | Nos últimos tempos,o volume de dados vem crescendo exponencialmente e, portanto devemos buscar soluções apropriadas para extrair conhecimento dessa enorme massa. Uma metodologia adequada para lidar com grandes conjuntos de dados é a descoberta de conhecimento em bases de dados (KDD). Esta metodologia é constituída por várias etapas, possuindo como motor principal a Mineração de Dados.Contudo, não se deve empregar as tarefas relacionadas à Mineração de Dados diretamente no banco, visto que, frequentemente, as tarefas que compõem esta etapa não lidam nativamente com objetos textuais. A estes conjuntos de técnicas utilizadas para interpretar e analisar dados textuais foi denominado Descoberta de Conhecimento em Textos (ou Mineração de Textos). Este campo, ainda emergente, destina-se ao recolhimento de informações significativas a partir de textos em linguagem natural, extraindo conhecimento a partir de documentos textuais. Neste quadro, este trabalho busca apresentar uma visão panorâmica das fases do KDD e seu relacionamento com a etapa de Mineração de dados exemplificando alguns de seus principais métodos através de artigos e pesquisas científicas que os empregaram. Posteriormente, são detalhadas as etapas da Mineração de Textos, apresentando, principalmente suas tarefas de tratamento e redução dos termos da coletânea. Para a primeira etapa, destinada a coleta de documentos, é sugestão deste trabalho o desenvolvimento de rastreadores web focados na recuperação de conteúdos a partir de páginas HTML, armazenando-os em um formato facilmente processável pelas etapas seguintes. Após a apresentação teórica, foi aplicada a metodologia estudada com a finalidade de criar um rastreador web específico para a seção de economia do jornal O Globo (edição digital), seguido pela execução de técnica de agrupamento a fim de intuir sobre os principais assuntos abordados em um determinado período e verificar a possibilidade de agrupamento das postagens por tema e autor. |
Abstract: | The volume of information is growing exponentially and, therefore, we should search appropriate solutions to extract knowledge from this huge mass. A suitable methodology for the handle large data sets is the Knowledge Discovery in Databases (KDD). This methodology consists of several steps and has Data Mining as main motor. However, we shouldn't employ the data mining tasks directly in the base, because, quite often, the tasks that make up this step doesn't deal with textual objects natively. To these sets of techniques used to interpret and analyze textual data it was called Knowledge Discovery in Texts (or Text Mining). This field, still emerging, intended for gathering meaningful information from texts in natural language, extracting knowledge from text documents. In this context, this research presents an overview of estages of KDD and its relationship with the Data Mining step, ilustrating some of its key methods through articles and scientific researches that employed them.In sequence, are detailed the steps of Text Mining, presenting their treatment and term's reduction tasks. For the first stage, the colection of documents, this work suggests the development of focused web crawlers in recovering contents from HTML pages, storing them in an easily processable format. After the theorical presentation, was applied the methodology studied to create a specific web crawler to the O Globo (digital edition) newspaper business section followed by the execution of clustering techniques to intuit about the main issues addressed in a certain period and check the possibility of grouping posts by topics and author |
Palavras-chave: | Data Mining Text Mining Clustering Web Crawler Mineração de dados Mineração de textos Análise de agrupamento Rastreadores Web |
Área(s) do CNPq: | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Idioma: | por |
País: | Brasil |
Instituição: | Universidade do Estado do Rio de Janeiro |
Sigla da instituição: | UERJ |
Departamento: | Centro de Tecnologia e Ciências::Instituto de Matemática e Estatística |
Programa: | Programa de Pós-Graduação em Ciências Computacionais |
Citação: | LOUREIRO, Fábio Mascarenhas. Uma análise das principais técnicas de agrupamento de dados, aplicadas a coletâneas textuais recuperadas de páginas web. 2016. 81 f. Dissertação (Mestrado em Ciências Computacionais) - Instituto de Matemática e Estatística, Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2016. |
Tipo de acesso: | Acesso Aberto |
URI: | http://www.bdtd.uerj.br/handle/1/23428 |
Data de defesa: | 3-Fev-2016 |
Aparece nas coleções: | Mestrado em Ciências Computacionais |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Dissertação - Fabio Mascarenhas Loureiro - 2016 - Completa.pdf | Dissertação completa | 1,65 MB | Adobe PDF | Baixar/Abrir Pré-Visualizar |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.