Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros

Exportar este item:

Use este identificador para citar ou linkar para este item: http://www.bdtd.uerj.br/handle/1/8738

Tipo do documento:	Dissertação
Título:	Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros
Título(s) alternativo(s):	Segmentation of names and addresses through hidden Markov models and its application in record linkage
Autor:	Gonçalves, Rita de Cássia Braga
Primeiro orientador:	Freire, Sergio Miranda
Primeiro membro da banca:	Coeli, Claudia Medina
Segundo membro da banca:	Junger, Washington Leite
Terceiro membro da banca:	Cabral, Maria Deolinda Borges
Resumo:	A segmentação dos nomes nas suas partes constitutivas é uma etapa fundamental no processo de integração de bases de dados por meio das técnicas de vinculação de registros. Esta separação dos nomes pode ser realizada de diferentes maneiras. Este estudo teve como objetivo avaliar a utilização do Modelo Escondido de Markov (HMM) na segmentação nomes e endereços de pessoas e a eficiência desta segmentação no processo de vinculação de registros. Foram utilizadas as bases do Sistema de Informações sobre Mortalidade (SIM) e do Subsistema de Informação de Procedimentos de Alta Complexidade (APAC) do estado do Rio de Janeiro no período entre 1999 a 2004. Uma metodologia foi proposta para a segmentação de nome e endereço sendo composta por oito fases, utilizando rotinas implementadas em PL/SQL e a biblioteca JAHMM, implementação na linguagem Java de algoritmos de HMM. Uma amostra aleatória de 100 registros de cada base foi utilizada para verificar a correção do processo de segmentação por meio do modelo HMM.Para verificar o efeito da segmentação do nome por meio do HMM, três processos de vinculação foram aplicados sobre uma amostra das duas bases citadas acima, cada um deles utilizando diferentes estratégias de segmentação, a saber: 1) divisão dos nomes pela primeira parte, última parte e iniciais do nome do meio; 2) divisão do nome em cinco partes; (3) segmentação segundo o HMM. A aplicação do modelo HMM como mecanismo de segmentação obteve boa concordância quando comparado com o observador humano. As diferentes estratégias de segmentação geraram resultados bastante similares na vinculação de registros, tendo a estratégia 1 obtido um desempenho pouco melhor que as demais. Este estudo sugere que a segmentação de nomes brasileiros por meio do modelo escondido de Markov não é mais eficaz do que métodos tradicionais de segmentação.
Abstract:	The segmentation of names into its constituent parts is a fundamental step in the integration of databases by means of record linkage techniques. This segmentation can be accomplished in different ways. This study aimed to evaluate the use of Hidden Markov Models (HMM) in the segmentation names and addresses of people and the efficiency of the segmentation on the record linkage process. Databases of the Information System on Mortality (SIM in portuguese) and Information Subsystem for High Complexity Procedures (APAC in portuguese) of the state of Rio de Janeiro between 1999 and 2004 were used. A method composed of eight stages has been proposed for segmenting the names and addresses using routines implemented in PL/SQL and a library called JAHMM, a Java implementation of HMM algorithms. A random sample of 100 records in each database was used to verify the correctness of the segmentation process using the hidden Markov model. In order to verify the effect of segmenting the names through the HMM, three record linkage process were applied on a sample of the aforementioned databases, each of them using a different segmentation strategy, namely: 1) dividing the name into first name , last name, and middle initials; 2) division of the name into five parts; 3) segmentation by HMM. The HMM segmentation mechanism was in good agreement when compared to a human observer. The three linkage processes produced very similar results, with the first strategy performing a little better than the others. This study suggests that the segmentation of Brazilian names by means of HMM is not more efficient than the traditional segmentation methods.
Palavras-chave:	Data segmentation Record linkage Hidden Markov Model Segmentação de dados Vinculação de registros Modelo Escondido de Markov Medicina Processamento de dados Markov, Processos de Computação em Informática Médica Sistemas computadorizados de registros médicos Registros eletrônicos de saúde Armazenamento e Recuperação da Informação
Área(s) do CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
Idioma:	por
País:	BR
Instituição:	Universidade do Estado do Rio de Janeiro
Sigla da instituição:	UERJ
Departamento:	Centro Biomédico::Faculdade de Ciências Médicas
Programa:	Programa de Pós-Graduação em Ciências Médicas
Citação:	GONÇALVES, Rita de Cássia Braga. Segmentação de nome e endereço por meio de modelos escondidos de Markov e sua aplicação em processos de vinculação de registros. 2013. 104 f. Dissertação (Mestrado em Ciências Médicas) - Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2013.
Tipo de acesso:	Acesso Aberto
URI:	http://www.bdtd.uerj.br/handle/1/8738
Data de defesa:	11-Dez-2013
Aparece nas coleções:	Mestrado em Ciências Médicas

Arquivos associados a este item:

Arquivo	Tamanho	Formato
TESE_FINAL_PUBLICADA_Rita_de_Cassia_Braga_Goncalves.pdf	1,67 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro completo do item Recomendar este item Visualizar estatísticas