Filipe Tório: RECUPERAÇÃO DE INFORMAÇÃO: Algoritmo de Expansão Automática de Consultas utilizando tesauros

Olá pessoal,

Segue a Introdução da minha monografia do curso de Sistemas de Informação.

1. INTRODUÇÃO

O progresso da humanidade, comprovado pela história e pela realidade atual,

tem sido possível graças à ciência, que, desde então concentra seus esforços para descobrir e aumentar o conhecimento humano buscando a realidade de como as coisas funcionam. Felizmente, a ciência também se preocupou com o registro das informações que foram conquistadas por meio de seu trabalho. A documentação e publicação foram essenciais para a disseminação de todo esse conhecimento adquirido no decorrer dos anos.

Ao longo da história, as maiores fontes de acesso às informações foram as bibliotecas. Durante aproximadamente 4000 anos o homem tem organizado as informações para serem recuperadas e usadas posteriormente. Com o crescimento rápido e recente desse volume, fez-se necessário a utilização de recursos que pudessem acelerar o processo de recuperação da informação.

Criou-se o índice,que por séculos foram escritos manualmente e que apontavam para uma coleção de palavras selecionadas ou conceitos que estavam relacionados com um determinado documento.

Mais uma vez, graças à ciência e o trabalho de muitas pessoas, surgiram então os computadores que passaram por muitas fases de evolução até atingirem certa capacidade de armazenamento, processamento que os tornaram efetivamente preparados para também substituir a construção manual do índice pela automatizada. A computação mudou e continua mudando de forma significativa o mundo. O cenário atual deixa evidente o quanto a humanidade está evoluindo com essa grande invenção.

O acesso à informação passou então a ser oferecido pela computação por meio dos sistemas de Recuperação de Informação, que são chamados pelos profissionais de informática de sistemas de RI.

Segundo Baeza-Yates e Ribeiro-Neto (1999), a Recuperação de Informação consiste de um processo que vai desde a representação e armazenamento e estende-se até a organização e acesso à informação.

Os Sistemas de Recuperação de Informações disponíveis atualmente, além

de possuírem um índice superior a bilhões de apontamentos para documentos,

permitem que os usuários obtenham informações dessas coleções com rapidez e praticidade. Como exemplo desse tipo de sistema tem-se a máquina de busca da Google (http://www.google.com), e da Ask (http://www.ask.com).

Para Baeza-Yates e Ribeiro-Neto (1999), a recuperação de informação consiste em recuperar informações a respeito de um assunto desejado, e não simplesmente recuperar documentos que satisfaçam sentenças de consulta.

É neste contexto que este trabalho propõe um algoritmo de expansão automática de consultas utilizando tesauros.

1.1 Definição do Problema

Para um usuário obter informações por meio de um SRI é necessário a conclusão de alguns processos para que o sistema esteja devidamente apto a realizar essa tarefa. Dentre esses processos, tem-se a Indexação, que, em síntexe, organiza as palavras de forma que seja possível identificar em quais documentos determinada palavra aparece e com que freqüência. Os documentos são os insumos desse processo e são a base de resposta do sistema para o usuário. Os documentos, geralmente estão em grandes quantidades, tratando de diversos assuntos de diversas áreas do conhecimento e escritos por diferentes tipos de pessoas de nacionalidades variadas.

Como exemplo, imagine um usuário pesquisando alguma informação sobre

os problemas do congestionamento enfrentado pelos condutores da cidade de São Paulo. É natural que vários documentos existentes sobre o assunto possam ter sido escritos utilizando termos mais populares como, por exemplo, “motoristas” ao invés de “condutores” e “trânsito” ao invés de “congestionamento”. Essa característica está comumente presente nos documentos, onde autores referenciam a mesma coisa utilizando termos distintos. Isso acontece porque os documentos são criados por seres humanos que utilizam da sua própria linguagem natural para escrever.

Para Carvalho-Barros (2007), a linguagem natural é aquela que se usa diariamente, esta se apresenta de forma confusa e imprecisa, cujo sentido depende do contexto situacional em que ela se produz.

Portanto, essa linguagem também pode ser semanticamente ambígua, quer dizer, uma palavra pode estar associada a significados distintos, entretanto, o contexto onde a mesma está inserida a tornará diferente das demais.

O usuário do sistema de RI também utiliza sua linguagem natural para escrever a consulta. Imagine que um autor X tenha publicado na internet uma boa reportagem sobre o “Congestionamento na cidade de São Paulo”. Imagine também que esse autor tenha utilizado somente o termo “congestionamento” e jamais se referiu ao mesmo como “trânsito”. Por outro lado, o usuário do sistema pesquisou escrevendo: “Trânsito em São Paulo”. O documento do autor do trabalho X que seria uma boa fonte de informação para o usuário, pode até ser recuperado pelo sistema, porém, sua classificação poderá ficar prejudicada, pois o usuário pesquisou por “Trânsito” e não por “Congestionamento”. Essa característica da linguagem natural consequentemente pode influenciar quando o sistema vai definir a relevância dos documentos para com a consulta. Dessa forma, um documento relevante sobre o assunto, escrito com termos diferentes do pesquisado pelo usuário, poderia estar ordenadamente prejudicado, o que poderia levar o usuário sequer a acessar esse documento.

1.2 Hipóteses

Existem diversas propostas, de vários autores da área para amenizar os problemas causados aos sistemas de RI pelo uso da linguagem natural. Uma delas é a técnica de Expansão de Consultas.

Segundo Ziviani (2001), a expansão de consultas pode proporcionar boas respostas para os usuários de sistemas de recuperação de informação. Com o intuito de amenizar os problemas causados aos sistemas de RI pela linguagem natural, pode-se utilizar um vocabulário controlado de termos prédefinidos para uma área específica do conhecimento. Os recursos mais conhecidos são os Tesauros e as Ontologias. Para este trabalho, optou-se por Tesauro que representa uma lista de assuntos ordenados que mostram uma relação conceitual entre eles. Assim, a partir de um conceito é possível identificar outros que estão organizados hierarquicamente e podem servir como base para uma expansão de consultas. Como exemplo, pode-se considerar o termo “Internet”. Assim, uma possibilidade de expansão da consulta seria a pesquisa em um tesauro cujo retorno consistira de seu termo ou conceito genérico. Para o exemplo, o retorno seria o termo “Rede”.

Baseado nisso é que este trabalho propõe uma possível solução para amenizar os problemas causados aos sistemas de RI pela linguagem natural. Com o tesauro será possível auxiliar a Expansão de Consultas que será implementada com a criação de um algoritmo.

1.3 Objetivos

1.3.1 Objetivo Geral

Desenvolver um Algoritmo para Expansão Automática de Consultas utilizando um Tesauro.

1.3.2 Objetivos Específicos

Verificar, com base na literatura publicada na área da Ciência da Computação, os métodos de expansão de consultas. Obter conhecimento para a implementação do algoritmo proposto por este trabalho e avalia-lo, mostrando os resultados obtidos, assim como suas vantagens e desvantagens.

1.4 Motivação

A internet vem ao longo dos anos disponibilizando muita informação acerca de diversas áreas do conhecimento e isso de certa forma tem sido útil para todos que fazem uso. Há muitos documentos disponíveis, uns com certa relevância e outros não. Todavia, esse conteúdo antes de ser utilizado, precisa ser encontrado.

Além disso, o usuário está a procura de informações que possam satisfazer suas necessidades. Ele procura as melhores fontes sobre determinado assunto. O recurso computacional que foi criado para auxiliar esses usuários foram os sistemas de recuperação de informação. Baeza-Yates e Ribeiro-Neto (1999) reforçam que à recuperação de informação consiste em recuperar informações a respeito de um assunto desejado, e não simplesmente recuperar documentos que satisfaçam sentenças de consulta. Portanto, conforme o foco deste trabalho, tem-se um problema (item 1.1 Definição do Problema) que será abordado no âmbito teórico e que se estenderá a uma implementação que irá propor um algoritmo de expansão automática de consultas utilizando tesauros.

Filipe Tório

segunda-feira, 13 de agosto de 2012

RECUPERAÇÃO DE INFORMAÇÃO: Algoritmo de Expansão Automática de Consultas utilizando tesauros

Nenhum comentário:

Postar um comentário