Tema

Recuperação de informação no contexto web.

Resumo

Organizar e recuperar informação sempre foi algo presente na história humana. Desde a antiguidade, foram sendo criados métodos para agrupar as informações existentes como pergaminhos e chegando aos livros e enciclopédias. Como consequência, isso gerou jeitos de catalogar e recuperar essas informações quando fosse necessário, um bom exemplo são os sistemas de busca tradicionais em bibliotecas.

A busca tradicional teve um grande salto com o surgimento dos primeiros computadores digitais, em meados da década de 1940, que permitiram buscas mais rápidas, além de recuperar informações sobre os documentos relevantes à busca.

Porém a maior revolução ocorreu em 1989, com o surgimento da World Wide Web (WWW), na qual pela primeira vez foram criadas coleções de documentos que possuiam apontadores (hyperlinks) para outros documentos. A WWW se tornou rapidamente o principal repositório de informações, crescendo em uma velocidade jamais vista.

Com este crescimento da WWW, um antigo problema tomou novas proporções. Como recuperar informações relevantes em um ambiente novo e muito diferente? Os novos desafios deste ambiente incluem: Os primeiros mecanismos de busca concentravam-se no conteúdo para encontrar os documentos, porém nem sempre estes documentos eram relevantes, embora tivessem um conteúdo próximo ao desejado.

Usando a estrutura de hyperlinks, um novo modelo para encontrar informações relevantes foi pensado, um deles sendo o PageRank, que calcula a relevancia de um documento, baseado na estrutura de links da WWW. Estes métodos são chamados de "classificadores por popularidade".

Objetivos

Neste projeto pretendemos, inicialmente, estudar a teoria sobre mecanismos de busca, em especial sobre os métodos de classificação por popularidade, sendo um deles o PageRank.

Após ter a base formada, a foco central será implementar um mecanismo de busca sobre domínios restritos que utilize algum método de classificação por popularidade, exibindo esta classificação.

Atividades realizadas

As atividades realizadas até agora foram:

Cronograma


Atividade Mar Abr Mai Jun Jul Ago Set Out Nov
Estudos   X   X   X   X   X   X      
Implementação           X   X   X   X  
Monografia             X   X   X   X
Apresentação                   X
Poster                   X

Estrutura esperada da monografia

Atualmente, uma estrutra que é viável para a monografia é: Esta estrutura poderá ser modificada a medida que o trabalho for avançando durante o ano.