Tema

Recuperação de informação no contexto web.

Resumo

Organizar e recuperar informação sempre foi algo presente na história humana. Desde a antiguidade, foram sendo criados métodos para agrupar as informações existentes como pergaminhos e chegando aos livros e enciclopédias. Como consequência, isso gerou jeitos de catalogar e recuperar essas informações quando fosse necessário, um bom exemplo sÃ£o os sistemas de busca tradicionais em bibliotecas.

A busca tradicional teve um grande salto com o surgimento dos primeiros computadores digitais, em meados da década de 1940, que permitiram buscas mais rápidas, além de recuperar informaÃ§Ãµes sobre os documentos relevantes Ã busca.

Porém a maior revolução ocorreu em 1989, com o surgimento da World Wide Web (WWW), na qual pela primeira vez foram criadas coleções de documentos que possuiam apontadores (hyperlinks) para outros documentos. A WWW se tornou rapidamente o principal repositório de informações, crescendo em uma velocidade jamais vista.

Com este crescimento da WWW, um antigo problema tomou novas proporÃ§Ãµes. Como recuperar informaÃ§Ãµes relevantes em um ambiente novo e muito diferente? Os novos desafios deste ambiente incluem:

Tamanho:
A WWW Ã© grande, muito grande, a ponto de ser atualmente a maior coleÃ§Ã£o de informaÃ§Ã£o existente.
Dinamismo:
A WWW Ã© dinÃ¢mica, isto Ã©, os documentos nela mudam! Mudam de conteÃºdo, de lugar, os hyperlinks sÃ£o alterados, novos documentos sÃ£o adicionados.
Auto-organizaÃ§Ã£o:
Na WWW, não hÃ¡ um controle sobre o conteúdo de documentos. Documentos aparecem e desaparecem, o conteúdo deles é muitas vezes incerto e cada um deles pode apontar para qualquer outro documento.
Hyperlinks:
Porém, a WWW possui hyperlinks. Eles fazem ser possível "navegar" na WWW e com isso, teremos a base para encontrar documentos relevantes.

Os primeiros mecanismos de busca concentravam-se no conteúdo para encontrar os documentos, porém nem sempre estes documentos eram relevantes, embora tivessem um conteúdo prÃ³ximo ao desejado.

Usando a estrutura de hyperlinks, um novo modelo para encontrar informações relevantes foi pensado, um deles sendo o PageRank, que calcula a relevancia de um documento, baseado na estrutura de links da WWW. Estes métodos sÃ£o chamados de "classificadores por popularidade".

Objetivos

Neste projeto pretendemos, inicialmente, estudar a teoria sobre mecanismos de busca, em especial sobre os métodos de classificação por popularidade, sendo um deles o PageRank.

Após ter a base formada, a foco central será implementar um mecanismo de busca sobre domínios restritos que utilize algum método de classificação por popularidade, exibindo esta classificação.

Atividades realizadas

As atividades realizadas até agora foram:

Reuniões semanais com o supervisor.
Estudo de materiais sobre o assunto.
Implementações básicas (Web Crawler, PageRank).

Cronograma

Atividade	Mar	Abr	Mai	Jun	Jul	Ago	Set	Out	Nov
Estudos	X	X	X	X	X	X
Implementação					X	X	X	X
Monografia						X	X	X	X
Apresentação									X
Poster									X

Estrutura esperada da monografia

Atualmente, uma estrutra que é viável para a monografia é:

Introdução
Grafo da Web
Mecanismo de busca
PageRank
Implementações e simulações
Desafios e dificuldades
Parte Subjetiva

Esta estrutura poderá ser modificada a medida que o trabalho for avançando durante o ano.

Tema

Resumo

Tamanho:

Dinamismo:

Auto-organizaÃ§Ã£o:

Hyperlinks:

Objetivos

Atividades realizadas

Cronograma

Estrutura esperada da monografia