Tema
Recuperação de informação no contexto web.
Resumo
Organizar e recuperar informação sempre foi algo presente na história humana.
Desde a antiguidade, foram sendo criados métodos para agrupar as informações
existentes como pergaminhos e chegando aos livros e enciclopédias. Como
consequência, isso gerou jeitos de catalogar e recuperar essas informações
quando fosse necessário, um bom exemplo são os sistemas de busca tradicionais em
bibliotecas.
A busca tradicional teve um grande salto com o surgimento dos primeiros
computadores digitais, em meados da década de 1940, que permitiram buscas mais
rápidas, além de recuperar informações sobre os documentos relevantes à busca.
Porém a maior revolução ocorreu em 1989, com o surgimento da
World Wide Web (WWW), na qual pela primeira vez foram criadas coleções
de documentos que possuiam apontadores (hyperlinks) para outros
documentos. A WWW se tornou rapidamente o principal repositório de informações,
crescendo em uma velocidade jamais vista.
Com este crescimento da WWW, um antigo problema tomou novas proporções. Como
recuperar informações relevantes em um ambiente novo e muito diferente? Os novos
desafios deste ambiente incluem:
Tamanho:
A WWW é grande, muito grande, a ponto de ser atualmente a maior coleção de
informação existente.
Dinamismo:
A WWW é dinâmica, isto é, os documentos nela mudam! Mudam de conteúdo, de lugar,
os hyperlinks são alterados, novos documentos são adicionados.
Auto-organização:
Na WWW, não há um controle sobre o conteúdo de documentos. Documentos aparecem
e desaparecem, o conteúdo deles é muitas vezes incerto e cada um deles pode
apontar para qualquer outro documento.
Hyperlinks:
Porém, a WWW possui hyperlinks. Eles fazem ser possível "navegar" na
WWW e com isso, teremos a base para encontrar documentos relevantes.
Os primeiros mecanismos de busca concentravam-se no conteúdo para encontrar os
documentos, porém nem sempre estes documentos eram relevantes, embora tivessem
um conteúdo próximo ao desejado.
Usando a estrutura de hyperlinks, um novo modelo para encontrar
informações relevantes foi pensado, um deles sendo o PageRank, que
calcula a relevancia de um documento, baseado na estrutura de links da
WWW. Estes métodos são chamados de "classificadores por popularidade".
Objetivos
Neste projeto pretendemos, inicialmente, estudar a teoria sobre mecanismos de
busca, em especial sobre os métodos de classificação por popularidade, sendo um
deles o PageRank.
Após ter a base formada, a foco central será implementar um mecanismo de busca
sobre domínios restritos que utilize algum método de classificação por
popularidade, exibindo esta classificação.
Atividades realizadas
As atividades realizadas até agora foram:
- Reuniões semanais com o supervisor.
- Estudo de materiais sobre o assunto.
- Implementações básicas (Web Crawler, PageRank).
Cronograma
Atividade |
Mar |
Abr |
Mai |
Jun |
Jul |
Ago |
Set |
Out |
Nov |
Estudos |
  X |
  X |
  X |
  X |
  X |
  X |
|
|
|
Implementação |
|
|
|
|
  X |
  X |
  X |
  X |
|
Monografia |
|
|
|
|
|
  X |
  X |
  X |
  X |
Apresentação |
|
|
|
|
|
|
|
|
  X |
Poster |
|
|
|
|
|
|
|
|
  X |
Estrutura esperada da monografia
Atualmente, uma estrutra que é viável para a monografia é:
- Introdução
- Grafo da Web
- Mecanismo de busca
- PageRank
- Implementações e simulações
- Desafios e dificuldades
- Parte Subjetiva
Esta estrutura poderá ser modificada a medida que o trabalho for avançando
durante o ano.