Objetivos

No presente trabalho de pesquisa estudaremos o espectro intermediário entre rotulação padronizada de páginas e a busca em páginas totalmente não estruturadas. Nosso objetivo é identificar quais níveis mínimos de padronização que precisam ser exigidos de construtores de páginas em HTML para que a análise automatizada de seu conteúdo possa ser efetuada. Esses níveis são dependentes dos procedimentos previstos de análise, portanto a resposta a nossa indagação não é única. Pretendemos classificar as possíveis análises que podem ser de interesse para dados obtidos a partir de documentos HTML, com base nos diferentes níveis de padronização prévia que elas possam exigir.



Fabio Braga de Oliveira 2004-12-09