Transformações com XSLT para extração de dados

Estudo de transformações e extração de conteúdo usando Extensible Stylesheet Language - Transformations (Linguagem Extensível de Folha de Estilo - Transformações), ou XSLT [15], uma tecnologia para extração de conteúdo e transformação entre formatos diferentes de XMLs. Utilizando-se do programa Tidy [12], pode-se transformar uma página HTML em uma página XHTML [13], uma versão mais avançada do convencional HTML. O XHTML nada mais é que um documento XML mas com alguns rótulos passíveis de serem interpretados por programas clientes de visualização de páginas (browser). Como o documento resultante é um XML, usando XSLT foi possível extrair os dados das páginas do currículo Lattes dos professores diretamente para um RDF/XML. Uma desvantagem desta metodologia é a falta de robustez diante de alterações no formato do documento de origem, por isso a preferência a algoritmos de aprendizagem de máquina.



Fabio Braga de Oliveira 2004-12-09