Estudo de classificadores de texto semi-automatizados

Nesta fase do projeto, foram estudados alguns algoritmos de aprendizagem de máquina, na área específica de classificadores de textos. Aprendizagem de máquina é o estudo de métodos computacionais e programas que melhoram seu desempenho com base na experiência anterior. É um campo extremamente multidisciplinar, envolvendo áreas como Inteligência Artificial, Estatística, Teoria da Informação, Processamento de Sinais, Complexidade Computacional, Matemática Computacional, Filosofia, Psicologia Cognitiva, Biologia, Lingüística, só para citar algumas.

Utilizou-se a príncipio a linguagem Squeak Smalltalk[10], um dialeto da linguagem Smalltalk, para implementação de alguns classificadores para experimentos. Escolheu-se esta linguagem por facilitar a prototipagem e para rápidos ciclos de desenvolvimento-experimentos-conclusão. No entanto, o uso da linguagem Smalltalk foi abandonada em prol da linguagem Java[9], por facilitar o uso de ferramentas como Weka[16] e Jena[6], comentados mais adiante.

Foram implementados alguns classificadores, como o método de Rocchio, Naive-Bayes e Decision Tree, e logo após utilizado a API do Weka para novas experiências. O Weka é uma API Java para experimentação com classificadores de texto, com muitos deles implementados e de código fonte aberta, sendo muito recomentado para o aprendizado.

Testes preliminares utilizaram a coleção de textos Reuters[11], uma coleção vastamente utilizada para testes de classificadores, podendo então os resultados de classificação comparados entre algoritmos diferentes quanto a medidas de precisão.

Fabio Braga de Oliveira 2004-12-09