Trabalho de Formatura Supervisionado - Proposta
Desenvolvimento de algoritmos para para
Discriminar Português Brasileiro e Europeu
Supervisor: Arnaldo Mandel
Aluno: Dênis Antônio Lacerda
  1. Resumo da monografia

    Seqüências genéticas, cadeias de aminoácidos, seqüências rítmicas na fala, seqüências de dados econômicos, parecem ter em comum um comportamento que, apesar de não ser determinístico, contém informações precisas a respeito do sistema que as produziu. No caso de cadeias lingüísticas uma dessas características parece estar codificada no ritmo.

  2. Objetivos do trabalho

    O trabalho consiste em desenvolver e implementar um algoritmo para estimação de uma Floresta Probabilística. O objetivo é a modelagem probabilística e a classificação de seqüências simbólicas submetidas a restrições locais, em linguística e genômica. Em linguística, modelaremos contornos acentuais obtidos codificando automaticamente textos escritos em português brasileiro e em português europeu. Em genômica, será usado para classificar cadeias de aminoácidos.

  3. Atividades já realizadas

    Um algoritmo e uma versão preliminar, porém funcional, do software implemenando o algoritmo já foi desenvolvida. Os testes realizados com essa versão implementada mostrou que o algoritmo é muito eficaz.

    O software foi testado usado textos codificados da língua portuguesa com o objetivo de classificar os textos como “Português Brasileiro” ou “Português Europeu”. Mesmo inserindo restrições, o conjunto de árvores consideradas ainda é grande. Porém, mesmo considerando um número grande de árvores, ao final da aplicação do algoritmo, um grupo pequeno de árvores receberam pesos significativos e foram encontrados padrões nessas árvores significativas que permitiram classificar os textos.

  4. Próximas atividades

    O software desenvolvido possui ainda algumas limitações, e essa próxima fase de implementação consiste em estender as funcionalidades do software eliminando essas limitações. Uma limitação se deve ao fato de que alguns módulos do programa não são capazes de trabalhar com dados diferentes dos textos codificados do projeto. O objetivo é fazer com que o software possa trabalhar com dados mais genéricos sem essa limitação no número de tipo de símbolos. O programa também deverá ganhar uma interface gráfica para a manipulação e visualização dos resultados

  5. Cronograma de atividades
    • Outubro: Melhorar a interface do software desenvolvido, melhorar a performance do algoritmo e eliminar as limitações de símbolos e restrições.
    • Novembro: Redação da monografia.