- Resumo da monografia
Seqüências genéticas, cadeias de aminoácidos, seqüências
rítmicas na fala, seqüências de dados econômicos, parecem
ter em comum um comportamento que, apesar de não ser determinístico,
contém informações precisas a respeito do sistema que as
produziu. No caso de cadeias lingüísticas uma dessas
características parece estar codificada no ritmo.
- Objetivos do trabalho
O trabalho consiste em desenvolver e implementar um algoritmo para
estimação de uma Floresta Probabilística. O objetivo é a modelagem probabilística
e a classificação de seqüências simbólicas submetidas a restrições
locais, em linguística e genômica. Em linguística, modelaremos contornos
acentuais obtidos codificando automaticamente textos escritos em português
brasileiro e em português europeu. Em genômica, será usado para classificar
cadeias de aminoácidos.
- Atividades já realizadas
Um algoritmo e uma versão preliminar, porém funcional, do software implemenando o algoritmo já foi desenvolvida. Os
testes realizados com essa versão implementada mostrou que o algoritmo é muito eficaz.
O software foi testado usado textos codificados da língua portuguesa com
o objetivo de classificar os textos como “Português Brasileiro” ou “Português
Europeu”. Mesmo inserindo restrições, o conjunto de árvores consideradas
ainda é grande. Porém, mesmo considerando um número grande de árvores,
ao final da aplicação do algoritmo, um grupo pequeno de árvores receberam
pesos significativos e foram encontrados padrões nessas árvores significativas
que permitiram classificar os textos.
- Próximas atividades
O software desenvolvido possui ainda algumas limitações, e essa próxima
fase de implementação consiste em estender as funcionalidades do software
eliminando essas limitações.
Uma limitação se deve ao fato de que alguns módulos do programa não
são capazes de trabalhar com dados diferentes dos textos codificados do projeto.
O objetivo é fazer com que o software possa trabalhar com dados mais
genéricos sem essa limitação no número de tipo de símbolos.
O programa também deverá ganhar uma interface gráfica para a manipulação e visualização dos resultados
- Cronograma de atividades
- Outubro: Melhorar a interface do software desenvolvido,
melhorar a performance do algoritmo e eliminar as limitações de símbolos e restrições.
- Novembro: Redação da monografia.
|