Introdução

A crescente disponibilização de seqüências de genomas completos permitiu o advento da genômica comparativa e conseqüentemente a sistemática genômica. Uma questão chave na transição da sistemática baseada em genes para a baseada em genomas é o desenvolvimento de métodos que, a partir de informações acerca do conteúdo de um genoma, irão considerar relações ancestrais de genes homólogos e parálogos bem como a arquitetura genômica dentro de um mesmo quadro integrado. Técnicas estatísticas sofisticadas estão disponíveis para inferência filogenética, como os implementados nos métodos Bayeseanos e máxima verossimilhança. Esses métodos fazem uso de modelos evolucionários explícitos e testáveis, permitindo testes de significância e odenação de hipóteses. Contudo, a ausência de genes ou de sua ordem no genoma podem impor um problema sério quando são feitas tentativas de integrar esses dados com os obtidos através de inferências baseadas em alinhamento de genes.

A sistemática baseada em genes pode ser estendida para genomas completos uma vez que os genomas em questão são alinhados e tratados. Esse procedimento é árduo e provoca a perda de informação sobre características parcialmente compartilhadas.

Alternativamente, podemos comparar genomas e construir distribuições a partir de scores para características genômicas compartilhadas de maneira par-a-par. Essas distribuições são comparadas e diversas de suas características como momentos, ou comparações mais complexas envolvendo distâncias de Kullback-Leibler, Chernoff, Bhattacharyya, são estudadas com relação à sua utilidade para clusterização de genomas durante a reconstrução filogenética.

Neste projeto propomos o BlastPhen, um programa que implementa uma técnica de clusterização por similaridade de forma rápida e eficiente, utilizando-se o método de comparação de distribuições citado acima.

O BlastPhen utiliza como base de cálculo os resultados obtidos pelo programa Blast, que compara seqüências de genes e proteínas, encontrando e atribuindo valores a subseqüências semelhantes.

A partir desses dados, o BlastPhen avalia, com o auxílio de técnicas estatísticas, o grau de similaridade dos genomas, fornecendo uma medida de ``distância'' entre eles. Esses dados são posteriormente utilizados para gerar a clusterização dos seres em questão.

Ricardo Nishikido Pereira 2004-12-06