MAC499 - Trabalho de Formatura Supervisionado
  Jae Nam Choi
  Orientadora: Profa.Dra.Mari Cleide Sogayar
Supervisor : Prof. Dr. Marco Dimas Gubitoso
Trabalho realizado: Iniciação Científica


    Introdução:

        Este trabalho de iniciação científica foi desenvolvido no  Laboratório de Biologia Celular e Molecular do Instituto de Química da USP e visou explorar computacionalmente alguns tópicos relacionados à linha de pesquisa deste laboratório, cujo foco principal é o isolamento e a caracterização estrutural e funcional de genes diferencialmente expressos em processos relacionados com a proliferação celular  a origem de tumores.

    Objetivos:

       Minhas principais tarefas foram :

    Viabilidade e Relevância:

    O trabalho foi desenvolvido no Laboratório de Biologia Celular e Molecular (IQ-USP) sob orientação da Profa. Dra. Mari Cleide Sogayar. O Prof. Dr. Marco Dimas Gubitoso foi o supervisor da parte computacional.
    O laboratório contou com uma estação de trabalho Alpha, que dispõe do sistema operacional Tru64Unix (Compaq) na qual foi desenvolvidas todas as tarefas.
    Os alunos do laboratório (doutorandos na sua maioria) forneceram os dados de microarray a partir de seus experimentos, além de ajudarem no esclarecimento das dúvidas de Biologia Molecular.
    Os resultados deste trabalho de iniciação científica podem ser úteis aos alunos do laboratório ao terem a sua metodologia adaptada a outras bibliotecas do SAGE, no caso da extração de genes diferencialmente exp
ressos de uma biblioteca do SAGE.  

     Ferramentas Computacionais:
   
    A linguagem de programação usada em todo o todo o trabalho foi a linguagem PERL.
    A ferramenta MINITAB foi usada para a extração do t-valor nos dados de expressão dos genes de mama.
    O SGB (Stanford Graphbase) foi usado na construção do grafo.
    Os dados para os scripts foram extraídos de bancos públicos com o SAGE e o BIND :

    Além dos dados dos bancos públicos foram usados também dados de  dois microarrays do laboratório.  

    Metodologia:

    Com relação à tarefa de extrair os genes diferencialmente expressos de um banco do SAGE foi usada uma abordagem estatística para decidir se um dado conjunto de genes é diferencialmente expresso ou não.Primeiramente os sage tags (que são as referências para os genes) dos bancos do tecido mamário foram todos normalizados e filtrados apenas aqueles que estavam presentes em todos os bancos  (normais e tumorais).
Então buscou-se por um conjunto aleatório de n genes,e, para cada gene desse conjunto foram agrupadas as medidas de expressão que eles obtiveram nos bancos tumorais e normais (36 bancos no total, 10 normais e 26 tumorais com aproximadamente 20.000 genes em cada um).Com os dados de expressão nos bancos normais e tumorais para um certo gene, extraímos o t-valor para cada gene do conjunto e, selecionamos as maiores porcentagens como indicação para um gene ter chance considerável de ser um gene diferencialmente expresso entre a condição normal e a tumoral.

<>    Com relação à construção do grafo de interação de proteínas foram adotados os seguintes critérios:
 Um vértice representa uma proteína e a aresta indica que duas proteínas interagem.O grafo é direcionado, e, portanto a aresta indica que a interação vai de uma proteína para a outra (isso procura representar o caminho do sinal na via, que é na biologia chamada de via transduçao do sinal). A transdução do sinal numa via começa na menbrana celular com uma proteína que ativa uma outra e assim sucessivamente até que esse sinal chegue ao núcleo da célula e ative um gene.
     Como já se sabia que o caminho de interação entre as proteínas (isto é, uma via) geradas pela oncoproteína MT do vírus polioma e o caminho de interação entre as proteínas geradas pelo PDGF (que é um fator de crescimento presente na célula) é na teoria praticamente o mesmo (pois é sabido na biologia que o MT mimetiza o fator de crescimento PDGF) o que se buscou fazer foi gerar um "diff" entre os dois caminhos no grafo,ou seja, compará-los para ver se isso ocorre mesmo na prática.
     Achar algum ponto onde os caminhos diferem (teoricamente eles deveriam ser os mesmos) é um dado positivo pois indica que talvez exista um caminho alternativo na transdução do sinal que não se conhecia nessas vias.
    Para a construçao do grafo foi usado o banco de interações de todas as proteínas do Mus musculus (rato) fornecida pelo BIND.O motivo disso é porque o polioma vírus infecta esse animal e o fator de crescimento PDGF(que também é uma proteína) também está presente no rato.
    Os dados do microarray foram usados da seguinte maneira:
    Existem dois microarrays cada um em uma condição, em um a célula está normal e no outro a célula foi infectada pelo MT. Com isso buscamos os genes nos quais a razão entre os dados de expressão da condição normal para a tumoral é maior ou igual a 2 (critério adotado), e verificamos se esses genes aparecem no caminho gerado pelo MT no grafo, o que confirmaria o fato deles aparecerem na via do MT.

    Resultados e Discussão:
   
    Certamente existem métodos estatísticos mais complexos para decidir o critério de diferença de expressão para um gene além do t-valor, mas esses resultados só poderão ser de fato validados na bancada do laboratório. Porém, como esse processo de validação na bancada é muito custoso, sempre haverá a busca por um padrão matemático que preveja algum resultado da bancada ou alguma indicação disso.

    A abordagem da construção do grafo para representar as vias de interação de proteínas pode ser útil  pela sua estrutura que permite percorrê-lo na busca do um território gerado por uma proteína, por exemplo. Porém, não consegui estabelecer um bom critério para comparar o terrítório gerado por uma proteína com o gerado por outra  e empaquei nesse ponto, pois é custoso comparar se uma proteína ocorre no caminho gerado pela outra (o banco fornecia aproximadamente 3800 interações entre proteínas).

<>    Relatório Subjetivo:
   
    Comentário:
    Apesar de não alcançar os resultados computacionais que almejava  gostei muito de participar da iniciação científica simplesmente por poder explorar computacionalmente um assunto interessante (biologia celular).

    Desafios e frustrações encontrados:
<> <>    Disciplinas do BCC mais relevantes:

    Creio que são : Algoritmos em Grafos pois construir um grafo foi uma das minhas tarefas , Laboratório de Programação I e II pela bagagem em programação que veio com a realização dos eps e Engenharia de Software pela visão de projeto que forneceu.

    Interação com os menbros da equipe que tenham agido como mentores:
  

    Minha orientadora, a Profa. Mari, e os colegas do laboratório sempre foram muito solícitos as muitas dúvidas que me surgiam ao tentar entender os detalhes dos processos biológicos. O doutorando André Fujita, que fez iniciação científica da mesma maneira que eu quando foi graduando, me deu dicas preciosas sobre a o quê dar importância ou não  em vários aspectos da iniciação pois ele já havia passado pelo mesmo.O Prof.Gubi também me deu bastante apoio ao opinar sobre os caminhos que eu estava seguindo no meu projeto.

    Diferenças notadas entre a forma de cooperação no BCC nas tarefas em grupo e a forma de trabalho conjunto no laboratório

    Nos trabalhos em grupo no BCC , todos estão envolvidos com o mesmo assunto e mais ou menos possuem o mesmo conhecimento .Já no laboratório, a coisa não é bem assim : na área de Bioinformática só éramos três pessoas e os demais da Biologia ou Química, então o desafio de nos comunicar e nos fazermos entender era constante e exigiu bastante paciência e perseverança: os conceitos de computação que tomamos como básicos para eles não são e vice-versa.

    Observações sobre a aplicação de conceitos estudados nos cursos no contexto prático de aplicações reais

    Creio que o que a teoria que absorvemos nos cursos são o que no fim das contas nos ajudam a nos adaptar mais facilmente as dificuldades pontuais para entender novas tecnologias.

    Se o aluno fosse continuar atuando na área em que exerceu o estágio, que passos tomaria para aprimorar os conhecimentos técnicos/metodológicos/comercias/científicos relevantes para esta atividade?  
   
    Leria mais papers relacionados ao assunto explorado  e  estudaria  mais  biologia molecular para me comunicar melhor com os outros pesquisadores no assunto.