MAC499 - Trabalho de
Formatura Supervisionado
Jae Nam Choi
Orientadora: Profa.Dra.Mari Cleide Sogayar
Supervisor : Prof. Dr. Marco Dimas Gubitoso
Trabalho realizado: Iniciação Científica
Introdução:
Este trabalho de iniciação
científica foi desenvolvido no Laboratório de
Biologia Celular e Molecular do Instituto de Química da USP e
visou explorar computacionalmente alguns tópicos relacionados
à linha de pesquisa deste laboratório, cujo foco
principal é o isolamento e a caracterização
estrutural e funcional de genes diferencialmente expressos em processos
relacionados com a proliferação celular a origem de
tumores.
Objetivos:
Minhas principais tarefas foram :
- o estudo das vias regulatórias geradas pela
oncoproteína MT do vírus polioma, com o objetivo de
construir um grafo com a interação das proteínas
dessa via
- extração de um conjunto de genes com maior
chance de serem diferencialmente expressos de uma biblioteca de dados
do SAGE de tecido mamário
Viabilidade e Relevância:
O trabalho foi desenvolvido no Laboratório de Biologia Celular e
Molecular (IQ-USP) sob
orientação da Profa. Dra. Mari Cleide Sogayar. O Prof.
Dr. Marco Dimas Gubitoso foi o supervisor da parte computacional.
O laboratório contou com uma
estação de trabalho Alpha, que dispõe do sistema
operacional Tru64Unix (Compaq) na qual foi desenvolvidas todas as
tarefas.
Os alunos do laboratório (doutorandos na sua
maioria) forneceram os dados de microarray a partir de seus
experimentos, além de ajudarem no esclarecimento das
dúvidas de Biologia Molecular.
Os resultados deste trabalho de
iniciação científica podem ser úteis aos
alunos do laboratório ao terem a sua metodologia adaptada a
outras bibliotecas do SAGE, no caso da extração de genes
diferencialmente expressos de uma biblioteca do SAGE.
Ferramentas
Computacionais:
A linguagem de
programação usada em todo o todo o trabalho foi a
linguagem PERL.
A ferramenta MINITAB foi usada para a
extração do t-valor nos dados de expressão dos
genes de mama.
O SGB (Stanford Graphbase) foi usado na
construção do grafo.
Os dados para os scripts foram extraídos de
bancos públicos com o SAGE e o BIND :
- SAGE (Serial Analysis of Gene Expression):
faz parte do CGAP (Cancer Genome
Anatomy Project) e permite depositar, restaurar e analisar
dados de expressão gênica humana (Lal et al, 1999).É composto de
bibliotecas de cDNAs de tecidos (normal, tumoral ou submetidos a
condições de tratamentos diferentes).
- BIND (Biomolecular Interaction
Network Database): é um
banco de dados público que fornece descrições de
interações moleculares, complexos protéicos e
vias.Seus
dados são submetidos por pesquisadores ou são
extraídos da literatura.
Além dos dados dos bancos públicos
foram usados também dados de dois microarrays do
laboratório.
Metodologia:
Com relação à tarefa
de extrair os genes diferencialmente expressos de um banco do SAGE foi
usada uma abordagem estatística para decidir se um dado conjunto
de genes é diferencialmente expresso ou não.Primeiramente
os sage tags (que são as referências para os genes) dos
bancos do tecido mamário foram todos normalizados e filtrados
apenas aqueles que estavam presentes em todos os bancos (normais
e tumorais).
Então buscou-se por um conjunto aleatório de n genes,e,
para cada gene desse conjunto foram agrupadas as medidas de
expressão que eles obtiveram nos bancos tumorais e normais (36
bancos no total, 10 normais e 26 tumorais com aproximadamente 20.000
genes em cada um).Com os dados de expressão nos bancos normais e
tumorais para um certo gene, extraímos o t-valor para cada gene
do conjunto e, selecionamos as maiores porcentagens como
indicação para um gene ter chance considerável de
ser um gene diferencialmente expresso entre a condição
normal e a tumoral.
<> Com
relação à construção do grafo de
interação de proteínas foram adotados os seguintes
critérios:
Um vértice representa uma proteína e a aresta
indica que duas proteínas interagem.O grafo é
direcionado, e, portanto a aresta indica que a interação
vai de uma proteína para a outra (isso procura representar o
caminho do sinal na via, que é na biologia chamada de via
transduçao do sinal). A transdução do sinal numa
via começa na menbrana celular com uma proteína que ativa
uma outra e assim sucessivamente até que esse sinal chegue ao
núcleo da célula e ative um gene.
Como já se sabia que o caminho de
interação entre as proteínas (isto é, uma
via) geradas pela oncoproteína MT do vírus polioma e o
caminho de interação entre as proteínas geradas
pelo PDGF (que é um fator de crescimento presente na
célula) é na teoria praticamente o mesmo (pois é
sabido na biologia que o MT mimetiza o fator de crescimento PDGF) o que
se buscou fazer foi gerar um "diff" entre os dois caminhos no grafo,ou
seja, compará-los para ver se isso ocorre mesmo na
prática.
Achar algum ponto onde os caminhos diferem
(teoricamente eles deveriam ser os mesmos) é um dado positivo
pois indica que talvez exista um caminho alternativo na
transdução do sinal que não se conhecia nessas
vias.
Para a construçao do grafo foi usado o banco
de interações de todas as proteínas do Mus
musculus (rato) fornecida pelo BIND.O motivo disso é porque o
polioma vírus infecta esse animal e o fator de crescimento
PDGF(que também é uma proteína) também
está presente no rato.
Os dados do microarray foram usados da seguinte
maneira:
Existem dois microarrays cada um em uma
condição, em um a célula está normal e no
outro a célula foi infectada pelo MT. Com isso buscamos os genes
nos quais a razão entre os dados de expressão da
condição normal para a tumoral é maior ou igual a
2 (critério adotado), e verificamos se esses genes aparecem no
caminho gerado pelo MT no grafo, o que confirmaria o fato deles
aparecerem na via do MT.
>
Resultados e Discussão:
Certamente
existem métodos estatísticos mais complexos para decidir
o critério de diferença de expressão para um gene
além do t-valor, mas esses resultados só poderão
ser de fato validados na bancada do laboratório. Porém,
como esse processo de validação na bancada é muito
custoso, sempre haverá a busca por um padrão
matemático que preveja algum resultado da bancada ou alguma
indicação disso.
A abordagem da
construção do grafo para representar as vias de
interação de proteínas pode ser útil
pela sua estrutura que permite percorrê-lo na busca do um
território gerado por uma proteína, por exemplo.
Porém, não consegui estabelecer um bom critério
para comparar o terrítório gerado por uma proteína
com o gerado por outra e empaquei nesse ponto, pois é
custoso comparar se uma proteína ocorre no caminho gerado pela
outra (o banco fornecia aproximadamente 3800 interações
entre proteínas).
<>
Relatório Subjetivo:
Comentário:
Apesar de
não alcançar os resultados computacionais que
almejava gostei muito de participar da iniciação
científica simplesmente por poder explorar computacionalmente um
assunto interessante (biologia celular).
Desafios e
frustrações encontrados:
>
- Um dos desafios mais trabalhosos de serem vencidos foi o de
tentar entender rapidamente os conceitos que me eram passados de
biologia, tanto verbalmente quanto na leitura dos diversos papers.
<>>
- Apresentar alguns seminários para o pessoal do
laboratório.
- Adaptar os estudos no BCC e o ritmo no laboratório.
<> Disciplinas do BCC mais relevantes:
Creio que
são : Algoritmos em Grafos pois construir um grafo foi uma das
minhas tarefas , Laboratório de Programação I e II
pela bagagem em programação que veio com a
realização dos eps e Engenharia de Software pela
visão de projeto que forneceu.
Interação
com os menbros da equipe que tenham agido como mentores:
Minha orientadora, a Profa. Mari, e os
colegas do laboratório sempre foram muito solícitos as
muitas dúvidas que me surgiam ao tentar entender os detalhes dos
processos biológicos. O doutorando André Fujita, que fez
iniciação científica da mesma maneira que eu
quando foi graduando, me deu dicas preciosas sobre a o quê dar
importância ou não em vários aspectos da
iniciação pois ele já havia passado pelo mesmo.O
Prof.Gubi também me deu bastante apoio ao opinar sobre os
caminhos que eu estava seguindo no meu projeto.
Diferenças
notadas entre a forma de cooperação no BCC nas tarefas em
grupo e a forma de trabalho conjunto no laboratório
Nos trabalhos em
grupo no BCC , todos estão envolvidos com o mesmo assunto e mais
ou menos possuem o mesmo conhecimento .Já no laboratório,
a coisa não é bem assim : na área de
Bioinformática só éramos três pessoas e os
demais da Biologia ou Química, então o desafio de nos
comunicar e nos fazermos entender era constante e exigiu bastante
paciência e perseverança: os conceitos de
computação que tomamos como básicos para eles
não são e vice-versa.
Observações
sobre a aplicação de conceitos estudados nos cursos no
contexto prático de aplicações reais
Creio que o que a teoria que absorvemos nos
cursos são o que no fim das contas nos ajudam a nos adaptar mais
facilmente as dificuldades pontuais para entender novas tecnologias.
Se o aluno fosse continuar atuando na área em
que exerceu o estágio, que passos tomaria para aprimorar os
conhecimentos
técnicos/metodológicos/comercias/científicos
relevantes para esta atividade?
Leria mais papers relacionados ao assunto
explorado e estudaria mais biologia molecular
para me comunicar melhor com os outros pesquisadores no assunto.
>