Montagem de regiões gênicas
Aluno: Pedro Ivo Gomes de Faria
Supervisor: Prof. Dr. Alan Durham
Tema
Implementação de um script para montagem de sequências, usando Perl como linguagem de programação.
Resumo
A montagem de sequências refere-se ao alinhamento e fusão de fragmentos (os fragmentos fundidos denominam-se contigs) vindos de uma molécula de DNA maior para poder reconstruir a sequência original. Isto é necessário pois a tecnologia atual de sequenciamento de DNA não consegue lidar com cromossomos inteiros, mas apenas com pequenos fragmentos (chamados de reads) de tamanho entre 20 e 1000 pares de bases [1]. Além da grande quantidade de dados gerada pelos ditos sequenciadores da "próxima geração" [2], outros problemas incluem a presença de erros nos reads e a existência de sequências quase idênticas (conhecidas como repetições), que podem "confundir" a montagem (i.e., gerar contigs que não existem na molécula original, chamados de quimeras) [3].
Para tentar evitar as dificuldades causadas pelas repetições, a ferramenta a ser desenvolvida tentará apenas obter os genes (e suas regiões adjacentes) de interesse do usuário (mais precisamente, tentará montar apenas os reads que tenham um mínimo de similaridade com as sequências de interesse). Idealmente obteremos também os elementos cis-regulatórios (regiões do DNA que regulam a expressão de genes localizados na mesma molécula [4]) dos genes em questão. Saber qual é a função um gene e de que forma ele é regulado é importante para a engenharia metabólica, que trata de otimizar processos genéticos e regulatórios para produzir substâncias de valor econômico (tal como a sacarose da cana-de-açúcar, cuja fermentação produz etanol) em escala industrial [5][6].
Objetivos
O objetivo principal deste trabalho é obter um programa que monte as regiões gênicas de interesse do usuário, estendendo-as o máximo possível (de forma confiável, ou seja, sem gerar quimeras) para obter os elementos cis-regulatórios dos genes em questão. Como objetivo secundário, visamos consolidar conceitos obtidos tanto nas disciplinas do BCC quanto nas disciplinas relativas à área de biológicas (cursadas em outros institutos, principalmente no IB e no IQ).
Atividades já realizadas
- Estudo de capítulos selecionados dos livros "Biologia molecular da célula"[7], "Bioinformatics: a practical guide to the analysis of genes and proteins"[8], "Bioinformatics: sequence and genome analysis"[9], "Beginning perl for bioinformatics"[10] e "Introduction to computational molecular biology"[11];
- Para aprofundamento teórico no tema escolhido, foram cursadas as disciplinas BIO0228 (Genética Humana), QBQ0204 (Bioquímica e Biologia Molecular), BIB0525 (Biologia Molecular de Plantas), BIO0208 (Processos Evolutivos) e MAC0465 (Biologia Computacional);
- Geração de scripts em Perl (ainda em fase de refinamento) para a montagem das sequências e para a validação da montagem.
Cronograma
Atividades | Jul/10 a Mar/12 |
Abr/12 | Mai/12 | Jun/12 | Jul/12 | Ago/12 | Set/12 | Out/12 | Nov/12 |
---|---|---|---|---|---|---|---|---|---|
Estudos sobre Bioinformática, Genética, Bioquímica e Biologia Molecular | |||||||||
Desenvolvimento dos pipelines para montagem e validação da montagem | |||||||||
Atualização do blog | |||||||||
Elaboração da monografia | |||||||||
Preparação do pôster e da apresentação |
Estrutura esperada da monografia
A monografia será composta por duas partes: a parte técnica e a parte subjetiva.
Parte Técnica
- Introdução: motivações para a preparação da monografia, os objetivos do trabalho, os principais problemas a serem resolvidos e a contextualização da área do projeto.
- Conceitos e tecnologias estudadas: explicações sobre conceitos básicos de biologia molecular, sequenciamento de DNA (principalmente pirosequenciamento), alinhamento de sequências e o problema da montagem de sequências.
- Atividades realizadas: descrição da metodologia de estudo e das atividades realizadas.
- Resultados: apresentação dos principais resultados obtidos e dos trabalhos que vierem a ser produzidos.
- Conclusões.
- Bibliografia.
Parte Subjetiva
- Desafios e frustações: diferentes tipos de obstáculos encontrados durante o desenvolvimento do trabalho e também durante o BCC.
- Disciplinas relevantes: disciplinas cujos conteúdos tenham sido relevantes para o desenvolvimento do trabalho, quer tenham sido cursadas no BCC ou não.
- Próximos passos: como poderíamos estender o estudo na área do projeto e que passos tomaríamos para aprimorar os conhecimentos relevantes para esse trabalho.
Referências
Listamos a seguir algumas referências relacionadas ao tema de nossa monografia. Todas já foram estudadas (mesmo que parcialmente); em particular algumas (principalmente os livros) ainda serão estudadas de modo mais aprofundado (conforme houver necessidade).[1] Wikipedia. Sequence assembly. Disponível em <http://en.wikipedia.org/wiki/Sequence_assembly>. Acesso em: 27 fev. 2012.
[2] Wikipedia. DNA sequencing. Disponível em <http://en.wikipedia.org/wiki/DNA_sequencing#High-throughput_sequencing>. Acesso em: 27 fev. 2012.
[3] Wikipedia. Sequence assembly: genome assemblers . Disponível em <http://en.wikipedia.org/wiki/Sequence_assembly#Genome_assemblers>. Acesso em: 27 fev. 2012.
[4] Wikipedia. Cis-regulatory element. Disponível em <http://en.wikipedia.org/wiki/Cis-regulatory_element>. Acesso em: 27 fev. 2012.
[5] Wikipedia. Metabolic engineering. Disponível em <http://en.wikipedia.org/wiki/Metabolic_engineering>. Acesso em: 27 fev. 2012.
[6] MENOSSI, M. et al. Sugarcane Functional Genomics: Gene Discovery for Agronomic Trait Development. Int J Plant Genomics, 2008.
[7] ALBERTS, B. et al. Biologia Molecular da Célula. 5ª ed. Porto Alegre: Artmed, 2010. 1396 p.
[8] OUELLETTE, B. F. FRANCIS; BAXEVANIS, ANDREAS D.. Bioinformatics: a practical guide to the analysis of genes and proteins. 2ª ed. Nova Iorque: Wiley-Interscience, 2001. 488 p.
[9] MOUNT, D. W.. Bioinformatics: sequence and genome analysis. 1ª ed. Nova Iorque: Cold Spring Harbor, 2001. 565 p.
[10] TISDALL, J.. Beginning perl for bioinformatics. 1ª ed. O'Reilly, 2001. 384 p.
[11] SETUBAL, J.; MEIDANIS, J.. Introduction to computational molecular biology. 1ª ed. Boston: PWS, 1997. 308 p.