TCC - Proposta

Montagem de regiões gênicas

Aluno: Pedro Ivo Gomes de Faria

Supervisor: Prof. Dr. Alan Durham

Tema

Implementação de um script para montagem de sequências, usando Perl como linguagem de programação.

Resumo

A montagem de sequências refere-se ao alinhamento e fusão de fragmentos (os fragmentos fundidos denominam-se contigs) vindos de uma molécula de DNA maior para poder reconstruir a sequência original. Isto é necessário pois a tecnologia atual de sequenciamento de DNA não consegue lidar com cromossomos inteiros, mas apenas com pequenos fragmentos (chamados de reads) de tamanho entre 20 e 1000 pares de bases [1]. Além da grande quantidade de dados gerada pelos ditos sequenciadores da "próxima geração" [2], outros problemas incluem a presença de erros nos reads e a existência de sequências quase idênticas (conhecidas como repetições), que podem "confundir" a montagem (i.e., gerar contigs que não existem na molécula original, chamados de quimeras) [3].

Para tentar evitar as dificuldades causadas pelas repetições, a ferramenta a ser desenvolvida tentará apenas obter os genes (e suas regiões adjacentes) de interesse do usuário (mais precisamente, tentará montar apenas os reads que tenham um mínimo de similaridade com as sequências de interesse). Idealmente obteremos também os elementos cis-regulatórios (regiões do DNA que regulam a expressão de genes localizados na mesma molécula [4]) dos genes em questão. Saber qual é a função um gene e de que forma ele é regulado é importante para a engenharia metabólica, que trata de otimizar processos genéticos e regulatórios para produzir substâncias de valor econômico (tal como a sacarose da cana-de-açúcar, cuja fermentação produz etanol) em escala industrial [5][6].

Objetivos

O objetivo principal deste trabalho é obter um programa que monte as regiões gênicas de interesse do usuário, estendendo-as o máximo possível (de forma confiável, ou seja, sem gerar quimeras) para obter os elementos cis-regulatórios dos genes em questão. Como objetivo secundário, visamos consolidar conceitos obtidos tanto nas disciplinas do BCC quanto nas disciplinas relativas à área de biológicas (cursadas em outros institutos, principalmente no IB e no IQ).

Atividades já realizadas

Estudo de capítulos selecionados dos livros "Biologia molecular da célula"[7], "Bioinformatics: a practical guide to the analysis of genes and proteins"[8], "Bioinformatics: sequence and genome analysis"[9], "Beginning perl for bioinformatics"[10] e "Introduction to computational molecular biology"[11];
Para aprofundamento teórico no tema escolhido, foram cursadas as disciplinas BIO0228 (Genética Humana), QBQ0204 (Bioquímica e Biologia Molecular), BIB0525 (Biologia Molecular de Plantas), BIO0208 (Processos Evolutivos) e MAC0465 (Biologia Computacional);
Geração de scripts em Perl (ainda em fase de refinamento) para a montagem das sequências e para a validação da montagem.

Cronograma

Atividades	Jul/10 a Mar/12	Abr/12	Mai/12	Jun/12	Jul/12	Ago/12	Set/12	Out/12	Nov/12
Estudos sobre Bioinformática, Genética, Bioquímica e Biologia Molecular
Desenvolvimento dos pipelines para montagem e validação da montagem
Atualização do blog
Elaboração da monografia
Preparação do pôster e da apresentação

Estrutura esperada da monografia

A monografia será composta por duas partes: a parte técnica e a parte subjetiva.

Parte Técnica

Introdução: motivações para a preparação da monografia, os objetivos do trabalho, os principais problemas a serem resolvidos e a contextualização da área do projeto.
Conceitos e tecnologias estudadas: explicações sobre conceitos básicos de biologia molecular, sequenciamento de DNA (principalmente pirosequenciamento), alinhamento de sequências e o problema da montagem de sequências.
Atividades realizadas: descrição da metodologia de estudo e das atividades realizadas.
Resultados: apresentação dos principais resultados obtidos e dos trabalhos que vierem a ser produzidos.
Conclusões.
Bibliografia.

Parte Subjetiva

Desafios e frustações: diferentes tipos de obstáculos encontrados durante o desenvolvimento do trabalho e também durante o BCC.
Disciplinas relevantes: disciplinas cujos conteúdos tenham sido relevantes para o desenvolvimento do trabalho, quer tenham sido cursadas no BCC ou não.
Próximos passos: como poderíamos estender o estudo na área do projeto e que passos tomaríamos para aprimorar os conhecimentos relevantes para esse trabalho.

Referências

Listamos a seguir algumas referências relacionadas ao tema de nossa monografia. Todas já foram estudadas (mesmo que parcialmente); em particular algumas (principalmente os livros) ainda serão estudadas de modo mais aprofundado (conforme houver necessidade).

[1] Wikipedia. Sequence assembly. Disponível em <http://en.wikipedia.org/wiki/Sequence_assembly>. Acesso em: 27 fev. 2012.

[2] Wikipedia. DNA sequencing. Disponível em <http://en.wikipedia.org/wiki/DNA_sequencing#High-throughput_sequencing>. Acesso em: 27 fev. 2012.

[3] Wikipedia. Sequence assembly: genome assemblers . Disponível em <http://en.wikipedia.org/wiki/Sequence_assembly#Genome_assemblers>. Acesso em: 27 fev. 2012.

[4] Wikipedia. Cis-regulatory element. Disponível em <http://en.wikipedia.org/wiki/Cis-regulatory_element>. Acesso em: 27 fev. 2012.

[5] Wikipedia. Metabolic engineering. Disponível em <http://en.wikipedia.org/wiki/Metabolic_engineering>. Acesso em: 27 fev. 2012.

[6] MENOSSI, M. et al. Sugarcane Functional Genomics: Gene Discovery for Agronomic Trait Development. Int J Plant Genomics, 2008.

[7] ALBERTS, B. et al. Biologia Molecular da Célula. 5ª ed. Porto Alegre: Artmed, 2010. 1396 p.

[8] OUELLETTE, B. F. FRANCIS; BAXEVANIS, ANDREAS D.. Bioinformatics: a practical guide to the analysis of genes and proteins. 2ª ed. Nova Iorque: Wiley-Interscience, 2001. 488 p.

[9] MOUNT, D. W.. Bioinformatics: sequence and genome analysis. 1ª ed. Nova Iorque: Cold Spring Harbor, 2001. 565 p.

[10] TISDALL, J.. Beginning perl for bioinformatics. 1ª ed. O'Reilly, 2001. 384 p.

[11] SETUBAL, J.; MEIDANIS, J.. Introduction to computational molecular biology. 1ª ed. Boston: PWS, 1997. 308 p.

MAC0499 Trabalho de Formatura Supervisionado