Resumo da monografia a ser desenvolvida

 

Diversas áreas do conhecimento utilizam-se de medidas de dependência estatísticas para detectar associações entre variáveis de um determinado conjunto de dados. Dada a grande diversidade de relações possíveis entre as variáveis sob análise (linear, não-linear, e as que nem sequer são funções), é desejável a utilização de medidas que sejam capazes de reconhecer numerosos tipos de associação.

Medidas como Spearman e Pearson [1], que vem sido tradicionalmente utilizadas para detectar dependência entre os dados coletados, são bastante restritas quanto ao tipo de associação que detectam (relações lineares e monotônicas, respectivamente). Outras medidas como a medida D de Hoeffiding [2], o Coeficiente de Informação Máxima (CIM) [3], a correlação de distância [4] e a medida de Heller, Heller e Gorfine (HHG) [5] vem se mostrando mais gerais segundo alguns estudos, detectando relações funcionais não monotônicas e algumas relações não funcionais.

Na monografia a ser desenvolvida apresentaremos um estudo comparativo entre as medidas de Pearson e Spearman, a medida D de Hoeffding, o Coeficiente de Informação Máxima, a correlação de distância e a medida de HHG, a fim de avaliar o poder estatístico em diversos tipos de dados simulados. Além disso, pretende-se mostrar os resultados das aplicações desses métodos em dados de expressão gênica advindos de microarranjos de DNA.

Objetivos

 

Objetivos gerais

Os objetivos gerais do projeto são um estudo comparativo entre medidas de dependência (Pearson, Spearman, Hoeffding, CIM, correlação de distância e HHG) com posterior aplicação em dados biológicos reais.

Objetivos específicos

  • Estudar comparativamente em dados simulados o CIM, a correlação de distância, a medida de HHG, a medida D de Hoeffding e as medidas de Pearson e Spearman de forma a identificar sob quais condições cada medida é capaz de detectar dependência.
  • Realizar aplicações em dados biológicos de expressão gênica advindos de tecnologia de microarranjos de DNA.

Atividades já realizadas

 

No decorrer do primeiro semestre de 2012 (até o mês de maio) foram pesquisadas medidas de dependência, dentre as quais os coeficientes de Pearson e Spearman, a medida D de Hoeffding, o CIM, a correlação de distância e a medida de HHG foram selecionadas para o estudo comparativo.

Além disso, estudei em mais detalhes o coeficiente de informação mútua e realizei simulações comparando os coeficientes de Pearson e Spearman, a medida D de Hoeffding e a correlação de distância. Para tal, estudei a ferramenta R [6], com a qual implementei as simulações, e foram revisados e estudados alguns tópicos de estatística, como teste de hipóteses, poder estatístico e curva ROC.

Cronograma de atividades

 

Atividade Junho Julho Agosto Setembro Outubro Novembro
Estudo da medida de HHG X
Simulações X X X
Aplicações em dados biológicos X X X
Monografia X X
Criação do pôster e apresentação do trabalho X

Estrutura esperada da monografia

 

Parte objetiva

  • Introdução
  • Conceitos de dependência
  • Metodologia (descrição das simulações e dos dados biológicos)
  • Resultados
  • Discussões
  • Conclusões
  • Bibliografia

Parte subjetiva

  • Desafios e frustrações
  • Paralelo entre o trabalho de formatura e as disciplinas do BCC
  • Próximos passos

Referências

 

[1] Fujita A, Sato JR, Demasi MA, Sogayar MC, Ferreira CE, and Miyano. Comparing pearson, spearman and hoeffding’s d measure for gene expression association analysis. Journal of Bioinformatics and Computational Biology, 7(4):663–684, 2009.
[2] Hoeffding W. A non-parametric test of independence. The Annals of Mathematical Statistics, 19:546–557, 1948.
[3] Reshef DN, Reshef YA, Finucane HK, Grossman SR, McVean G, Turnbaugh PJ, Lander ES, Mitzenmacher M, and Sabeti PC. Detecting novel associations in large data sets. Science, 334(6062):1518–1524, 2011.
[4] Szekely G, Rizzo M, Bakirov N. Measuring and testing independence by correlation of distances. The Annals of Statistics, 35:2769-2794, 2007.
[5] Heller R, Heller Y, Gorfine M, A consistent multivariate test association based on ranks of distances. Front for the Mathematics ArXiv, under Statistics, arXiv:1201.3522v1, 2012.
[6] R Development Core Team (2010). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.