Proposta de monografia
Estudo comparativo de medidas de dependência
Aluna: Suzana de Siqueira Santos Supervisor: Professor André Fujita
Aluna: Suzana de Siqueira Santos Supervisor: Professor André Fujita
Diversas áreas do conhecimento utilizam-se de medidas de dependência estatísticas para detectar associações entre variáveis de um determinado conjunto de dados. Dada a grande diversidade de relações possíveis entre as variáveis sob análise (linear, não-linear, e as que nem sequer são funções), é desejável a utilização de medidas que sejam capazes de reconhecer numerosos tipos de associação.
Medidas como Spearman e Pearson [1], que vem sido tradicionalmente utilizadas para detectar dependência entre os dados coletados, são bastante restritas quanto ao tipo de associação que detectam (relações lineares e monotônicas, respectivamente). Outras medidas como a medida D de Hoeffiding [2], o Coeficiente de Informação Máxima (CIM) [3], a correlação de distância [4] e a medida de Heller, Heller e Gorfine (HHG) [5] vem se mostrando mais gerais segundo alguns estudos, detectando relações funcionais não monotônicas e algumas relações não funcionais.
Na monografia a ser desenvolvida apresentaremos um estudo comparativo entre as medidas de Pearson e Spearman, a medida D de Hoeffding, o Coeficiente de Informação Máxima, a correlação de distância e a medida de HHG, a fim de avaliar o poder estatístico em diversos tipos de dados simulados. Além disso, pretende-se mostrar os resultados das aplicações desses métodos em dados de expressão gênica advindos de microarranjos de DNA.
Objetivos gerais
Os objetivos gerais do projeto são um estudo comparativo entre medidas de dependência (Pearson, Spearman, Hoeffding, CIM, correlação de distância e HHG) com posterior aplicação em dados biológicos reais.
Objetivos específicos
No decorrer do primeiro semestre de 2012 (até o mês de maio) foram pesquisadas medidas de dependência, dentre as quais os coeficientes de Pearson e Spearman, a medida D de Hoeffding, o CIM, a correlação de distância e a medida de HHG foram selecionadas para o estudo comparativo.
Além disso, estudei em mais detalhes o coeficiente de informação mútua e realizei simulações comparando os coeficientes de Pearson e Spearman, a medida D de Hoeffding e a correlação de distância. Para tal, estudei a ferramenta R [6], com a qual implementei as simulações, e foram revisados e estudados alguns tópicos de estatística, como teste de hipóteses, poder estatístico e curva ROC.
Atividade | Junho | Julho | Agosto | Setembro | Outubro | Novembro |
Estudo da medida de HHG | X | |||||
Simulações | X | X | X | |||
Aplicações em dados biológicos | X | X | X | |||
Monografia | X | X | ||||
Criação do pôster e apresentação do trabalho | X |
Parte objetiva
Parte subjetiva
[1] Fujita A, Sato JR, Demasi MA, Sogayar MC, Ferreira CE, and Miyano. Comparing pearson, spearman and hoeffding’s d measure for gene expression association analysis. Journal of Bioinformatics and Computational Biology, 7(4):663–684, 2009. [2] Hoeffding W. A non-parametric test of independence. The Annals of Mathematical Statistics, 19:546–557, 1948. [3] Reshef DN, Reshef YA, Finucane HK, Grossman SR, McVean G, Turnbaugh PJ, Lander ES, Mitzenmacher M, and Sabeti PC. Detecting novel associations in large data sets. Science, 334(6062):1518–1524, 2011. [4] Szekely G, Rizzo M, Bakirov N. Measuring and testing independence by correlation of distances. The Annals of Statistics, 35:2769-2794, 2007. [5] Heller R, Heller Y, Gorfine M, A consistent multivariate test association based on ranks of distances. Front for the Mathematics ArXiv, under Statistics, arXiv:1201.3522v1, 2012. [6] R Development Core Team (2010). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.