Capa

Olá! Seja benvindo a página do meu trabalho de formatura, fique a vontade para clicar onde der na telha. =D

Resumo

O Grupo de Banco de Dados do IME-USP (Data-IME) participa desde 2006 do REDS-II, um projeto americano sobre segurança em transfusões de sangue. O Data-IME trabalha com 3 hemocentros brasileiros: o de São Paulo (Fundação Pró-Sangue), o de Minas Gerais (Hemominas) e o de Pernambuco (Hemope). Para trabalhar com todas as informações agregadas em um único lugar foi necessário criar-se um Data Warehouse, trabalho este realizado pelo Data-IME em 2009. Agora é possível fazer análises sobre os dados de forma a tirar conclusões dos mesmos. Este trabalho tem como objetivo encontrar métricas que permitam classificar os doadores com relação ao desenvolvimento de anemia, a saber utilizando níveis de hemoglobina e hematócrito.

Avaliações

Para ter mais noção do que se espera de um TCC tivemos que fazer duas avaliações de trabalhos de alunos de anos anteriores. Este é o ponteiro para as que eu fiz.

avaliacoes.pdf

Atenção: esta é a proposta inicial! Ela mudou drasticamente conforme o trabalho evoluiu!

Proposta

Aluno: André Henrique Serafim Casimiro
Orientador: João Eduardo Ferreira
Tema: Redução de Cardinalidade de Dimensões em Bancos de Dados Multidimensionais a partir de agrupamento de Séries Temporais

Resumo

Em praticamente todas as áreas de atuação humana temos dados computacionais sendo armazenados em Bancos de Dados. Instituições de diferentes áreas e objetivos usam sistemas de software diariamente para executar suas atividades. Para esses sistemas o principal requisito do banco de dados é que o mesmo seja eficiente para realizar transações pontuais como criação, leitura, atualização e remoção de registros. Estes BDs são conhecidos como sendo do tipo OLTP (OnLine Transactional Processing).

De tempos em tempos, existe a necessidade de consulta aos dados para a extração de padrões. Pessoas de direção e gerência precisam saber como os dados estão se comportando ao longo do tempo para que possam tomar decisões mais seguras. O problema é que essas consultas são bem complexas e quando o volume de dados é muito grande, os BDs OLTP tornam-se muito lentos. Daí surge a necessidade de se construir Data Warehouses, ou Depósitos de Dados. Conhecidos pelo acrônimo OLAP (OnLine Analytical Processing) eles são BDs construídos com o propósito de receber periodicamente cargas de dados provenientes dos OLTP e prover, assim, um ambiente rápido de consultas analíticas. A principal diferença entra estes dois tipos de bancos é a estrutura do modelo pois, nos BDs OLAP, os dados são armazenados como fatos e dimensões, sendo a dimensão tempo praticamente obrigatória.

A análise de dados é feita, geralmente, por especialistas do domínio, que conhecem intimamente os dados. Mesmo assim, a grande quantidade desses dados atrapalha muito o reconhecimento de padrões ao longo do tempo e a interpretação dos mesmos esta intimamente ligada ao comportamento de séries temporais. Uma abordagem a resolução deste problema foi feita na tese de mestrado da Elisa Kaneda. Ela tentou identificar e eliminar elementos das dimensões que fossem irrelevantes para a análise através de distâncias entre as séries temporais extraídas do Data Warehouse. A principal limitação desta abordagem é que a escolha dos níveis de corte era feita baseada em parâmetros definidos a priori pelos usuários.

A proposta deste trabalho é, baseado no trabalho de mestrado da Elisa, tentar uma nova abordagem de redução do volume de informações. Ao invés de tentar eliminar elementos dimensões vamos tentar agrupar em classes aqueles que tem comportamento semelhante ao longo das séries temporais extraídas. A quantidade de classes poderá ser determinada pelo usuário, mas também pretende-se determinar um número ótimo das mesmas baseado na distância entre as classes.

Objetivos
  • Desenvolver algoritmo de redução de cardinalidade de dimensões de forma univariada.
  • Determinar boas medidas de distância e agrupamento para o domínio de doação de sangue (REDS).
  • Fazer testes do algoritmo e tirar conclusões sobre os resultados.
Atividades já realizadas
  • Leituras sobre bancos de dados multidimensionais
  • Leituras sobre séries temporais
  • Leitura da tese de mestrado de Elisa Kaneda, em que se baseia meu trabalho.
  • Pesquisa para encontrar um bom algoritmo de agrupamento de séries temporais.
Cronograma de atividades
Atividade Jun Jul Ago Set Out Nov Dez
Implementação: leitura da entrada xx
Implementação: cálculo das classes xx
Encontrar e implementar alguns bons algoritmos de cálculo de distâncias e de agrupamento xx
Implementação: devolução da resposta xx
Estudo de caso para escolher bons valores de distância e de agrupamento para o domínio de doação de sangue (REDS) xx
Análise e conclusões do estudo de caso xx

Estrutura esperada da monografia
  1. Resumo
  2. Introdução
    1. Contextualização
    2. Organização do trabalho
  3. Fundamentos
    1. Banco de Dados Multidimensionais
    2. Séries Temporais
      1. Escolha de distâncias e método de agrupamento
      2. Agrupamento de séries temporais
  4. O algoritmo
    1. Descrição
    2. Implementação
  5. Estudo de caso: REDS II
    1. Escolha de distâncias e método de agrupamento
    2. Análise dos resultados
  6. Parte Subjetiva

Preliminar

Com o intuito de que os alunos não ficassem sem fazer nada até faltar 1 mês para entregar o TCC, o professor responsável pediu para fazer uma entrega preliminar do trabalho em 19/09/2011. rsrs. Aí está tudo o que eu tinha até então. =P

preliminar.tar.gz

Monografia

Ponteiro para o pdf da minha monografia. =D

monografia.pdf

Código

Um pacote tar.gz com o código feito e as imagens geradas.

codigo.tar.gz