Trilhas: Ciências de Dados e Aprendizado de Máquina

A cada sessenta segundos, mais de 500 horas de novos vídeos são armazenados no youtube (1). Aproximadamente 164 milhões de horas de vídeo são transmitidas no Netflix diariamente (2). No Brasil, estima-se que há mais de 342 milhões de dispositivos portáteis (como celulares, tablets e notebooks) em uso(3) e a Internet é acessível em mais de 90% dos domicílios brasileiros(4). De fato, 7 de cada 10 transações bancárias no país são feitas por canais digitais(5), o que explica o investimento de mais de R$ 45 bilhões feito pelos bancos em tecnologia em 2023(6)

Essa abundância de dados, facilidade de acesso a informações e o aumento do poder computacional que temos presenciado nas últimas décadas, impulsionou também o campo de Aprendizado de Máquina. As modernas redes neurais, tratadas em um campo de conhecimento genericamente denominado de Deep Learning, estão se destacando pela sua capacidade de processar dados complexos e não estruturados como imagens, vídeo, áudio e texto em linguagem natural, sendo capazes também de integrar duas ou mais modalidades desses dados. Por exemplo, o ChatGPT permite realizar pesquisas mais refinadas que as atuais páginas de busca como o Google. Outros exemplos são o TimeGPT que realiza predições em séries temporais com uma acurácia bastante alta, o que pode se tornar útil na área financeira e o DALL-E, que permite criar ilustrações detalhadas a partir de descrições textuais.

A trilha de Ciência de Dados e Aprendizado de Máquina procura preparar a próxima geração de profissionais que possam liderar iniciativas nos setores público e privado no Brasil, disseminando métodos de descoberta de conhecimento fortemente baseados em dados para o benefício da sociedade. 

 

Ao concluir a trilha, espera-se que cada aluna(o) seja capaz de responder perguntas baseadas em dados dos mais diversos tipos. Por exemplo, baseado no histórico bancário, quanto cada pessoa poderia receber de crédito? Com os dados de aplicativos de GPS, seria possível identificar motoristas mais propensos a se envolver em acidentes de trânsito? Baseado no estilo de vida e dados clínicos, quais doenças cada pessoa estaria propensa a desenvolver nos próximos cinco anos? Seria possível prever o comportamento da bolsa de valores, ou os resultados de eleições ou motins  a partir de dados de redes sociais?

Parte recomendada: Além disso, também é recomendado que procure um orientador de TCC na área de Ciências de Dados (que pode ser seu tutor). Os dois elegem um tema comum para o TCC e pelo menos duas disciplinas relacionadas com o tema escolhido, que devem ser cursadas pelo aluno. Os possíveis temas incluem áreas de aplicação (e.g., Bioinformática, Economia, Administração, Mecatrônica, Imagens Médicas, Engenharia de Software, Computação Musical, Astronomia, Análise Esportiva, etc.), assim como áreas de fundamento (e.g., aprendizado computacional, processamento de sinais e imagens, morfologia matemática). 

 

A trilha requer que se curse obrigatoriamente a disciplina MAC0460 – Introdução ao Aprendizado de Máquina e ao menos mais 6 disciplinas distribuídas nos seguintes blocos:

Disciplina obrigatória:
SiglaNome da disciplina
MAC0460Introdução ao Aprendizado de Máquina

Pelo menos uma disciplina de Processamento de sinais:

. . .MAC0317 Introdução ao Processamento de Sinais ou
MAC0417 Visão e Processamento de Imagens

Pelo menos uma disciplina de Sistemas:

. . .MAC0219 Programação Concorrente e Paralela ou
MAC0431 Introdução à Computação Paralela e Distribuída

Pelo menos uma disciplina de Banco de Dados:

. . .MAC0459 Ciência e Engenharia de Dados ou

MAC0426 Sistemas de Bancos de Dados ou

MAC0439 Laboratório de Banco de Dados

Pelo menos uma disciplina de Otimização:

. . .MAC0315 Otimização Linear ou
MAC0325 Otimização Combinatória ou
MAC0427 Otimização não-Linear

Pelo menos uma disciplina de Probabilidade e Estatística dentre estas:

. . .MAE0312 Introdução aos Processos Estocásticos ou
MAE0228 Noções de Probabilidade e Processos Estocásticos ou
MAE0580 Introdução à Aprendizagem Estatística ou
MAE0221 Probabilidade I
Além dessas disciplinas o aluno deve optar pela realização de mais 1 (UMA) disciplina, seja entre as já apresentadas acima ou dentre as disciplinas recomendadas para complementar a formação, no IME ou em outras unidades

Pelo menos duas disciplinas de áreas de aplicação:

SiglaNome da disciplina
MAC0337Introdução à Computação Musical
MAC0341Introdução à Bioinformática
MAC0351Algoritmos em Bioinformática
MAC0331Geometria Computacional
MAC0375Biologia de Sistemas
MAC0420Introdução à Computação Gráfica
MAC0425Inteligência Artificial
MAC0446Princípios de Interação Homem-Computador
MAC0459Ciência e Engenharia de Dados
MAC0468Tópicos em Computação Gráfica
MAE0515Introdução à Teoria dos Jogos

Também são válidas as disciplinas das outras trilhas do BCC – IME – USP.

 

SiglaNome da disciplina
CMU0449Tecnologia Musical
CMU0529Fundamentos da Acústica Musical I
CMU0530Fundamentos da Acústica Musical II
IPN0007Redes Neurais Artificiais na Engenharia Nuclear
PCS2057Multimídia e Hipermídia
PCS3438Inteligência Artificial
PMR3508Reconhecimento de Padrões e Visão Computacional
PSI2432Projeto e Implementação de Filtros Digitais
PSI2672Práticas em Reconhecimento de Padrões, Modelagem e Neurocomputação
PSI3461Métodos Matriciais em Reconhecimento de Padrões
PSI3501Processamento de Voz e Aprendizagem de Máquina
PSI3560Sistemas Cognitivos
PSI3571Práticas em Reconhecimento de Padrões, Modelagem e Inteligência Computacional
PTC3569Introdução à Inteligência Computacional

O IME-USP possui contato com parceiros de outras unidades da USP e instituições. Pode-se buscar disciplinas de outras áreas para complementar a formação do aluno em outras áreas de aplicação. Nosso departamento tem histórico de colaboração com várias unidades da USP, onde nossos estudantes têm cursado disciplinas:

ECA-USP
EEFE-USP
FM-USP
IAG-USP
IO-USP
IQ-USP
POLI-USP

Outras instituições:

ITA
FGV