As competições de Ciência de Dados como aquelas postadas na plataforma Kaggle são uma ótima maneira de testar as habilidades adquiridas em cursos iniciais, e ainda aprender novas habilidades necessárias para resolver problemas reais. Entretanto, fazer essa transição entre um ambiente educacional e aquele que encontramos no Kaggle, que imita os desafios que devemos encontrar no mercado de trabalho, tende a ser um degrau muito grande, pois a natureza dos dados e dos problemas propostos aumenta de complexidade num nível que os cursos básicos não contemplam.
Pensando nisso, este curso tem o objetivo de preencher essa lacuna na formação dos cientistas de dados, mostrando detalhadamente como abordar os desafios, passando pelas fases de exploração e tratamento de dados, escolha de abordagem de solução, construção de um modelo, treinamento e validação. O entendimento desse processo é o primeiro passo para que os competidores possam desenvolver melhorias e começar sua escalada rumo ao topo dos rankings.
Neste curso focaremos em duas das principais tarefas da aprendizagem de máquina não supervisionada: agrupamento e associação
Com relação ao agrupamento, vamos trabalhar com uma base de dados do jogo FIFA Soccer 2019 e usar as características técnicas de cada jogador, juntamente com a altura e peso para agrupá-los em um perfil técnico. Investigaremos as relações entre estes perfis e as posições originais dos jogadores utilizando o algoritmo k-means e a biblioteca sklearn
No que se refere a associação, vamos explorar o extenso conjunto de dados Instacart Market Basket Analysis com mais de 3 milhões de transações de supermercado, compreendendo uma enorme variedade de produtos de diferentes departamentos. Faremos a geração de regras de associação com base em duas coleções de dados: hábitos de compra (dia e hora, intervalo entre pedidos) e associação de produtos (quais produtos tendem a ser vendidos juntos). Usaremos duas abordagens: na primeira vamos usar a biblioteca apyori para geração das regras, enquanto que na segunda faremos a implementação do zero do algoritmo apriori!
Vamos desenvolver todos os códigos utilizando a linguagem Python linha por linha com o Google Colab, de forma que você entenda todas as análises necessárias para participar dessas competições!
454
70
TAKE THIS COURSE