What You Will Learn!
- Visualização para explorar resultados de consultas de diferentes perspectivas
- Construção de gráficos e Dashboards
- Unificação de dados em diversos formatos: texto, JSON, PARQUET, dentre outros
- Trabalhada por administrador da plataforma, analista de dados, cientista de dados e engenheiro de dados com diversas funcionalidades
- Aprendizado processamento distribuído em SPARK
- Entendo o que é Databricks File System (DBFS) seu sistema de arquivos
- Entendo sobre Cluster
- Aprendendo a gerenciar e criar Notebooks em R, SCALA, Python e SQL
- Executando scripts multilinguagens
- Gerenciando a ingestão de dados e análise de dados, gerando gráficos e dashboards
- Construindo na versão community Databricks
- Trabalhando com a biblioteca dbutils Python
- Integrando o Databricks ao Power BI
- O que é PYSPARK
- O que é SPARK
- Instalando o SPARK em um ambiente Windows, configurando
- Instalando o ANACONDA
- Instalando a JDK
- Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
- Entendendo o conceito de NÓ, CLUSTER
- Conhecendo os módulos e pacotes do PYSPARK
- O que é SparkContext
- Entendo o que é RDD (Resilient Distributed Dataset)
- Trabalhando com Spark Dataframe
- Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
- Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
- Aprendendo o que é uma função Lambda
- Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
- Monitoramento de jobs com SPARK UI
- O que é SparkSession
- Leitura de arquivos externos
- SPARK SQL
- Leitura de dados em JSON
- Elasticsearch sobre o seu mecanismo criado para análise de dados e busca
- Entender como é realizada a combinação de muitos tipos de buscas — estruturadas, não estruturadas
- Compreender Elasticsearch usa APIs RESTful e JSON padrão
- Aprendizado sobre Elasticsearch, Logstash e Kibana
- Elasticsearch banco de dados NoSQL
- Logstash ferramenta para ingestão de dados
- Kibana ferramenta para criação de visualização de dados e Dashboards
- Canvas utilizado para criação de infográficos, documentos e projetos gráficos com os dados
- Compreender sobre como são armazenados os documentos
- Entender a estrutura JSON de armazenamento
- Entender sobre índices, tipos de documentos, documentos e campos
- Entendimento do que são shards, conhecimento sobre partição de índices, conhecimento sobre réplica de shards
- O que é um NÓ
- Como utilizar e o que significa um Request Body
- Como funciona a busca URI
- Trabalhando com as aplicações Discover, Viazualize
- Entendo sobre Apache Nifi, uma plataforma de ingestão de dados
- Entendo sobre o gerenciamento e a automatização do fluxo de dados
- Entendendo sobre coleta de dados, transmissão de dados, armazenamento de dados
- Ecossistema NiFi: Repositórios, controle de fluxo, máquina JVM, extensões
- O que é Flow File
- O que é um Processor
- O que é um Fluxo de Dados
- O que é uma conexão
- O que é um grupo de processor
- Aprendendo sobre a barra de componentes
- Aprendendo sobre a barra de controle navegação
- Aprendendo sobre a barra de operação
- Desenvolvimento de diversos fluxos de dados
- Extensões: Putfile, Getfile, ExtractText, SplitText
- Extensões: EvaluateXpath, UpdateAttribute, GenerateFlowFile
- Extensões: RouteOnAttribute, SplitXML, LogMessage, LogAttibute
- Extensões: MergeContent, ReplaceText, CompressContent
- Uso de Input Port, Funil e Process Group
- O que é Hop Orchestration Platform
- Entendendo sobre fluxos de trabalho e pipelines
- Entendendo sobre projetos e ambientes
- Instalação do APACHE HOP
- Criando pipelines com arquivos texto
- Realizando tratamento de dados para entendimento do processo de engenharia de dados
- O que são transformações, links e ações dentro de um pipeline
- Construindo um workflow, orquestrador da sequência das operações
- Entendendo o HOP GUI e seus componentes
- Entendendo menu barras, principal e perspectivas
- Criando sua área de projetos
- Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
- Entendendo o que é : View output, Preview output , Debug output
- Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
- Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
- Construindo Workflow com execução de pipelines
- Entendo o uso de variáveis globais no APACHE HOP
- Automatização de pipeline ou workflow pelo HOP-RUN
- Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
- Instalação de banco de dados Postgresql, usando PGAdmin
- Entendendo a arquitetura chamada Lakehouse sobre o Data Lake no Databricks
- Construindo Delta Lake com processamento em batch, streaming em lote
- Controle de transações sobre os dados, como um banco de dados
- Trabalhando com características ACID (Atomicidade, Consistência, Isolamento, Durabilidade) ao Delta Lake
- Entendendo versionamento dos dados, permite que os dados sejam acessados e revertam para versões anteriores de dados, controle de históricos
- Uso das fases de ingestão, refinamento e enriquecimento dos dados
- Diferenças das arquiteturas Data Lake x Delta Lake
- Aprendendo como otimização dos processos de coleta e tratamento dos dados, reduzindo o tempo de processamento e descartando o que não for útil
- Trabalhando a criação de tabelas Delta e como gerar históricos de dados
- Trabalhando com cluster, DBFS, Notebook em R, Scala, Pyhton e SQL
- Delta Time Travel como retornar versões de dados e comandos de controle
- Controle de auditoria, agindo na conformidade de dados quanto de depuração simples para entender como os dados mudaram ao longo do tempo
- Executando reversões nos dados, evitando duplicação e realizando refinamento, ajustes, atualizações e exclusões dos dados
- Executando scripts batch e streaming
- Entendo o que significa checkpoint e controle de gravações dos dados no Delta Lake
- Trabalhando com Schema Evolution na inclusão de atributos as tabelas delta
- TRIFACTA: Suporte para todas as principais nuvens, Google, AWS, Azure e on-premise
- TRIFACTA: Perfilização de dados, ajudando na identificação de outliers
- TRIFACTA: Tratamento de dados, criação de novos campos, dentre outras tarefas
- TRIFACTA: Eliminação de dados nulos, inconsistências, criação de novos campos
- TRIFACTA: Construção, implantação e automatização de pipelines de dados
- TRIFACTA: Action com os dados: Columns, Rename, Sort, Calculate, Group By, Filter Rows, Replace
- TRIFACTA: Preparação de dados aberta que pode se conectar a diversas fontes de dados
- TRIFACTA: Decida entre ETL ou ELT, ou uma combinação ideal dos dois com base no desempenho
- TRIFACTA: Engenharia de dados com low-code, visual, direto na nuvem
- TRIFACTA: Criação de flow de dados, que permite ao analista encadear suas ações de tratamento
- PENTAHO PDI:O que é o Pentaho PDI
- PENTAHO PDI:Entendendo sobre fluxos de trabalho e pipelines
- PENTAHO PDI:Entendendo sobre projetos e ambientes
- PENTAHO PDI:Instalando o Pentaho PDI
- PENTAHO PDI:Criando pipelines com arquivos texto
- PENTAHO PDI:Realizando tratamento de dados para entendimento do processo de engenharia de dados
- PENTAHO PDI:O que são transformações, Jobs e ações dentro de um pipeline
- PENTAHO PDI:Construindo um workflow com Jobs, orquestrador da sequência das operações
- PENTAHO PDI:Entendendo os menus principais e o seu GUI e seus componentes
- PDI:Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output, Row Normaliser
- PENTAHO PDI:Entendendo como podem ser depurados os dados via output, logs
- PENTAHO PDI:Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail
- PENTAHO PDI:Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
- PENTAHO PDI:Construindo Workflow com execução de pipelines
- PENTAHO PDI:Entendo o uso de variáveis globais no PENTAHO PDI
- PENTAHO PDI:Automatização de pipeline ou workflow
- PENTAHO PDI:Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
- PENTAHO PDI:Instalação de banco de dados Postgresql, uso do PGAdmin
- PENTAHO PDI:Automatização de JOBs e Transformações com o Kitchen e Pan
- PENTAHO PDI:Construção do projeto de dados a sua escolha e correção com o uso do Pentaho PDI
- KNIME:Conceitos fundamentais de integração de dados
- KNIME:Apresentação da interface do KNIME
- KNIME:Manipulação e limpeza inicial dos dados
- KNIME:Uso de nós de transformação para ajuste de formatos
- KNIME:Utilização de APIs para agregar informações adicionais
- KNIME:Entendendo a arquitetura de dados no KNIME
- KNIME:O que são Nós, finalidade, instalação e reaload
- KNIME:Como funciona um workflow e quais são as formas de construção
- KNIME:Quais são os principais status dos Nós
- KNIME:Nós: CSV FILTER, COLUMN FILTER, ROW AGGREGATOR,ROW FILTER,SORTER,RANK
- KNIME:Nós: EXCEL READER, EXCEL WRITER, JOINER, RULE ENGINER, STRING MANIPULATION
- KNIME:Nós: WEBPAGE RETRIEVER, XPATH, INTERACTIVE TABLE, TABLE CREATOR, GET REQUEST
- KNIME:Nós: JSON PATH, DB CONNECTOR, DB QUERY READER
- KNIME:Instalação do postgres
- KNIME:Manipulando dados em banco de dados
- KNIME:Exportando Workflow
- KNIME:Importando Workflow
- KNIME:Webscraping em site com KNIME
Description
A Super Academia Engenharia de Dados é um super projeto que reúne as ferramentas mais utilizadas para quem deseja ser um engenheiro de dados. Aqui será possível aprender detalhes sobre temas que estão sendo utilizados nas grandes empresas de todo o mundo. Você aprenderá e discutirá sobre CLUSTER, SPARK, DATABRICKS, PYTHON, R, SCALA, SQL, NÓS, CONFIGURAÇÃO E INSTALAÇÃO DE SPARK, ELASTICSEARCH, KIBANA, LOGSTASH, APACHE HOP, KNIME, TRIFACTA e muito mais.
O nosso treinamento é completo e conta com uma gama grande de exercícios, vários scripts para prática e apostila. A ideia é que você tenha um book de atividades que capacite você e o faça entender termos e assuntos amplamente vistos no mercado de trabalho.
Então vamos lá, começaremos pelo espetacular APACHE HOP, falou em APACHE é coisa muito boa, aqui o engenheiro de dados realmente saberá o que fazer, é um canivete suiço em suas mãos, dentre as principias funcionalidades está a integração e tratamento de dados. A ferramenta é 100% visual, isso mesmo, sem código, você montará os chamados pipelines e workflows para construção de projetos que envolvam (operações de banco de dados, higienização de bases, incremento e retirada de campos, ajustes em conteúdos, preparação de jobs de carga, dentre outras tarefas).
Em seguida, vamos trabalhar com umas das mais incríveis ferramentas da área de engenharia de dados que é muito utilizada pelos profissionais de Ciência de Dados, estamos falando do KNIME. O KNIME oferece uma plataforma intuitiva e poderosa para a integração de dados, permitindo que profissionais construam fluxos de trabalho eficazes. Sua capacidade de lidar com diversas fontes, transformar dados e garantir qualidade coloca os usuários em posição estratégica para enfrentar desafios complexos na engenharia de dados.
Depois iremos mergulhar no nosso DATABRICKS, um fabuloso ecossistema na nuvem, que reúne tudo que você precisa para analisar dados.
Você aprenderá a criar um cluster para execução dos seus dados, entenderá sua configuração, aprenderá a criar scripts em linguagens como R, SCALA e SQL, construirá gráficos e dashboards, tudo isso em um mesmo notebook de atividades, isso mesmo, o DATABRICKS é uma das poucas ferramentas de mercado que fazem multicodificação.
Ainda não terminou o DATABRICKS, vamos trabalhar no que há de mais moderno nele o DATABRICKS DELTA LAKE, realmente incrível o controle de transações dos arquivos parquet como se fossem banco de dados e ultrarrápido, super fácil de trabalhar e de controlar, você aprenderá a utilizar o Time Travel para que possa trazer versões dos dados em diversos momentos, sem ficar preocupado com baixa de arquivos volumosos, é a evolução do DATABRICKS.
Agora vamos aprender a tratar dados de uma forma nunca vista com uma ferramenta 100% visual da ALTERIX os usuários podem importar dados de diversas fontes, incluindo arquivos, bancos de dados, aplicativos e dispositivos móveis. Ele permite aos usuários visualizar e explorar seus dados com facilidade, identificando e corrigindo problemas de dados, como duplicatas, valores ausentes e erros de digitação.
Além disso, a ferramenta possibilita aos usuários transformar seus dados de acordo com suas necessidades, com recursos como agregação, junção, filtragem e normalização. Os usuários também podem criar e salvar fluxos de trabalho personalizados, reutilizá-los em projetos futuros e automatizar tarefas de limpeza de dados.
E também tem o ETL mais famosos e utilizado no mundo o PENTAHO PDI, que lhe ajudará a construir pipelines para integração e ingestão de dados com diversos componentes visuais, onde você poderá utilizar fontes de dados variadas e realizar o tratamento de informações para transformá-las em insights úteis para as empresas.
Outra vantagem é aprender a trabalhar com o Alterix Trifacta com sua capacidade de integração com outras ferramentas de análise e inteligência artificial, permitindo que os usuários importem seus dados limpos e estruturados.
Depois entraremos no mundo do SPARK, você instalará do zero o SPARK e suas aplicações e logo em seguida partirá para a construção de scripts em PySpark, tudo muito direto e hands on. Você aprenderá conceitos novos sobre coleção de dados em RDD e DATAFRAME em ambientes distribuídos. É uma das linguagens mais utilizadas no momento.
Já com uma gama muito grande de conhecimento sobre o mundo SPARK e DATABRICKS, vamos iniciar nos projetos de ingestão de dados com o uso do NiFi, produto que trabalha na construção de fluxo de dados. É uma ferramenta múltipla, com grande liberdade para que você construa o que precisa e deseja, é aqui que os pipelines são feitos e você poderá entender como o streaming trabalha.
Ao final vamos conhecer o ambiente do ELASTICSEARCH, um colossal ecossistema que reuni ferramentas de ingestão de dados (LOGSTASH), ferramentas de manipulação de dados (DSL), ferramentas de visualização de dados (KIBANA) e tudo isso trabalhando em um banco de dados No SQL, não é demais!
A Super Academia Engenharia de Dados tem ainda muito mais, exercícios diversos, apostila com comandos, uma séria de scripts que preparam você para entender este mundo BIG DATA.
Então venha hoje mesmo e comece seu treinamento, estamos lhe esperando.
Who Should Attend!
- Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados
TAKE THIS COURSE