Introductie tot Data Engineering

Een efficiënte stroom van data van één locatie naar een ander – bv van een bestaande Business applicatie naar een Rapporteringsomgeving – is één van de meeste kritische operaties binnen een huidig data-gedreven bedrijf. Tenslotte, nuttige data analyse kan niet beginnen totdat de data beschikbaar is.

Duurtijd
  • Onbekend
Locatie
  • Nog niet beschikbaar
Kenmerken opleiding
  • Kortlopende opleidingen
  • Bijscholing
Bespaar op je opleiding
  • kmo-portefeuille
  • opleidingscheques

Op het eind van deze opleiding kan je zelf een end-to-end datastroom die dagelijks wordt uitgevoerd, creëren en implementeren. Je zal leren hoe je op een consistente en herhaalbare manier data kan binnenhalen uit diverse bronnen. Vervolgens zal je leren hoe je data pipelines moet structureren gebruik makend van PySpark jobs. We sluiten af met de inplanning van uw volledige datastroom. Er zal ook veel aandacht besteed worden aan geautomatiseerde testing en in-productiename (deployment) zodat snelle iteraties mogelijk zijn.

Doelgroep

Het begrijpen van de stroom van een Python-programma is een must voor deze cursus. Men moet bekend zijn met basisbegrippen zoals variabelen en functies. Statistieken zijn niet belangrijk voor deze cursus. De concepten van datapijplijnen en termen als "ingest", "environment" en "snapshot" helpen je te begrijpen waar een engineeringteam zich bevindt bij het vrijgeven van nieuwe software. 

Kennis van Python en basiskennis is noodzakelijk

Cursusmateriaal is in het Engels

Deze opleiding wordt gegeven ism DataMinded en het online platform DataCamp. U dient zelf een persoonlijke account bij DataCamp aan te maken. De kostprijs voor een Datacamp abonnement is ongeveer 54 Euro voor 2 maanden (zie https://www.datacamp.com/pricing).

De opleiding zal gespreid worden over 6 weken. De opleiding zal starten met een kick-off sessie waarbij er uitleg gegeven worden over de opzet van de cursus en over het werken met DataCamp. De cursist doorloopt het cursus-materiaal zelf thuis via het online platform van DataCamp (bestaande uit video-content en een online oefenplatform). Tijdens de klassikale momenten (onder begeleiding van DataMinded), zal de content besproken worden en zullen er gezamelijke oefeningen gedaan worden. Tijdens de laatste 2 weken van de opleiding zal er een project uitgewerkt worden waarbij alle aangeleerde technieken worden toegepast. Via een Team community kunnen cursisten contact houden met hun docenten.

 

Chapter 1:​ The data pipeline and gathering all your data (data ingestion)

  • Lesson 1.1: ​Components of a data platform / data pipeline
    Learning Objective: ​Learners will be able to describe the components of a data platform/pipeline
  • Lesson 1.2: ​Introduction to data ingestion with singer.io
    Learning Objective: ​Learners will be able to configure an existing tap and target for data ingestion
  • Lesson 1.3: ​Running an ingestion pipeline
    Learning Objective: ​Learners will be able to implement a basic ingestion pipeline, run it in a virtual environment and prepare for deployment

 

Chapter 2:​ Build your data pipeline

  • Lesson 2.1: ​Basic introduction into pySpark (sql)
    Learning Objective: ​Learners will be able to decide when using Spark is the right choice
    Learning Objective: ​Learners will be able to load data into Spark (dataframe/dataset)
  • Lesson 2.2: ​Cleaning data
    Learning Objective: ​Learners will be able to change data types and deal with missing or unknown data. Additionally, they will get acquainted with Spark’s functionality
  • Lesson 2.3: ​Transforming data
    Learning Objective: ​Learners will be able to leverage Spark to transform large amounts of data
  • Lesson 2.4: ​Packaging your application
    Learning Objective: ​Learners will be able to produce a deployable software artifact for Spark

 

Chapter 3:​ Test your data pipeline

  • Lesson 3.1: ​On the importance of tests
    Learning Objective: ​Learners can explain the necessity of tests in production grade code. Additionally, they will be able to estimate the quality of pipelines and review them Learning Objective: ​Learners can classify the different kinds of tests
  • Lesson 3.2: ​Testing your logic
    Learning Objective: ​Learners will be able to write and run unit tests with pytest
  • Lesson 3.3: ​Continuous testing
    Learning Objective: ​Learners will be able to configure automated testing using CircleCI

 

 

 

Chapter 4:​ Schedule and deploy your data pipeline

  • Lesson 4.1: ​Introduction to workflow management and scheduling with apache airflow
    Learning Objective: Learners will be able to create a simple DAG
  • Lesson 4.2: ​Building the data pipeline with Apache Airflow
    Learning Objective: ​Learners will be able to create a DAG that combines ingest and transformations
  • Lesson 4.3: ​Deploying the data pipeline
    Learning Objective: ​Learners will be able to extend the automated testing with automated deployment of the DAG`
  • Genk T2-campus

Leer programmeren met Python

€495.00 €409.09
  • Genk T2-campus

HackCamp – Vue.js

€1497.00 €1237.19
  • Genk T2-campus

UiPath Bootcamp: leer software robots bouwen

€1490.00 €1231.40