Doelgroep Cursus Data Analyse met PySpark
De cursus Data Analyse met PySpark is bedoeld voor developers en aankomende Data Analisten die Apache Spark willen leren gebruiken vanuit Python.
Voorkennis training Data Analyse met PySpark
Om aan deze cursus deel te nemen is kennis enige ervaring met programmeren bevorderlijk voor de begripsvorming. Voorafgaande kennis van Python of big data handling met Apache Spark is niet nodig.
Uitvoering cursus Data Analyse met PySpark
De theorie wordt behandeld aan de hand van presentaties. Illustratieve demo’s worden gebruikt om de behandelde concepten te verduidelijken. Er is voldoende gelegenheid om te oefenen en afwisseling van theorie en praktijk. De cursustijden zijn van 9.30 tot 16.30.
Certificering cursus Data Analyse met PySpark
De deelnemers krijgen na het goed doorlopen van de cursus een officieel certificaat Data Analyse met PySpark.
Cursus Data Analyse met PySpark
In de cursus Data Analyse met PySpark leren de deelnemers Apache Spark vanuit Python te gebruiken. Apache Spark is een Framework voor parallelle processing van big data. Met PySpark wordt Apache Spark geïntegreerd met de Python taal. Aan de orde komt de architectuur van Spark, de Spark Cluster Manager en het verschil tussen Batch en Stream Processing. Na een bespreking van het Hadoop Distributed File System wordt ingegaan op parallelle operaties and het werken met RDD’s, Resilient Distributed Datasets. De configuratie van PySpark applicaties via SparkConf en SparkContext komt eveneens aan bod. Uitgebreid wordt ingegaan op de mogelijke operaties op RDD’s waaronder map en reduce. Ook komt het gebruik van SQL in Spark aan de orde. De GraphX library wordt besproken en er wordt ingegaan op DataFrames. Verder komen iteratieve algoritmen aan de orde. Tenslotte wordt aandacht besteed aan machine learning met de Mlib library.