Der Kurs bietet eine erste Heranführung an Big Data-Themen. Dabei werden zwei Hauptthemenbereiche angerissen:
Business Intelligence
Die Erzeugung und Auswertung von Analysedaten aus operativen Datenbeständen: Erstellen eines multidimensionalen Würfels (›Cube‹). Dieser Würfel wird dann einerseits mit OLAP ad hoc ausgewertet (›Browsen‹) und zum zweiten aus den Daten des Data Warehouse (DWH) im Sinne eines gezielten, proaktiven Marketings, anhand der vorhandenen Daten über bestehende Kunden eine Vorhersage getroffen, welche Empfänger aus einer zugekauften Adressliste mit größter Wahrscheinlichkeit ein Fahrrad kaufen würden (›Data Mining‹).
Dazu dient die AdventureWorksDW-Datenbank, die als Beispiel für ein Data Warehouse fungiert und auf der die Beispiele abgearbeitet werden können.
Eine virtuelle Maschine kann zur Verfügung gestellt werden, die alle nötigen Komponenten vorinstalliert hat.
Hadoop
Der zweite Kursteil betrifft das Big Data Ökosystem ›Apache Hadoop‹ mit Hadoop und seinem Dateisystem HDFS sowie dem Dienst Yarn selbst, einerseits. Darauf wird ein MapReduce Prozess aufgesetzt, der ein Problem verteilt abarbeitet. Zum anderen werden ausgewählte Produkte aus dem Ökosystem einführend vorgestellt, wie Hbase und Hive.
Ziel des gesamten Kurses ist es, erste Einblicke und Eindrücke zu verschaffen, eine Vorstellung zu entwickeln, worum es sich bei Big Data handelt. Ziel ist es nicht, Expertenstatus in einem der genannten Gebiete zu erlangen!
Verwendete Software:
MS SQL Server Analysis Services
Visual Studio Data Tools
Multidimensionales Projekt
AdventureWorksDW
Hadoop
HBase
Hive
ev. Pig, Sqoop & Spark
Über den Autor:
Matthias Wolf ist seit über 30 Jahren selbständig im IT-Bereich und erstellt und betreut vornehmlich Client/Server-Datenbanksysteme und allgemeine Softwareentwicklungen. Er begleitet und berät Kunden bei Eigenprojekten und übernimmt Netzwerkbetreuungen. Außerdem unterrichtet Wolf diese Themen auch seit über 20 Jahren an 2 österreichischen Fachhochschulen und ist Honorarprofessor (FH).