14 september, 2016

Hands-on Hadoop

hadooplogo

Korte introductie HDP

Hortonworks is de meest toegankelijke distributie van Hadoop. De gehele software is open source en het verdienmodel van Hortonworks zit in het verlenen van support en advies diensten rondom deze distributie. De toevoeging van Ambari maakt het leven van de gebruikers gemakkelijker om de Big Data cluster te gebruiken.

De workshop HDP introductie is bedoeld voor ontwikkelaars, administrators en data scientist om kennis te maken met de distributie en via een aantal opgaven wegwijs te raken in het gebruik ervan. De workshop duurt een dag.

In de workshop passeren een groot aantal onderdelen de revue, die stapsgewijs in een aantal Lab sessies worden samengevoegd tot een complete toepassing: Het real-time volgen van de prestaties van een vloot vrachtauto’s via IoT sensor data en het bepalen van risico factoren. De risico factoren worden vervolgens gerapporteerd in een grafische vorm.

Doel van de workshop

Het doel van de workshop is bekend te raken met de basis beginselen van:

  • Hadoop in de vorm van Hortonworks HDP distributie
  • Ambari File User Views en HDFS
  • Ambari Hive User Views en Apache Hive
  • Ambari Pig User Views en Apache Pig
  • Zeppelin als workbench
  • Analyse met Apache Spark
  • Data Visualisatie met Excel

Deelnemers dienen hun eigen laptop mee te nemen. Vanuit deze laptop wordt een verbinding gemaakt met een HDP cluster in de cloud.

Het programma:

  1. Introductie van het HDP 2.5 eco-systeem: Een korte inleiding op wat Hadoop is, wat er in zit en waarom het zo’n grote vlucht neemt.
  2. Lab 0: Voorbereiding voor het hands-on gedeelte: Verbinding maken met de Hadoop clusters in de cloud via ssh en de browser. Iedere cursist krijgt toegang tot een Hadoop cluster.
  3. Lab 1: Het laden van data in HDFS
  4. Lab 2: Hive en Data ETL
  5. Lab 3: Risico factor analyse met PIG
  6. Lab 4: Data rapporteren
  7. Evaluatie van de workshop

Vereisten aan de laptop

Omdat er gebruik wordt gemaakt van een Hadoop cluster in de cloud zijn de eisen aan de laptop heel bescheiden:

  1. Een browser, bij voorkeur Firefox, maar de meeste andere werken ook wel.
  2. Een ssh koppelingsmogelijkheid. Voor windows kan het open source pakket Putty worden gedownload en geinstalleerd via http://www.chiark.greenend.org.uk/~sgtatham/putty/download.html
  3. Er zal voortdurend met 2 windows worden gewerkt: de browser en een ssh client
  4. Voor het uitvoeren van de data visualisatie dient er een Excel op de laptop geinstalleerd te zijn (Excel versie 2013 Professional Plus). Tijdens de workshop wordt een ODBC driver geinstalleerd op de laptop om Excel te koppelen met de HDP cluster.

Een Virtualbox image is beschikbaar van de gebruikte cluster. Deze kan worden geïnstalleerd op de laptop om het thuis of op het werk nog eens door te nemen.