18 september, 2016

Visualisatie en data preparatie

Een Hadoop cluster heeft in de vorm van Zeppelin Notebooks een prima interface voor Data Scientists en Data Engineers om toepassingen te ontwikkelen of data te exploreren en prepareren. In een notebook kunnen alle hulpmiddelen van de cluster door elkaar gebruikt worden, waarbij de output van een voorgaande stap kan worden bewerkt in een volgende. Ook eenvoudige visualisaties zijn flexibel weer te geven, zie hieronder.

notebookzeppelin

Gespecialiseerde visualisatie hulpmiddelen zijn in grote getale ontwikkeld voor laptops en desktop computers vanuit de BI wereld. Daarbij worden uitstekende grafische mogelijkheden gecombineerd met gebruiksgemak, waardoor deze hulpmiddelen meestal geschikter zijn voor de inzet bij eindgebruikers. Ook bij ontwikkelaars en Data Scientists vinden dergelijke hulpmiddelen echter toepassing. Via adapters zijn de meeste BI visualisatie tools aan te sluiten op een Hadoop cluster voor het intensieve rekenwerk.

Een aantal voorbeelden van deze tools worden hieronder gegeven:

  • rapidminerwRapid Miner, een hulpmiddel specifiek voor Data Scientists en geavanceerde eindgebruikers om visueel een ontwerp te maken van een data verwerkingsproces, dat daarna met grotere snelheid kan worden uitgevoerd op een Hadoop cluster. Als adapter is het hulpmiddel Radoop beschikbaar, dat de koppeling legt tussen Rapid Miner en Hadoop.
  • KNIME, een Open Source tegenhanger van Rapid Miner, waarmee dezelfde mogelijkheden beschikbaar komen voor een lagere prijs.
  • Tableau, een hulpmiddel om op eenvoudige wijze grafische representaties van data te maken. Zowel geschikt voor de eindgebruiker als ontwikkelaar. Tableau kan ook gekoppeld aan een Hadoop cluster worden ingezet, hetgeen specifieke configuratie vereist.
  • QlikView, een voorloper van Tableau, waarmee eveneens aantrekkelijke grafische representaties kunnen worden gemaakt van data door eindgebruikers en ontwikkelaars. Ook hierbij de mogelijkheid van een adapter naar Hadoop.
  • SAS, met van oudsher bekende statistische verwerkingen als centrale spil met daaraan gekoppeld goede grafische voorzieningen voor het publiceren van resultaten. M.b.v. een adapter kan ook SAS worden gekoppeld aan Hadoop.
  • Trifacta, een hulpmiddel dat is toegespitst op het prepareren van data, waarbij Hadoop kan worden ingezet om massale verwerkingen middels map/reduce uit te voeren. Trifacta is een “Data-wrangling tool”. Het is gespecialiseerd in het opschonen op een eenvoudige en intuïtieve manier van data bestanden en daarin attributen te kunnen toevoegen en verwijderen of de inhoud ervan aanpassen. Hieronder een afbeelding van hoe Trifacta zichzelf positioneert:trifacta-datawranglerinfographic
  • Voor data preparatie wordt ook vaak MongoDB ingezet. Eigenlijk een document georiënteerde NoSQL database, die zich echter voor eenvoudige preparatie van grote gegevensbestanden heel goed leent. Als er geen intensief rekenwerk noodzakelijk is kan MongoDB voldoende zijn om hele grote data hoeveelheden te verwerken zonder Hadoop cluster. Een koppeling met een Hadoop cluster kan echter ook gemaakt worden.
  • Datameer, een hulpmiddel met een grotere scope van zowel data wrangling als visualisatie die op een centraal punt is samengebracht en aan te sluiten op de massieve rekenkracht van Hadoop. Vele aspecten van de Hadoop cluster zijn daarbij op centrale wijze in te stellen.

Wellicht heeft u een bestaande licentie voor een of meerdere tools die u wilt gebruiken in combinatie met de rekencapaciteit van een Hadoop cluster. U kunt op ons rekenen om deze mogelijkheden voor u te ontsluiten.