16 september, 2016

Hadoop clusters

Voor het verwerken van BigData is veel opslag en rekencapaciteit nodig. Omdat meestal de hoeveelheid data groot is, die moet worden verwerkt, is parallelle verwerkingscapaciteit nodig om de doorlooptijd te bekorten. Zelfs als het gaat om relatief eenvoudige bewerkingen.

hadooplogo

Voor dit doel zijn Hadoop clusters ontwikkeld. Deze maken het mogelijk om de grote hoeveelheid in delen te splitsen en per deel rekencapaciteit in te zetten om de data te bewerken. Hadoop clusters maken gebruik van een andere reken paradigma, dat bekend staat onder de naam Map/Reduce. De bewerkingen zelf zijn meestal relatief eenvoudig en door het splitsen van de data over verschillende nodes in een netwerk kunnen enorme versnellingen worden bereikt in het bewerken van grote hoeveelheden data.

Spark

Bij statistische bewerkingen speelt nog een ander issue. Zelfs als de hoeveelheid data niet overweldigend groot is, kan de verwerkingstijd voor conventionele ICT hulpmiddelen te groot zijn. Ook dan is behoefte aan het parallelliseren van bewerkingen, maar met het grote verschil, dat de algoritmen meestal zodanig gecompliceerd zijn, dat er ook per node een flinke rekencapaciteit en geheugen omvang beschikbaar moet zijn om versnellingen in de verwerkingstijd te behalen. Voor dit doel is Spark ontwikkeld.

 

dao-infograph

 

Een Hadoop cluster is een voortreffelijk hulpmiddel om uw Data Warehouse te voorzien van geconsolideerde data. Een Hadoop cluster is in staat de snelle datastromen te accepteren, te bewerken en aan complexe berekeningen te onderwerpen in real-time. De geconsolideerde informatie kunt u dan kwijt in uw EDW.

Een Standaard Hadoop Cluster omvat tegenwoordig zowel de oorspronkelijke Hadoop technologie als de (nieuwere) Spark technologie. Beide soorten verwerkingen vragen echter om verschillende configuraties van de Hadoop cluster. Een eenvoudige Map/Reduce bewerking voor veel data heeft een groot aantal nodes nodig met relatief bescheiden CPU capaciteit en geheugen om de grootst mogelijke versnelling te bereiken. Bij een Statistische bewerking met Spark is er meestal sprake van minder data, maar moeten de nodes in het cluster wel van voldoende CPU’s en geheugen zijn uitgerust.

modern_data_applications

Met Hortonworks HDP 2.5 en HDF komt er structuur in uw data. Data in beweging wordt geconsolideerd in HDF en direct geïnterpreteerd. Het resultaat wordt opgeslagen in HDP in een (NoSQL) database of binnen HDFS. Beide zijn fout-tolerant. Vanuit HDP kan historisch inzicht worden verkregen in de samenhang van uw data.

De Hadoop clusters die wij leveren kunnen in een groot aantal formaten en configuraties worden samengesteld. Op onze bestelpagina kunt u lezen hoe het bestelproces in zijn werk gaat. In de online winkel kunt u de door u gewenste configuratie naar eigen inzicht samenstellen. De product pagina’s van de Hadoop clusters helpen u bij het maken van keuzes. De online winkel laat slechts een aantal voorbeelden van mogelijke configuraties zien. Afhankelijk van specifieke behoeften kunnen andere configuraties betere resultaten opleveren. Het voordeel van de standaard configuraties is dat u snel aan de slag kunt. U kunt achteraf altijd snel veranderingen doorvoeren.

Uiteraard kunt u met uw vragen bij ons terecht en wij helpen u graag om de voor u best passende oplossing samen te stellen.