Redactie - 16 december 2016

Big Data in de cloud, wat zijn de mogelijkheden?

In elke organisatie is er wel sprake van een vorm van Big Data verzameling. Een stukje analytische software voor het achterhalen van een Root Cause Analyse, meten wat het succes is van de laatste marketingactiviteit of mailing, of wellicht wordt er al getest met een Hadoop of Enterprise search applicatie. Grote kans dat er op een server binnen uw organisatie Big Data–achtige software staat geïnstalleerd waarmee iemand aan de slag is.

Er is een heuse trend ontstaan dat bijna elke “Big Data” softwareleverancier wel met een cloudapplicatie of abonnement op de markt is gekomen. In dit artikel ga ik hier verder op in en kunt u een overzicht verwachten van de in mijn ogen beste Big Data softwareapplicaties die in de cloud af te sluiten zijn.

Big Data, wat was dit ook al weer?
De voortdurende toename van data en gedetailleerdheid van gegevens die zijn vastgelegd door organisaties, wordt momenteel versneld door nieuwe inzichten vanuit social media, Internet of Things (IoT) en multimedia. Dit alles blijft er de komende jaren nog wel voor zorgen dat er een blijvende dan wel versnelde stroom van gestructureerde en ongestructureerde data beschikbaar komt. Dit geheel noemen wij big data. Big data wordt gekenmerkt door drie aspecten:

  • de gegevens zijn talrijk,
  • de gegevens kunnen niet (gemakkelijk) worden onderverdeeld in reguliere relationele databases, en
  • de gegevens worden gegenereerd, opgeslagen en dienen snel te worden verwerkt.

Keuze voor een platform
Big data zorgt er momenteel voor dat we grote transformaties zien binnen de gezondheidszorg, wetenschap, techniek, financiële sector en uiteindelijk ook in onze samenleving. De vooruitgang in zowel de opslag van gegevens en verwerkende technologieën zorgen ervoor dat organisaties anders met hun data zullen omgaan. Onder andere de snelheid waarmee de nieuwe gegevens worden gegenereerd is onthutsend en zorgt tegelijkertijd voor vernieuwde inzichten. Deze veranderingen de baas blijven is een behoorlijke uitdaging voor onderzoekers en IT-afdelingen. Met name doordat IT-budgetten krimpen en er tekorten (kunnen) ontstaan aan computerkracht of opslagcapaciteit. Door voor een cloudplatform te kiezen, is groei en schaalbaarheid wel mogelijk tegen minimale voorinvestering of abonnementsgelden.

COMPAREX-Big-Data-Classification.png

Big Data in de cloud
Cloud computing is één van de belangrijkste verschuivingen in de moderne ICT, die met name voor zakelijke toepassingen is uitgegroeid tot een krachtige, flexibele en schaalbare infrastructuur. Mits bij de juiste provider afgesloten, profiteert u van alle voordelen van de cloud: gevirtualiseerde resources, parallelle dataverwerking, de state-of-the-art beveiliging en data-integratiemogelijkheden die u in een handomdraai toevoegt. Een ander belangrijk aspect van cloud computing is het optimaliseren van de kosten en leveren van efficiënt beheer en goede controle op gebruikerstoegang.

Big Data cloudplatformen
Er zijn vele cloudleveranciers zoals Bluemix (IBM) en Azure (Microsoft) die een volledige omgeving bare-metal kunnen opleveren. Handig voor het migreren van uw huidige big data test- en acceptatie-omgevingen, of om de big data oplossingen te installeren. Omdat de installatie van de producten handmatig door uzelf gedaan moet worden, net zoals op uw on-premises omgevingen, spreken we hier over een andere vorm van “big data in de cloud”. Binnen Azure is het overigens wel mogelijk om enkele Big Data plug-ins in een handomdraai te installeren. Voorbeelden hiervan zijn Elastic search, Cloudera, de koppeling met Tableau Online en Splunk.

Op dit zijn moment zijn Machine Learning, Enterprise Search en Analytics populaire onderwerpen in het Big Data landschap en daar kunt u in het volgende alinea’s meer over lezen: het beste uit de cloud!COMPAREX-Elastic-Stack.png

ELK stack
Elastic StackElastic search is een bijzonder krachtige opensource zoekintelligentie die gestructureerde en ongestructureerde gegevens bruikbaar maakt. Hierdoor kunt u intelligenter zoeken, meer waarde creëren of nieuwe dienstverleningen baseren op logging en analytics. Elastic is in staat om u met Elastic search, Logstash, Kibana (kort genoemd de ELK-stack) een compleet big data platform te bieden dat met maar één doel ontworpen is: alle gegevensbronnen van elke bron te nemen en in real-time te doorzoeken, te analyseren en te visualiseren.

Dit Big Data platform is nu volledig beschikbaar in de cloud en kunt u gedurende 14 dagen gratis uitproberen. Elastic maakt gebruik van AWS (Amazon)

Tableau Analytics
Wilt u eenvoudig en snel visualisaties ontwikkelen om tot betere inzichten of rapportages te komen waarmee u indruk maakt? Kijk dan eens naar Tableau. Tableau Software zorgt voor inzicht in (en visualisatie van) uw big data. Op dit moment is Tableau populair vanwege het gebruiksgemak (Click-Click-and-you-go) tableau-logo.png en het interessante licentiemodel.

U kunt Tableau gratis proberen, of u kunt gebruikmaken van de Reader versie.

Splunksplunk-logo.png
Applicaties, servers en tegenwoordig nog veel meer IoT-devices binnen uw IT-infrastructuur genereren een continue stroom aan waardevolle data. Met Splunk kunt u van deze, voor het oog haast onzichtbare, data snel tot duidelijke inzichten komen voor security trends, aanvallen van buitenaf en binnenuit(!). Maar ook voor IT-infrastructuurbeheer en root cause analyses.

Gegevens staan vaak verspreid over de verschillende afdelingssilo’s met elk hun eigen data warehouse. Splunk indexeert data van elke applicatie, server of IoT-device en stelt u onafhankelijk van het type bron of dataformaat in staat om vanaf één locatie in realtime te zoeken, te analyseren en de samenhang te onderzoeken. Meer informatie over Splunk kunt u hier vinden.

Cloudera
Cloudera-logo.png Er zijn verschillende Hadoop distributies, waarvan Cloudera er één is, die op dit moment volledig vanuit de cloud te leveren zijn. In Cloudera’s Hadoop kunt u zowel uw gestructureerde (relationele database-omgeving) als nieuwe ongestructureerde data laten samenkomen.

U bouwt dan als het ware een compleet nieuwe Big Data (warehouse) omgeving waar u met verschillende talen, tooling en applicaties kunt gaan zoeken om tot nieuwe inzichten en analyses te komen. Hier is meer informatie te vinden over Cloudera. Cloudera draait naar keuze op AWS, Google Cloud Platform of Azure.

Overige oplossingen
Naast de hierboven genoemde producten zijn er uiteraard (veel) meer oplossingen waarover wij u kunnen adviseren. Neem hiervoor contact met mij op.

Samenvatting
In dit artikel heb ik enkele software-oplossingen de revue laten passeren die op dit moment bijzonder populair zijn in de markt vanwege hun kracht, eenvoud of voordelige licentie-/abonnement modellen. Voor open source producten geldt doorgaans dat deze zo te downloaden en te gebruiken zijn. Extra functionaliteiten – vaak in de vorm van plug-ins – vallen in de regel onder jaarlijkse abonnementsvorm.

Alle genoemde software-oplossingen zijn uiteraard ook on-premise binnen uw eigen datacenter te gebruiken. Cloud is een mogelijkheid, maar absoluut geen verplichting. Houdt u wel in gedachten dat uw Big Data omgeving behoorlijk snel kan groeien qua benodigde processorkracht of opslagcapaciteit. In de cloud hoeft u hier geen investeringen voor te doen en betaalt u voor gebruik. Wilt u opschalen? Dat kan dit binnen enkele minuten. En zijn enkele databronnen later toch niet meer nodig, dan schaalt u gemakkelijk ook weer af. Uiteraard tegen lagere kosten.

Meer informatie en advies nodig?
Heeft u interesse in een van de genoemde software-oplossingen, dan kunt u de prijzen soms online vinden. Maar ik adviseer u contact met ons op te nemen. Voor sommige oplossingen zijn de kosten voor u lastig of niet te vinden en hebben wij hier wel inzage in.

Dat geldt ook voor oplossingen die ik niet heb benoemd zoals van Spark, Redhat, SynerScope, HortonWorks, MapR en IBM Qradar. Neem direct contact met mij op via remco.toele@comparex.nl of telefonisch via 06-30418249. Ik zie graag uw bericht tegemoet.

Door: Remco Toele, Solution Advisor Big Data & Analytics bij COMPAREX

Nutanix BW start 6 mei - 20 mei
Nutanix BN start 6 mei - 20 mei