Zertifizierung-Hortonworks [c r e s c e n t]

Zertifizierung-Hortonworks

Published: ⏰ 2017-09-17 (Last Modified: 2017-09-22)

Ich habe vor Kurzem eine PrÃ¼fung von Hortonworks gemacht und bestanden. In diesem Eintrag wollte ich erzÃ¤hlen, wie ich die Zertifizierung erfolgreich bekommen habe.

Badge

Was ist Hortonworks?

Hortonworks bietet ein Platform namens HDP fÃ¼r Hadoop-Ã–kosystem. Das Platform kann man als eine Linux-Distribution betrachten. Also man kann auf Hadoop basierte Applikationen wie Spark verwenden, sobald man das Platform installiert.

HDP ist sehr nÃ¼tzlich wenn man ein Hadoop-Cluster machen wollte. Ein Cluster besteht aus mehrere Computer. Um dieselbe Applikation auf mehrere Computer problemlos in Betrieb zu nehmen, musste die Umgebung jedes Computers vereint werden. Wenn ein Cluster aus 10 Computer besteht, muss man auf 10 Computer Hadoop installieren und die nÃ¶tigen Umgebungsvariablen richtig einstellen. Das ist wirklich anstrengend. Deshalb installiert man HDP auf das Cluster.

Warum Zertifizierung?

Es geht um die Analyse von Massendaten. Man braucht irgendeinen Trick, um die Daten zu analysieren, die in mehreren Computer verteilt sind. MapReduce ist die bekannteste LÃ¶sung davon und Hadoop ist eine Implementation von MapReduce. Apache Pig und Apache Hive sind Frameworks, die uns ermÃ¶glichen, effektiv durch Hadoop (MapReduce) verteilte Daten zu analysieren. Die Zertifizierung garantiert vor allem die FÃ¤higkeiten fÃ¼r Benutzung von Pig und Hive.

Obwohl MapReduce eine einfache Idee ist, muss man viel lernen, um die verteilten Daten zu analysieren.

Die PrÃ¼fung fÃ¼r die Zertifizierung

Eigentlich gibt es 5 Sorte Zertifizierungen fÃ¼r Hortonworks. Die erste Zertifizierung, HDPCD, ist was ich diesmal bekommen habe. Die Ziele kann man auf dieser Seite finden. Die Punkten, die man verstehen muss, sind richtig viel.

Die Zeitdauer der PrÃ¼fung betrÃ¤gt zwei Stunden. Aber da die PrÃ¼fung komplett online ist, braucht man etwas lÃ¤nger fÃ¼r die ÃœberprÃ¼fung der Umgebung. Also man muss selbst zum Beispiel einen Raum fÃ¼r die PrÃ¼fung vorbereiten und durch Webcam Ã¼berprÃ¼fen, dass man nicht mogelt.

Ein Ãœbungsmaterial wird auf AWS angeboten. Wer die Zertifizierung wollte, solltest sich unbedingt an die Umgebung gewÃ¶hnen. Das liegt daran, dass man mehrere Skripts darauf schreiben muss.

Vorbereitung auf die PrÃ¼fung

Analyse von Massendaten ist ein der wichtigsten Themen in Data Science. Deshalb habe ich vor knapp zwei Jahren Hadoop-Ã–kosystem mehr oder weniger gelernt. Ich habe nÃ¤mlich einen bekannten Onlinekurs besucht. Im Kurs wird die Grundlage von MapReduce und Apache Pig erklÃ¤rt. NatÃ¼rlich habe ich einige Videos des Kurses noch einmal gesehen.

In Tutorialpoint gibt es kurze EinfÃ¼hrung zu den Themen fÃ¼r die Zertifizierung: Pig, Hive, Sqoop und Flume. Sie sind zwar teilweise veraltet, aber hilfreich. AuÃŸer dem Kurse habe ich nur Tutorium und einige offizielle Dokumentationen gelesen und die funktionierenden kleinen Beispiele gesammelt.

NatÃ¼rlich habe ich das offizielle Ãœbungsmaterial gemacht.

Ãœbungsmaterial

Darauf kann man 10 Aufgaben versuchen, die Ã¤hnlich wie die aktuellen PrÃ¼fungsaufgaben sind. Die PrÃ¼fungsumgebung ist Linux (Ubuntu): man schreibt ein Skript mit gedit and fÃ¼hrt es auf Bash aus. Man kann sofort finden, dass die Umgebung sehr unangenehm ist, sobald man das Ãœbungsmaterial versucht. Deshalb denke ich, dass ich mich unbedingt an die Umgebung gewÃ¶hnen sollte. DafÃ¼r habe ich ungefÃ¤hr $20 bei AWS ausgegeben.

(Eigentlich habe ich andere knapp $20 bezahlt, weil ich vergessen habe, eine Instanz zu stoppen.)

Meine Erfahrung bei der PrÃ¼fung

Weil ich das ausfÃ¼hrliche Inhalt der PrÃ¼fung nicht erzÃ¤hlen darf, schreibe ich nur allgemeine Hinweise darauf.

Die Anmeldung fÃ¼r die PrÃ¼fung war einfach. Aber man sollte beachten, dass ein ruhiger Raum ohne anderen Personen und schnelle Internet-Verbindung zur VerfÃ¼gung stehen. Bevor der PrÃ¼fung muss man Ã¼berprÃ¼fen, dass die verlangten Bedingungen erfÃ¼llt sind.

Bei der PrÃ¼fung wird Google-Chrome zu einer VNC-Anwendung. Also es scheint, als ob Linux auf einem Webbrowser funktionieren wÃ¼rde. Aber man sollte immer beachten, dass man auf Chrome arbeitet. Das liegt daran, dass Chrome irgendein Keybind wie Ctrl-D reagiert. Vor allem ist "Ctrl-T" fatal, da es verboten ist, ein neues Tab zu Ã¶ffnen.

Die Aufgaben sind nicht kompliziert. Das kann man finden, sobald man das offizielles Ãœbungsmaterial macht. Die Grundlage fÃ¼r die genannten Applikationen, nÃ¤mlich Pig, Hive, Flume und Sqoop, ist gefragt. Aber trotzdem ist die PrÃ¼fung nicht einfach, weil man Skripts ausfÃ¼hren muss.

Normalerweise ist ein Ablauf eines MapReduce-Jobs sehr langsam, auch wenn die zu verarbeitenden Daten klein sind. Ein Ablauf dauert manchmal lÃ¤nger als eine Minute. Was wÃ¤re, wenn man ein Skript ohne Syntax-Fehler aber mit einem logischen Fehler. Man muss abwarten, bis das AusfÃ¼hren ablÃ¤uft. Danach Ã¼berprÃ¼ft man, ob das Ergebnis die verlangten Bedingungen erfÃ¼llt. Sobald man einen Fehler findet, korrigiert man das Skript und fÃ¼hrt es aus. Noch einmal wartet man ab und Ã¼berprÃ¼ft das Ergebnis.... Da die Umgebung anderes als die Ã¼brige Umgebung ist, macht man Ã¶fter einen Tippfehler. Dann muss man sorgfÃ¤ltig eine sehr lange Fehlermeldung lesen, um herauszufinden, wo es einen Fehler gibt.

Das ist sehr nervig. Deshalb ist es sehr wichtig, sich an die PrÃ¼fungsumgebung zu gewÃ¶hnen. Sonst hat man bei der PrÃ¼fung Panik.

Ãœbrigens kann man bei der PrÃ¼fung nur offizielle Dokumentationen lesen. Deshalb ist es wichtig zu verstehen, wo welche Information steht. Zum Beispiel kann man die ErklÃ¤rung von HCatalog von Pig in der Dokumentation von Hive finden, nicht von Pig.

Share this page on

Categories: #data-mining