Die Aufgabe
Der Online-Shop eines großen Internet-Versandhändlers wird jeden Tag von mehreren Millionen Menschen besucht. All diese Menschen generieren Suchanfragen, Spuren ihrer Navigation und Kaufvorgänge. Die Informationen darüber legte unser Kunde bislang größtenteils in relationalen Datenbanken ab. Diese sind jedoch nicht auf solch große Menge unstrukturierter Rohdaten aus dem e commerce ausgelegt – und die Lizenzkosten der Datenbanken sind enorm hoch. Ziel unseres Kunden war es deshalb, eine Datenbanklösung zu konzipieren, die für diese Anwendung optimal geeignet ist.
Der Mehrwert
Durch die Umstellung auf die neue Hadoop Plattform können nun sehr große Mengen an Rohdaten ausfallsicher und performant-abfragbar gespeichert werden. Darüber wurden mit dieser Lösung die Betriebs- und Hardwarekosten der Datenhaltung massiv gesenkt.
Die Lösung
Im Fokus stand von vornherein eine kommerzielle Hadoop Distribution, da dieses System für Unternehmen mit enormen Datenaufkommen die beste Performance bietet. Mit der richtigen Version des Frameworks sicherten wir den Support bei Problemfällen im alltäglichen Betrieb, mittels eines geeigneten Abfragetools wurde den Nutzern der Umstieg auf das neue System leicht gemacht.
Auf Basis von Testdaten und Abfragen wurden die Distributionen und Tools von WidasConcepts miteinander verglichen und hinsichtlich Handling, Performance und Stabilität überprüft. Zusätzlich evaluierten wir das Dateiformat Parquet für das sinnvolle Speichern der Dateien. In Kooperation mit den Fachbereichen wurden schließlich alle Wünsche an die neue Plattform von uns ausgewertet und entsprechend der Zielsetzung berücksichtigt.
Die eingesetzten Technologien
Cloudera CDH, MapR Hadoop