mgm Hadoop

Performante Massendatenverarbeitung
 
In der modernen IT fallen immer mehr Daten an. Deshalb müssen geschäftskritische Anwendungen heute riesige Datenmengen im Terabyte-Bereich verarbeiten können. Diese fallen einerseits im Tagesgeschäft an. Additiv müssen nicht selten historische Daten berücksichtigt werden.
Die verwendeten Datenbanken erlauben jedoch im Terabyte-Bereich häufig keine oder nur sehr kostenintensive Verarbeitungsmöglichkeiten.

mgm technology partners hat für dieses Problem eine Lösung geschaffen, die eine effiziente Speicherung und Datenverarbeitung mit Echtzeitzugriffen auf solche riesigen Datenbestände erlaubt. Sie beruht auf einer Integration von Solr in ein Hadoop-Cluster. In unseren Projekten wird diese Lösung eingesetzt, um beispielsweise für die ELSTER Anwendungslandschaft mehr als 15 Terabyte Logmeldungen mit einem täglichen Datenwachstum von 20GB zu verwalten.

Hadoop ist ein (open-source) Software-Framework, das Yahoo! basierend auf Konzepten von Google entwickelt hat. Hadoop kann kostengünstige Standard-Hardware effizient in einem Cluster verwalten und dann darin Daten performant verarbeiten.

mgm technology partners hat die Hadoop-Software mit Apache Solr als Suchkomponente ergänzt. Solr ist nämlich in der Lage, verteilte Suchindizes über riesige Datenmengen (z. B. in einem Hadoop-Cluster) aufzubauen und so eine Echtzeitsuche zu ermöglichen.

Hadoop eignet sich immer dann zur Problemlösung, wenn die folgenden Punkte zutreffen:
Datenmengen im Terabyte-Bereich
Flache Datenstrukturen ohne Relationen
Keine Notwendigkeit für Transaktionen
 
 
Referenzen
Bayerisches Landesamt für Steuern
eGovernment implementiert – Erfolgreiche Umsetzung der Anforderungen eines eGovernment Portals.

Gesellschaft für Konsumforschung (GfK)
Realisierung einer Echtzeitsuche (Solr) zur Analyse gespeicherter Massendaten im Bereich Konsumentenverhalten
 
 
Links

 

 
Zusatzinformationen