Performante Massendatenverarbeitung
In der modernen IT fallen immer mehr Daten an. Deshalb müssen geschäftskritische Anwendungen heute riesige Datenmengen im Terabyte-Bereich verarbeiten können. Diese fallen einerseits im Tagesgeschäft an. Additiv müssen nicht selten historische Daten berücksichtigt werden.
Die verwendeten Datenbanken erlauben jedoch im Terabyte-Bereich häufig keine oder nur sehr kostenintensive Verarbeitungsmöglichkeiten.
mgm technology partners hat für dieses Problem eine Lösung geschaffen, die eine effiziente Speicherung und Datenverarbeitung mit Echtzeitzugriffen auf solche riesigen Datenbestände erlaubt. Sie beruht auf einer Integration von Solr in ein Hadoop-Cluster. In unseren Projekten wird diese Lösung eingesetzt, um beispielsweise für die ELSTER Anwendungslandschaft mehr als 15 Terabyte Logmeldungen mit einem täglichen Datenwachstum von 20GB zu verwalten.
Hadoop ist ein (open-source) Software-Framework, das Yahoo! basierend auf Konzepten von Google entwickelt hat. Hadoop kann kostengünstige Standard-Hardware effizient in einem Cluster verwalten und dann darin Daten performant verarbeiten.
mgm technology partners hat die Hadoop-Software mit Apache Solr als Suchkomponente ergänzt. Solr ist nämlich in der Lage, verteilte Suchindizes über riesige Datenmengen (z. B. in einem Hadoop-Cluster) aufzubauen und so eine Echtzeitsuche zu ermöglichen.
Hadoop eignet sich immer dann zur Problemlösung, wenn die folgenden Punkte zutreffen:
Datenmengen im Terabyte-Bereich
Flache Datenstrukturen ohne Relationen
Keine Notwendigkeit für Transaktionen