Difference between revisions of "Auswertung von Filesystemmetadaten mit Elasticsearch and Kibana"

From Lsdf
 
(3 intermediate revisions by 2 users not shown)
Line 1: Line 1:
 
= Beschreibung =
 
= Beschreibung =
  +
Das GPFS Filesystem [0] bietet die Möglichkeit die Metadaten aller Files sehr schnell auszulesen. Diese Metadaten werden regelmäßig ausgelesen (Dumps) und sollen zur Auswertung in einer Elasticsearch Datenbank [1] gespeichert werden. Dafür soll ein System entwickelt werden, um den zeitlichen Verlauf verschiedener Metriken mittels Kibana [2] über mehrere Dumps hinweg ermitteln zu können.
 
  +
Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem GPFS [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet. Für den Betrieb, die Planung und Verwaltung der Filesysteme ist besonders im Bereich der LSDF eine regelmäßige Auswertung der Metadaten der abgelegten Files notwendig. Es handelt momentan um die Metadaten von ca. 500 Millionen Files. Zu den Metadaten gehören unter anderem die Zeitpunkte des Fileanlegens, des letzten Filezugriffs und die pseudomymisierten Eigentümerinformationen.
  +
  +
Das GPFS Filesystem bietet die Möglichkeit die Metadaten aller Files sehr schnell auszulesen. Diese Metadaten werden regelmäßig ausgelesen (Dumps) und sollen zur Auswertung in einer Elasticsearch Datenbank [1] gespeichert werden.
  +
  +
Ziel des Praktikums ist es , ein System zu entwickeln, um den zeitlichen Verlauf verschiedener Metriken (z.B. letzter Filezugriff) unter verschiedenen Gesichtspunkten (z.B. im Bezug auf das Alter eines Files) über mehrere Dumps hinweg ermitteln zu können. Eine Visualisierung soll mit Kibana erfolgen.
   
 
= Voraussetzungen =
 
= Voraussetzungen =
Line 10: Line 15:
 
: [2] [https://www.elastic.co/de/products/kibana https://www.elastic.co/de/products/kibana]
 
: [2] [https://www.elastic.co/de/products/kibana https://www.elastic.co/de/products/kibana]
   
= Contact =
+
= Ansprechpartner =
 
[mailto:andreas.petzold@kit.edu Andreas.Petzold@kit.edu]
 
[mailto:andreas.petzold@kit.edu Andreas.Petzold@kit.edu]

Latest revision as of 17:53, 27 March 2017

Beschreibung

Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem GPFS [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet. Für den Betrieb, die Planung und Verwaltung der Filesysteme ist besonders im Bereich der LSDF eine regelmäßige Auswertung der Metadaten der abgelegten Files notwendig. Es handelt momentan um die Metadaten von ca. 500 Millionen Files. Zu den Metadaten gehören unter anderem die Zeitpunkte des Fileanlegens, des letzten Filezugriffs und die pseudomymisierten Eigentümerinformationen.

Das GPFS Filesystem bietet die Möglichkeit die Metadaten aller Files sehr schnell auszulesen. Diese Metadaten werden regelmäßig ausgelesen (Dumps) und sollen zur Auswertung in einer Elasticsearch Datenbank [1] gespeichert werden.

Ziel des Praktikums ist es , ein System zu entwickeln, um den zeitlichen Verlauf verschiedener Metriken (z.B. letzter Filezugriff) unter verschiedenen Gesichtspunkten (z.B. im Bezug auf das Alter eines Files) über mehrere Dumps hinweg ermitteln zu können. Eine Visualisierung soll mit Kibana erfolgen.

Voraussetzungen

  • Grundkenntnisse in der Nutzung von Elasticsearch und Kibana sind hilfreich aber nicht zwingend.

References

[0] http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System
[1] http://elastic.co
[2] https://www.elastic.co/de/products/kibana

Ansprechpartner

Andreas.Petzold@kit.edu