Auswertung von Filesystemmetadaten mit Elasticsearch and Kibana: Difference between revisions

From Lsdf
Jump to navigationJump to search
Line 1: Line 1:
= Beschreibung =
= Beschreibung =

Das GPFS Filesystem [0] bietet die Möglichkeit die Metadaten aller Files sehr schnell auszulesen. Diese Metadaten werden regelmäßig ausgelesen (Dumps) und sollen zur Auswertung in einer Elasticsearch Datenbank [1] gespeichert werden. Dafür soll ein System entwickelt werden, um den zeitlichen Verlauf verschiedener Metriken mittels Kibana [2] über mehrere Dumps hinweg ermitteln zu können.
Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem GPFS [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet. Für den Betrieb, die Planung und Verwaltung der Filesysteme ist besonders im Bereich der LSDF eine regelmäßige Auswertung der Metadaten der abgelegten Files notwendig. Es handelt momentan um die Metadaten von ca. 500 Millionen Files. Zu den Metadaten gehören unter anderem die Zeitpunkte des Fileanlegens, des letzten Filezugriffs und die pseudomymisierten Eigentümerinformationen.

Das GPFS Filesystem bietet die Möglichkeit die Metadaten aller Files sehr schnell auszulesen. Diese Metadaten werden regelmäßig ausgelesen (Dumps) und sollen zur Auswertung in einer Elasticsearch Datenbank [1] gespeichert werden.

Ziel des Praktikums istes , ein System zu entwickeln, um den zeitlichen Verlauf verschiedener Metriken (z.B. letzter Filezugriff) unter verschiedenen Gesichtspunkten (z.B. im Bezug auf das Alter eines Files) über mehrere Dumps hinweg ermitteln zu können. Eine Visualisierung soll mit Kibana erfolgen.


= Voraussetzungen =
= Voraussetzungen =

Revision as of 17:49, 27 March 2017

Beschreibung

Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem GPFS [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet. Für den Betrieb, die Planung und Verwaltung der Filesysteme ist besonders im Bereich der LSDF eine regelmäßige Auswertung der Metadaten der abgelegten Files notwendig. Es handelt momentan um die Metadaten von ca. 500 Millionen Files. Zu den Metadaten gehören unter anderem die Zeitpunkte des Fileanlegens, des letzten Filezugriffs und die pseudomymisierten Eigentümerinformationen.

Das GPFS Filesystem bietet die Möglichkeit die Metadaten aller Files sehr schnell auszulesen. Diese Metadaten werden regelmäßig ausgelesen (Dumps) und sollen zur Auswertung in einer Elasticsearch Datenbank [1] gespeichert werden.

Ziel des Praktikums istes , ein System zu entwickeln, um den zeitlichen Verlauf verschiedener Metriken (z.B. letzter Filezugriff) unter verschiedenen Gesichtspunkten (z.B. im Bezug auf das Alter eines Files) über mehrere Dumps hinweg ermitteln zu können. Eine Visualisierung soll mit Kibana erfolgen.

Voraussetzungen

  • Grundkenntnisse in der Nutzung von Elasticsearch und Kibana sind hilfreich aber nicht zwingend.

References

[0] http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System
[1] http://elastic.co
[2] https://www.elastic.co/de/products/kibana

Ansprechpartner

Andreas.Petzold@kit.edu