Auswertung von Filesystemmetadaten mit Elasticsearch and Kibana: Difference between revisions

From Lsdf
Jump to navigationJump to search
(Created page with "= Beschreibung = = Aufgaben = * research existing algorithms for allocation in combinatorial auctions = Anforderungen = * good knowledge of C++ and Python * some theoretica...")
 
No edit summary
 
(5 intermediate revisions by 2 users not shown)
Line 1: Line 1:
= Beschreibung =
= Beschreibung =


Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem GPFS [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet. Für den Betrieb, die Planung und Verwaltung der Filesysteme ist besonders im Bereich der LSDF eine regelmäßige Auswertung der Metadaten der abgelegten Files notwendig. Es handelt momentan um die Metadaten von ca. 500 Millionen Files. Zu den Metadaten gehören unter anderem die Zeitpunkte des Fileanlegens, des letzten Filezugriffs und die pseudomymisierten Eigentümerinformationen.


Das GPFS Filesystem bietet die Möglichkeit die Metadaten aller Files sehr schnell auszulesen. Diese Metadaten werden regelmäßig ausgelesen (Dumps) und sollen zur Auswertung in einer Elasticsearch Datenbank [1] gespeichert werden.
= Aufgaben =
* research existing algorithms for allocation in combinatorial auctions


Ziel des Praktikums ist es , ein System zu entwickeln, um den zeitlichen Verlauf verschiedener Metriken (z.B. letzter Filezugriff) unter verschiedenen Gesichtspunkten (z.B. im Bezug auf das Alter eines Files) über mehrere Dumps hinweg ermitteln zu können. Eine Visualisierung soll mit Kibana erfolgen.
= Anforderungen =

* good knowledge of C++ and Python
= Voraussetzungen =
* some theoretical computer science background or machine learning knowledge would be a plus
* Grundkenntnisse in der Nutzung von Elasticsearch und Kibana sind hilfreich aber nicht zwingend.


= References =
= References =
: [0] [http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System]
: [1] [http://elastic.co http://elastic.co]
: [2] [https://www.elastic.co/de/products/kibana https://www.elastic.co/de/products/kibana]


= Contact =
= Ansprechpartner =
[mailto:andreas.petzold@kit.edu Andreas.Petzold@kit.edu]
[mailto:andreas.petzold@kit.edu Andreas.Petzold@kit.edu]

Latest revision as of 17:53, 27 March 2017

Beschreibung

Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem GPFS [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet. Für den Betrieb, die Planung und Verwaltung der Filesysteme ist besonders im Bereich der LSDF eine regelmäßige Auswertung der Metadaten der abgelegten Files notwendig. Es handelt momentan um die Metadaten von ca. 500 Millionen Files. Zu den Metadaten gehören unter anderem die Zeitpunkte des Fileanlegens, des letzten Filezugriffs und die pseudomymisierten Eigentümerinformationen.

Das GPFS Filesystem bietet die Möglichkeit die Metadaten aller Files sehr schnell auszulesen. Diese Metadaten werden regelmäßig ausgelesen (Dumps) und sollen zur Auswertung in einer Elasticsearch Datenbank [1] gespeichert werden.

Ziel des Praktikums ist es , ein System zu entwickeln, um den zeitlichen Verlauf verschiedener Metriken (z.B. letzter Filezugriff) unter verschiedenen Gesichtspunkten (z.B. im Bezug auf das Alter eines Files) über mehrere Dumps hinweg ermitteln zu können. Eine Visualisierung soll mit Kibana erfolgen.

Voraussetzungen

  • Grundkenntnisse in der Nutzung von Elasticsearch und Kibana sind hilfreich aber nicht zwingend.

References

[0] http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System
[1] http://elastic.co
[2] https://www.elastic.co/de/products/kibana

Ansprechpartner

Andreas.Petzold@kit.edu