Auswertung von Filesystemmetadaten mit Elasticsearch and Kibana: Difference between revisions
No edit summary |
No edit summary |
||
(4 intermediate revisions by 2 users not shown) | |||
Line 1: | Line 1: | ||
= Beschreibung = |
= Beschreibung = |
||
⚫ | Das GPFS Filesystem |
||
Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem GPFS [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet. Für den Betrieb, die Planung und Verwaltung der Filesysteme ist besonders im Bereich der LSDF eine regelmäßige Auswertung der Metadaten der abgelegten Files notwendig. Es handelt momentan um die Metadaten von ca. 500 Millionen Files. Zu den Metadaten gehören unter anderem die Zeitpunkte des Fileanlegens, des letzten Filezugriffs und die pseudomymisierten Eigentümerinformationen. |
|||
= Anforderungen = |
|||
* good knowledge of C++ and Python |
|||
⚫ | |||
* some theoretical computer science background or machine learning knowledge would be a plus |
|||
Ziel des Praktikums ist es , ein System zu entwickeln, um den zeitlichen Verlauf verschiedener Metriken (z.B. letzter Filezugriff) unter verschiedenen Gesichtspunkten (z.B. im Bezug auf das Alter eines Files) über mehrere Dumps hinweg ermitteln zu können. Eine Visualisierung soll mit Kibana erfolgen. |
|||
= Voraussetzungen = |
|||
* Grundkenntnisse in der Nutzung von Elasticsearch und Kibana sind hilfreich aber nicht zwingend. |
|||
= References = |
= References = |
||
: [0] [http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System] |
: [0] [http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System] |
||
: [1] [http://elastic.co http://elastic.co] |
: [1] [http://elastic.co http://elastic.co] |
||
: [2] [https://www.elastic.co/de/products/kibana https://www.elastic.co/de/products/kibana] |
|||
= |
= Ansprechpartner = |
||
[mailto:andreas.petzold@kit.edu Andreas.Petzold@kit.edu] |
[mailto:andreas.petzold@kit.edu Andreas.Petzold@kit.edu] |
Latest revision as of 17:53, 27 March 2017
Beschreibung
Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem GPFS [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet. Für den Betrieb, die Planung und Verwaltung der Filesysteme ist besonders im Bereich der LSDF eine regelmäßige Auswertung der Metadaten der abgelegten Files notwendig. Es handelt momentan um die Metadaten von ca. 500 Millionen Files. Zu den Metadaten gehören unter anderem die Zeitpunkte des Fileanlegens, des letzten Filezugriffs und die pseudomymisierten Eigentümerinformationen.
Das GPFS Filesystem bietet die Möglichkeit die Metadaten aller Files sehr schnell auszulesen. Diese Metadaten werden regelmäßig ausgelesen (Dumps) und sollen zur Auswertung in einer Elasticsearch Datenbank [1] gespeichert werden.
Ziel des Praktikums ist es , ein System zu entwickeln, um den zeitlichen Verlauf verschiedener Metriken (z.B. letzter Filezugriff) unter verschiedenen Gesichtspunkten (z.B. im Bezug auf das Alter eines Files) über mehrere Dumps hinweg ermitteln zu können. Eine Visualisierung soll mit Kibana erfolgen.
Voraussetzungen
- Grundkenntnisse in der Nutzung von Elasticsearch und Kibana sind hilfreich aber nicht zwingend.
References
- [0] http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System
- [1] http://elastic.co
- [2] https://www.elastic.co/de/products/kibana