Verteilte Berechnung von Datei-Checksummen im Dateisystem Spectrum Scale

From Lsdf
Revision as of 17:00, 26 March 2018 by Nico.schlitter (talk | contribs) (Created page with "= Beschreibung = Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem Spectrum Scale (GPFS) [0] abgelegt. Momentan w...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Beschreibung

Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem Spectrum Scale (GPFS) [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet.

Um Integrität der gespeicherten Daten sicher zustellen bietet es sich an, regelmäßig Checksummen aller Dateien zu erzeugen und diese in einer Datenbank abzuspeichern. Somit wird es möglich, die Integrität einer Datei jederzeit zu prüfen, indem man die aktuelle Checksumme mit der zuvor abgespeicherten vergleicht.

Die Herausforderung bei der regelmäßigen Berechnung und dem anschließenden Vergleich besteht in der Anzahl der zu prozessierenden Dateien. Bei mehreren hundert Millionen Dateien, muss die Berechnung verteilt stattfinden und so umgesetzt sein, dass Nutzer der Speichersysteme in deren täglicher Arbeit nicht beeinträchtigt werden.

Ziel des Praktikums ist es, ein performantes System zu entwickeln, um regelmäßig Checksummen aller Dateien zu erzeugen, abzuspeichern und zu vergleichen.


Voraussetzungen

  • Grundkenntnisse in der Nutzung von File Systemen und Datenbanken sind hilfreich

References

[0] http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System

Ansprechpartner

Nico.Schlitter@kit.edu