Verteilte Berechnung von Datei-Checksummen im Dateisystem Spectrum Scale

From Lsdf

Beschreibung

Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem Spectrum Scale (GPFS) [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet.

Um die Integrität der gespeicherten Daten sicher zustellen bietet es sich an, regelmäßig Checksummen aller Dateien zu erzeugen und diese in einer Datenbank abzuspeichern. Somit wird es möglich, die Integrität einer Datei jederzeit zu prüfen, indem man die aktuelle Checksumme mit der zuvor abgespeicherten vergleicht.

Die Herausforderung bei der regelmäßigen Berechnung und dem anschließenden Vergleich besteht in der Anzahl der zu prozessierenden Dateien. Bei mehreren hundert Millionen Dateien, muss die Berechnung verteilt stattfinden und so umgesetzt sein, dass Nutzer der Speichersysteme bei ihrer täglichen Arbeit nicht beeinträchtigt werden.

Ziel des Praktikums ist es, ein performantes System zu entwickeln, um regelmäßig Checksummen aller Dateien zu berechnen, abzuspeichern und zu vergleichen.

Voraussetzungen

  • Grundkenntnisse in der Nutzung von Dateisystemen und Datenbanken sind hilfreich

Referenzen

[0] http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System

Ansprechpartner

[mailto: Jan.Sundermann@kit.edu Jan.Sundermann@kit.edu]