Difference between revisions of "Verteilte Berechnung von Datei-Checksummen im Dateisystem Spectrum Scale"

From Lsdf
(Created page with "= Beschreibung = Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem Spectrum Scale (GPFS) [0] abgelegt. Momentan w...")
 
 
Line 3: Line 3:
 
Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem Spectrum Scale (GPFS) [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet.
 
Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem Spectrum Scale (GPFS) [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet.
   
Um Integrität der gespeicherten Daten sicher zustellen bietet es sich an, regelmäßig Checksummen aller Dateien zu erzeugen und diese in einer Datenbank abzuspeichern. Somit wird es möglich, die Integrität einer Datei jederzeit zu prüfen, indem man die aktuelle Checksumme mit der zuvor abgespeicherten vergleicht.
+
Um die Integrität der gespeicherten Daten sicher zustellen bietet es sich an, regelmäßig Checksummen aller Dateien zu erzeugen und diese in einer Datenbank abzuspeichern. Somit wird es möglich, die Integrität einer Datei jederzeit zu prüfen, indem man die aktuelle Checksumme mit der zuvor abgespeicherten vergleicht.
   
Die Herausforderung bei der regelmäßigen Berechnung und dem anschließenden Vergleich besteht in der Anzahl der zu prozessierenden Dateien. Bei mehreren hundert Millionen Dateien, muss die Berechnung verteilt stattfinden und so umgesetzt sein, dass Nutzer der Speichersysteme in deren täglicher Arbeit nicht beeinträchtigt werden.
+
Die Herausforderung bei der regelmäßigen Berechnung und dem anschließenden Vergleich besteht in der Anzahl der zu prozessierenden Dateien. Bei mehreren hundert Millionen Dateien, muss die Berechnung verteilt stattfinden und so umgesetzt sein, dass Nutzer der Speichersysteme bei ihrer täglichen Arbeit nicht beeinträchtigt werden.
   
Ziel des Praktikums ist es, ein performantes System zu entwickeln, um regelmäßig Checksummen aller Dateien zu erzeugen, abzuspeichern und zu vergleichen.
+
Ziel des Praktikums ist es, ein performantes System zu entwickeln, um regelmäßig Checksummen aller Dateien zu berechnen, abzuspeichern und zu vergleichen.
 
 
 
 
= Voraussetzungen =
 
= Voraussetzungen =
* Grundkenntnisse in der Nutzung von File Systemen und Datenbanken sind hilfreich
+
* Grundkenntnisse in der Nutzung von Dateisystemen und Datenbanken sind hilfreich
   
= References =
+
= Referenzen =
 
: [0] [http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System]
 
: [0] [http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System]
   
 
= Ansprechpartner =
 
= Ansprechpartner =
[mailto:Nico.Schlitter@kit.edu Nico.Schlitter@kit.edu]
+
[mailto: Jan.Sundermann@kit.edu Jan.Sundermann@kit.edu]

Latest revision as of 17:03, 26 March 2018

Beschreibung

Sowohl in GridKa als auch in der Large Scale Data Facility (LSDF) werden große Datenmengen auf dem Filesystem Spectrum Scale (GPFS) [0] abgelegt. Momentan werden am SCC Filesysteme in der Größe von insgesamt ca. 44PB verwaltet.

Um die Integrität der gespeicherten Daten sicher zustellen bietet es sich an, regelmäßig Checksummen aller Dateien zu erzeugen und diese in einer Datenbank abzuspeichern. Somit wird es möglich, die Integrität einer Datei jederzeit zu prüfen, indem man die aktuelle Checksumme mit der zuvor abgespeicherten vergleicht.

Die Herausforderung bei der regelmäßigen Berechnung und dem anschließenden Vergleich besteht in der Anzahl der zu prozessierenden Dateien. Bei mehreren hundert Millionen Dateien, muss die Berechnung verteilt stattfinden und so umgesetzt sein, dass Nutzer der Speichersysteme bei ihrer täglichen Arbeit nicht beeinträchtigt werden.

Ziel des Praktikums ist es, ein performantes System zu entwickeln, um regelmäßig Checksummen aller Dateien zu berechnen, abzuspeichern und zu vergleichen.

Voraussetzungen

  • Grundkenntnisse in der Nutzung von Dateisystemen und Datenbanken sind hilfreich

Referenzen

[0] http://en.wikipedia.org/wiki/IBM_General_Parallel_File_System

Ansprechpartner

[mailto: Jan.Sundermann@kit.edu Jan.Sundermann@kit.edu]