Lossless Compression of Climate Data using Machine Learning (m/f/d)

From Lsdf

(Deutsche Fassung weiter unten eingefügt)

Lossless Compression of Climate Data using Machine Learning (m/f/d)

Description

The use of new technologies, such as GPU boosters, has led to a dramatic increase in the computing power of HPC centers. This Development coupled with new climate models, which make better use of the computing power thanks to an improved internal structure leads to the fact that the bottleneck shifts away from the solution of the differential equations of the model calculations to the actual storage of the variables.

In this thesis the use of Machine Learning (ML) algorithms for the development of novel compression algorithms for structured floating point data like climate data will be investigated and prototypically implemented. Due to the large amount of data, climate sciences offer an ideal basis for testing different machine learning methods. With about 800 TiB of data, the IMK is the largest institute at KIT using the resources of the SCC. This facilitates the application and testing of all three types of ML processes: supervised, unsupervised and reinforcement learning.

The aim of this thesis is to develop a prediction-based compression algorithm. Here, the datapoints in the dataset are traversed individually and a prediction for the current value is made. Afterwards the difference (also called residual) between the prediction and the true value is calculated. This difference is finally encoded and stored on disc. With the help of the prediction method, the traversing strategy and the residual, the data can be reconstructed without any loss. The more accurate the prediction, the smaller the difference and thus the final filesize will be. Machine Learning methods can help in the development of new traversing strategies and better prediction methods.

Work on the thesis can begin imminently.

Tasks

  • Familiarization with the data formats netCDF and HDF5
  • Evaluation of ML procedures for the prediction of datapoints (e.g. supervised, unsupervised, reinforcement learning)
  • Engineering of the coding pipeline with regard to performance and compression factor

Requirements

  • Master student of computer science, information management or business informatics
  • Programming experience in Python

Desirable skills

  • Ideally first experience in the use of ML processes
  • Experience in other programming languages like C++ or Rust

Supervisors






Verlustfreie Kompression von Klimadaten mit Machine Learning (m/w/d)

Beschreibung

Der Einsatz von neuen Technologien, wie GPU-Boostern, haben zu einem dramatischen Anstieg der Rechenleistung von HPC-Zentren geführt. Diese Entwicklung gekoppelt mit neuen Klimamodellen, welche die Rechenleistung dank verbessertem internem Aufbau besser auslasten können, führt dazu, dass sich der Engpass weg von der Lösung der Differentialgleichungen der Modellrechnungen hin zur eigentlichen Speicherung der Variablen verschiebt.

Im Rahmen dieser Arbeit soll der Einsatz von Maschine Learning (ML) Algorithmen für die Entwicklung neuartiger Kompressionsalgorithmen für strukturierte Gleitkommazahlen wie Klimadaten untersucht und prototypisch implementiert werden. Die Klimawissenschaften bieten aufgrund der hohen Datenmenge die ideale Grundlage für die Erprobung von verschiedenen maschinellen Lernverfahren. Das IMK ist mit ca. 800 TiB an Daten das größte Institut am KIT, welches die Ressourcen vom SCC verwendet. Das erleichtert den Einsatz und die Erprobung von allen drei Arten von ML-Verfahren: Supervised, Unsupervised sowie Reinforcement Learning.

Das Ziel ist es ein vorhersagebasierendes Kompressionsverfahren zu entwickeln. Hierbei werden die Datenpunkte im Datensatz einzeln durchlaufen und eine Vorhersage für den aktuellen Wert getroffen. Danach wird die Differenz (auch Residuum genannt) zwischen der Vorhersage und dem wahren Wert berechnet. Diese Differenz wird schließlich kodiert und gespeichert. Mit Hilfe des Vorhersageverfahrens, der Traversierungsstrategie und dem Residuum können die Daten verlustfrei rekonstruiert werden. Je genauer die Vorhersage ist, desto geringer ist die Differenz und damit auch die finale Dateigröße. Maschinelle Lernverfahren können bei der Entwicklung von neuen Traversierungsstrategien und besseren Vorhersageverfahren helfen.

Der Beginn der Arbeit ist ab sofort möglich.

Aufgaben

  • Einarbeitung in die Datenformate netCDF und HDF5.
  • Evaluation von ML-Verfahren für die Vorhersage von Datenpunkten (z.B. supervised, unsupervised, reinforcement learning)
  • Engineering der Codierungspipeline bzgl. Performance und Kompression

Voraussetzungen

  • Masterstudent/-in der Informatik, Informationswirtschaft oder Wirtschaftinformatik
  • Programmiererfahrung in Python

Wünschenswerte Fähigkeiten

  • Idealerweise erste Erfahrungen beim Einsatz von ML-Verfahren
  • Erfahrungen in weiteren Programmiersprachen wie C++ oder Rust

Betreuer