Deutsches Klimarechenzentrum DKRZ nimmt eines der weltweit größten Datenarchive in Betrieb
Maximalkapazität bis zu 60PB
This is a Press Release edited by StorageNewsletter.com on August 5, 2009 at 3:23 pmDas Deutsche Klimarechenzentrum GmbH (DKRZ) hat eines der weltweit größten Datenarchive in Betrieb genommen. Die Maximalkapazität des Archivs liegt derzeit bei 60 Petabyte (60.000 Terabyte), das entspricht einer Datenmenge von 12 Millionen DVDs.
Im Rahmen dieser Lösung archiviert das DKRZ Daten aus den umfangreichen Klimasimulationen, die auf den Rechnern des DKRZ durchgeführt werden. Die Daten werden archiviert, um Wissenschaftlern die Auswertung und den Vergleich mit anderen Klimasimulationen und -szenarien zu ermöglichen. Das Archiv hat im Sommer 2009 die Produktion aufgenommen und wird in Kürze die Daten für den nächsten Sachstandsbericht des Weltklimarats (IPCC AR5) aufnehmen. Die Berechnungen hierfür dauern mehr als ein Jahr. Die Auswertung und Analyse der Daten wird mindestens ebenso viel Zeit in Anspruch nehmen.
Die Lösung wurde auf Basis der von IBM mitentwickelten Datenmanagementsoftware HPSS (High-Performance-Storage-System) realisiert. HPSS ist ein hierarchisches Speichermanagementsystem, das zur Archivierung von extrem großen Datenmengen vor allem im Bereich des High-Performance-Computing zum Einsatz kommt. Mit dem installierten System nimmt das DKRZ einen Platz innerhalb der weltweit fünf größten HPSS-Installationen ein.
Eine besonders wichtige Aufgabe war die reibungslose und unterbrechungsarme Datenübernahme aus einem Bestandssystem. Das DKRZ hatte bisher das HSM-System DiskXtender UNIX/Linux von EMC im Einsatz. Auf den 32.000 vorhandenen Magnetbändern sind circa 25 Millionen Dateien archiviert. Die Bestandsdaten wurden in das HPSS übernommen, ohne die eigentlichen Daten zu kopieren. HPSS wurde dabei in die Lage versetzt, das Datenformat der Bestandsdaten zu lesen und die Dateien auf den bestehenden Magnetbändern zu identifizieren. Dieses technisch und organisatorisch äußerst anspruchsvolle Vorgehen war notwendig, da das Kopieren der Daten vom alten in das neue System mehrere Jahre in Anspruch nehmen würde.
"Die neue Archivierungslösung versetzt uns überhaupt erst in die Lage, die enormen Datenmengen, die von der Klimaforschern auf immer schnelleren Rechnern gewonnen werden, zu bewältigen. Die gute Skalierbarkeit und die hochperformante Integration in den Power6-Cluster von IBM waren die entscheidenden Faktoren bei der Auswahl des HPSS-Systems", sagt Ulf Garternicht, Technischer Leiter beim DKRZ.
"HPSS ermöglicht es Forschungseinrichtungen und anderen Betreibern extrem großer Datenarchive, langfristig den Ausbau ihres weiteren Datenwachstum zu planen und eine wirtschaftliche Basis für die Archivierung und Nutzung von Datenbeständen zu schaffen", sagt Stephanie Kuehdorf, Direktorin des HPC-Vertriebs IBM Deutschland.