JADE - Jülich Aachen Data Exchange

Die Jülich Aachen Data Exchange (JADE) Initiative verfolgt die Etablierung flexibler und skalierbarer Werkzeuge für den Datenaustausch, welche die spezifischen Anforderungen von Domänenwissenschaftlern erfüllen, so dass ein einfacher und effizienter Austausch von Daten ermöglicht werden kann. Die zentralen Motive von JADE wurden in enger Zusammenarbeit mit diesen erarbeitet und haben sich daraus wie folgt ableiten lassen:

  • Datenaustausch zwischen verteilten Partnern durch Datenreplikation
  • Archivierung von gespeicherten Daten
  • Flexibles Rechtemanagement und Zugangskontrolle
  • Multi-level Datenzugriff – von NFS bis hin zu Daten in der Cloud
  • Flexibles Einbinden von Partnern und Institutionen

Zur Erreichung dieser Motive implementiert JADE folgende Anwendungsfälle:

Anwendungsfall Datenzugriff: JADE unterstützt verschiedene Methoden für den Datenzugriff.. Darunter fallen primär https, WebDAV, scp, ftp und NFS. Weitere Methoden können nach Bedarf eingeschaltet werden. Fein granulare ACLs werden zur Autorisierung des Zugangs zu Daten in JADE verwendet. Damit ermöglicht JADE den Zugang zu Daten zwischen kollaborierenden Gruppen, Institution und Wissenschaftlern.

Anwendungsfall Datenreplikation: Verschiedene Insitutitonen können über replizierte Daten verfügen, die bspw. in lokalen Datenpools vorgehalten werden. Dabei können die Nutzer jedwede Zugangsform zu JADE für den Zugriff auf diese Daten verwenden. Dies ermöglicht einen bidirektionalen und transparenten Datentransport zwischen Kollaborationspartnern, wobei die Daten nah am Ort der Verarbeitung und Analyse bereitstehen.

Anwendungsfall Datenbereitstellung: Generierten Daten werden in einem lokalen Pool gespeichert. Diese können anschließend zu einem zentralen Standort für die Datenhaltung transferiert werden. Dies geschieht transparent für den Benutzer. Wenn auf Daten zugegriffen wird, so organisiert JADE die Bereitstellung ebenso transparent für den Nutzer wiederum für den lokalen Zugriff. Dieser Zugriff wird hinsichtlich Transferkosten von JADE möglichst effizient umgesetzt.

Anwendungsfall Datenarchivierung: Ein Datenpool kann für die Archivierung auf tertiärem Speichersystem konfiguriert werden. Das Ablegen und Wiederherstellen von archivierten Daten geschieht dabei ebenfalls transparent durch JADE für den Benutzer.

Mitte 2014 wurde eine erste Testumgebung basierten auf dCache für JADE im Kontext des SMHB Projekts installiert. dCache ist ein Projekt welches ein System „for storing and retreiving huge amounts of data, distributed among a large number of heterogenous server nodes, under a single virtual filesystem tree with a variety of standard access methods“ [http://www.dcache.org].

Das Jülich Supercomputing Centre (JSC) dient als JADEs zentrales Datencenter für Speicher- und Netzwerkressourcen. Die Einbettung von Ressourcen an der RWTH Aachen University hat die Anwendbarkeit des Ansatzes gezeigt und initialisierte die Integration von JADE in JARA.

Die initiale Testumgebung um JADE umfasst 18 TB Kapazität am JSC und 30GB an der RWTH. In der ersten operationalen Phase wird JADE am JSC an eine multi-TB Speicher- so wie an die vorhandene Archivierungsinfrastruktur angebunden, wobei in Aachen ein dedizierter Dateiserver mit 80TB Datenkapazität eingebunden wird. Für den Datentransfer wird die vorhandene 30GbitE Verbindung zwischen Jülich und Aachen für JADE verwendet.

Neben der Bereitstellung von Infrastruktur sowie einem verteilten Dateisystem untersucht JADE weitere Lösungen für die Umsetzung verteilter Dateisysteme, wie bspw. iRods sowie mögliche eigene Entwicklungen in den identifizierten Lösungen. Weiterhin steht JADE in engem Kontakt zu anderen Initiativen für Datenmanagement wie LSDMA und EUDAT.

Team
Bastian Tweddell
Jülich Supercomputing Centre (JSC)
FZ Jülich

Benjamin Weyers
IT Center
RWTH Aachen

Rajalekschmi Deepu
Jülich Supercomputing Centre (JSC)
FZ Jülich

Alexander Peyser
Jülich Supercomputing Centre (JSC)
FZ Jülich