This page contains a Flash digital edition of a book.
ICT


DATA PROTECTION & ARCHIVIERUNG


Dieser Artikel positioniert verfügbare Archivierungslösungen von IBM im Kontext zu Real-Time-Processing Bedürfnissen sowie Archivierungsanforderungen und diskutiert dies anhand von Erfahrungen, die im Bereich High Performance Storage System (HPSS) gesammelt wurden. Ideal um langfristig Daten aufzubewahren sind Tape Technologien. Durch deren Verfügbarkeit mit offenen Standards durch Linear-Tape-Open (LTO), können Daten von Band einwandfrei und auch rechtsicher nach Deutschen Recht bis zu 30 Jahre gelesen werden. Die Einschränkung bei der Speicherung von vielen Daten auf Band bedeutet aber eine verschlechtere Verfügbarkeit und Performance des Lesens. Tape erscheint damit keine wirkliche Alternative für Endbenutzer zu sein, die Echtzeit Datenlesegeschwindigkeit erwarten.


Hingegen sind Speicherinfrastrukturen, die eine Kombination aus Tape- und Disk- basierende Lösungen bieten, nicht für den Echtzeit Zugriff ausgelegt und wie Endbenutzer diesen sich meist auch wünschen. Technologien, wie DeDuplizierung für den Backup Bereich sind durchgängig im Einsatz. Aber ein Backup ist noch kein Archiv. Ein Archiv ist eine Ansammlung von Computer-Dateien, die zusammengelegt werden für ein bestimmtes Backup, um diese Daten auf einen anderen Speicherbereich zu transportieren, um auf dem Hauptsystem freie Speicherkapazitäten verfügbar zu machen.


„Real-Time Processing” wird definiert wie folgt laut Wikipedia: Jede Transaktion in Echtzeit Prozessierung ist einzigartig. Es ist nicht Teil einer Gruppe von Transaktionen (vs. „Batch- Processing”), auch wenn diese Transaktionen in der gleichen Art und Weise durchgeführt werden. Die Datentransaktionen in Echtzeit sind autonom in jeder Richtung: vom Eingang in das System als auch in deren Output.


IBM hat umfangreiche Lösungen für Speicherinfrastrukturen verfügbar, die unterschiedlichste Anforderungen an Speicherbedürfnisse abdeckt. Die IBM Strategie für den Bereich System Storage ist „fit-for-purpose” für jede Workload. Für Archivierungslösungen stellt Abbildung 1 (siehe nächste Seite) anhand von elf Anforderungen, die Auswahlmöglichkeiten hierfür konkret dar. Die Archiv-Lösungen können auf IBM NAS Speicher (nSeries), IBM Information Archive (IA), Tivoli Storage Manager (TSM), Scale-out NAS (SONAS) bzw. IBM General Parallel File System (GPFS) und High Performance Storage System (HPSS) basieren.


H


eute erleben wir enormes Datenwachstum durch Digitalisierung, mehr mobile Endgeräte, schnellere Supercomputer usw., während Endbenutzer erwarten, in Echtzeit Zugriff auf alle Daten je nach Bedarf zu haben. Um diese Geschwindigkeit der gesteigerten Endbenutzerbedürfnisse aufrechtzuerhalten, stellt diese eine neue Herausforderung an die IT Infrastrukturen dar. IDC prognostiziert, dass es eine weltweite Datenmenge von 25 Zettabyte im Jahr 2020 geben wird. Ein Zettabyte ist übrigens eine Eins mit 21 Nullen dahinter...


Alle Daten nur auf Disksystemen abzuspeichern, verursacht immer längere Datensicherungszeitfenster, höhere Strom- und Betriebskosten für das Management der wachsenden Anzahl von Server und Storage Systemen. Dies fällt dann besonders teuer aus, wenn die Daten dann mindestens bis zu 10 oder mehr Jahre aufbewahrt werden müssen.


Durch High Performance Computing (HPC) und deren extreme Anforderungen für Skalierbarkeit und hohe Performance, können auch wichtige und nützliche Ergebnisse für den kommerziellen Bereich abgeleitet werden. Es ist interessant, dass in Deutschland 43% der privatwirtschaftlichen Unternehmen an aktuellen Studien des Bundesministeriums für Wissenschaft und Forschung (BMWF) teilnehmen, um von Entwicklungen aus dem HPC Umfeld zu profitieren.


Um zu evaluieren, welches System geeignet für Echtzeit Anwendungen ist, bestimmt die „Data Transfer Rate” (DTR). Dieses wird oftmals als Datendurchsatz bezeichnet und in Kilobytes oder Megabytes pro Sekunde (KB/sec bzw. MB/Sec) dargestellt. HPSS ist eine Software, die heute hohe Datenmengen auf Disk- und Tape Robotern verwaltet. HPSS arbeitet bereits mit Daten von 100erten von Millionen Dateien und Archivumgebungen von 100erten von Petabytes von Bändern für die HPC Community. Dabei funktioniert HPSS wie ein klassisches HSM System (Hierarchisches Speichermanagement System). HPSS lässt erst kürzlich verwendete Dateien im Disk-Cache, während weniger häufig genutzte Dateien auf


October 2011 I www.dcsdach.info 11


Page 1  |  Page 2  |  Page 3  |  Page 4  |  Page 5  |  Page 6  |  Page 7  |  Page 8  |  Page 9  |  Page 10  |  Page 11  |  Page 12  |  Page 13  |  Page 14  |  Page 15  |  Page 16  |  Page 17  |  Page 18  |  Page 19  |  Page 20  |  Page 21  |  Page 22  |  Page 23  |  Page 24  |  Page 25  |  Page 26  |  Page 27  |  Page 28  |  Page 29  |  Page 30  |  Page 31  |  Page 32