Backup und Datenarchivierung

Obwohl die Möglichkeit, Daten zu erschwinglichen Preisen auf Platten online zu halten, innerhalb weniger Jahre um Größenordnungen gewachsen ist, sind Bandkassetten als noch größere und noch billigere, vor allem aber raumsparendere Alternative nicht aus der Mode gekommen. Die wichtigsten Anwendungen dafür sind solche, bei denen es auf die hohe Geschwindigkeit des Zugriffs auf die Daten nicht so sehr ankommt wie vielmehr darauf, dass sie überhaupt wieder aufgefunden werden. Die Anforderungen an Hardware- und Softwaresysteme, die sich daraus ergeben, werden hier zusammengestellt und dabei auch auf die Situation am LRZ eingegangen.

Backup und Datenarchivierung (Gliederung)

  • Begriffe: Backup, Archivierung, Migration
  • Lebensdauer von Daten
  • Hardware- und Softwarelösungen
  • Anforderungen an die Software
  • Situation am LRZ
  • Hinweise für (künftige) Benutzer

Backup

  • Motivation: Sicherung gegen
    • Datenverlust durch HW- oder SW-Fehler
    • versehentliches Löschen oder Überschreiben
  • Strategie:
    • möglichst häufiges automatisches Anlegen von
      • Vollkonserven (alle Dateien)
      • Teilkonserven (geänderte Dateien)
    • relativ baldige Löschung dieser Konserven

Archivierung

  • Motivation:
    • mittel- und langfristiges Aufheben von Dateien
    • Umschlagplatz für Dateien zwischen Rechnern
  • Strategie:
    • explizite Übertragung ins Archiv und zurück
    • keine implizite Löschung, jedoch
    • trotzdem evtl. begrenzte Aufbewahrung

Migration

  • Motivation:
    • Erweiterung des Plattenplatzes
    • Vorsicht: Working-Set-Probleme
  • Strategie:
    • automatische Übertragung ins Archiv bei knapp werdendem Plattenplatz
    • transparenter Zugriff
    • nur transparenter Zugriff

Backup, Archivierung, Migration: Querbeziehungen

  • Backup als implizite Archivierung
    • Problem: Aufbewahrungsfristen zu kurz
  • archivierte Dateien brauchen keinen Backup
  • Archivierung als Ersatz für Backup
    • Problem: Aufbewahrungsfristen zu lang
  • migrierte Dateien dürfen keinen Backup bekommen
  • Migration als Ersatz für Backup
  • Migration als Ersatz für Archivierung
    • Problem: starke System- und Konfigurationsabhängigkeit

Lebensdauer von Daten: Beispiel 1

  • Datenträger: 8 Zoll Floppy Disk
  • Aufzeichnungsstandard: WordStar, unbekannte Version
  • geschrieben: um 1985
  • lesbar: 15 Jahre später problematisch

Lebensdauer von Daten: Beispiel 2

Codex Sinaiticus

  • Datenträger: 38x43 cm Pergament
  • Aufzeichnungsstandard: griechische Majuskel
  • geschrieben: um 350
  • lesbar: 1500 Jahre später problemlos

Lebensdauer von Daten

  • begrenzt durch
    • die Lebensdauer des Datenträgers
    • die Verfügbarkeit der Hardware (Laufwerke)
    • die Verfügbarkeit der Software
    • die Dauer der Gültigkeit von Normen
    • die Lebensdauer der Konfiguration (Migration)
  • siehe auch: Spektrum der Wissenschaft, Sept. 1995
  • Stand der Kunst
    • Kopieren in kurzen Abständen nötig (3 bis 10 Jahre)
    • durch größere und schnellere Medien machbar

Hardware- und Softwarelösungen


Anforderungen an die Software

  • Funktionalität
    • beabsichtigte Benutzung
    • vorgesehenes Umfeld
  • Performance
  • Ausfallsicherheit
  • Einhaltung von Normen
  • ordentliche Systemarchitektur

Funktionalität: Benutzung

  • durch Alleinbenutzer
  • durch Systemadministratoren
  • durch Archiv-Verwalter
  • durch Endbenutzer auf zentral administrierten Systemen
  • durch explizit ermächtigte Personen
    • Konflikt von Berechtigungmodellen
  • Unterstützung von Nicht-Standard-Anwendungen?

Funktionalität: Umfeld

  • Zuständigkeitsbereiche (Domains)
    • Aufteilung
    • Zusammenführung
  • verteilte Dateisysteme, Namensräume
  • Sicherungsstrategien
  • Archivplatz-Kontingentierung
  • Einbindung in Systemmanagement
  • verteilte Archivverwaltung

Performance

  • große Anzahl von Dateien
    • Beispiel LRZ:
      • etwa 300 Mio. Dateien
      • Datenbanken bis zu 63 GB, insgesamt 185 GB
  • große Dateien
    • schneller Datentransport auf das Medium
    • schnelle Netzanbindung
    • vernünftiger Einsatz von Plattencache
  • große Anzahl von Client-Rechnern
    • Parallelisierung bei dedizierten Medien

Ausfallsicherheit

  • kein Backup vom Backup
    • Datenbanksicherung
    • Mehrfachkopien von Archivdaten
    • Auslagerung von Medien
  • Wiederaufsetzstrategien
    • für gesicherte Rechner
    • für das Backup-System selbst

Normen und Standards

  • Normen und Standards über Dateisysteme
    • Grundfunktionen (Verzeichnisse, Lesen, Schreiben)
    • Zusatzfunktionen (Zugriffs- und Backup-Alter)
    • transparente Migration
  • Hilfsdienste von außen
    • Netzzugriffsprotokolle (z.B. NFS, FTP)
    • Benutzervalidierung (z.B. Kerberos)
    • Namensraum

Systemarchitektur

  • weitestgehende Trennung der Funktionen in Schichten
    • IEEE Reference Model for Open Storage Systems Interconnection (OSSI)
  • Performance erfordert Mischung der Schichten
    • Entscheidung über Wahl der Medien
    • Positionierung
    • Namensdatenbank enthält medienspezifische Information

Situation am LRZ

  • Dienste
  • Hardware
  • Software
  • Nutzungsstatistik
  • Dokumentation

LRZ: Dienste

  • Backup für institutseigene Rechner
  • Archivierung für institutseigene Rechner
  • Backup für Systemdateien der LRZ-Rechner
  • Backup von AFS- und DFS-Volumes
  • keinBackup von einzelnenBenutzerdateien
  • Archivierung für Benutzer der LRZ-Rechner
  • keine Migration

LRZ: Software

  • ADSM von IBM
  • 10 (jetzt noch 5) unabhängige Server
    • 4 für STK-Silo (große Dateien)
    • 4 für 3575 (kleine Dateien)
    • 3 für 3494
  • auf 2 (jetzt noch 3) Server-Rechnern

LRZ: Laufwerke

  • IBM 3570E (Magstar MP)
    • 7 GB pro Kassette
    • 4 sec Lade- und Suchzeit
    • 2,2 MB/sec Transferrate
    • 12 Laufwerke im Einsatz
  • IBM 3590E (Magstar)
    • 20 GB pro Kassette
    • 19 sec Lade- und 30 sec Suchzeit
    • 9,0 MB/sec Transferrate
    • 12 Laufwerke im Einsatz
  • StorageTek 9840 (Eagle)
    • 20 GB pro Kassette
    • 17 sec Lade- und 19 sec Suchzeit
    • 11,1 MB/sec Transferrate
    • 16 Laufwerke im Einsatz

LRZ: Konfiguration ab Frühjahr 2000


LRZ: Anteile Backup und Archiv


LRZ: Hinweise für (künftige) Benutzer