ALIs

kommt noch

Kriterien für die Planung der Datenhaltung in Hochschulrechenzentren

In vielen Hochschulrechenzentren besteht ein Nebeneinander verschiedener Dateisysteme, welches teilweise durch die unterschiedliche Herkunft und Verwendung der Daten nicht nur erklärt, sondern auch begründet wird, teilweise aber auch nur auf der geschichtlichen Entwicklung beruht und mittel- bis langfristig durch ein sorgfältig geplantes Datenhaltungskonzept ersetzt werden soll. Hier werden die Voraussetzungen für eine solche Planung mit dem Ziel zusammengestellt, die Planung selbst ebenso zu vereinfachen wie ihre Darstellung nach außen, etwa bei der Begründung von Beschaffungsmaßnahmen.

Notwendigkeit der Planung

Die Dezentralisierung der Rechnerversorgung in den Hochschulen hat dazu geführt, daß jetzt die Online-Daten einer Hochschule vielerorts gespeichert sind: auf PCs, Workstations, Servern und Spezialrechnern, in Instituten und den Hochschulrechenzentren. Durch den zunehmenden Einsatz verteilter, möglichst auch systemarchitekturübergreifender Dateisysteme wird zwar die prinzipielle Zugreifbarkeit auf die Daten über den lokalen Bereich hinaus wiederhergestellt, es bedarf jedoch einer sorgfältigen Planung, will man der folgenden Probleme Herr werden:

  • Unabhängig voneinander werden mehrere verteilte Dateisysteme betrieben, was einen erheblichen Mehraufwand für die Gewährleistung eines stabilen, effizienten und sicheren Betriebes (einschließlich Ressourcenplanung, Datensicherung) bedeutet.
  • Ein Benutzer, der gleichzeitig an mehreren Orten Daten liegen hat, verliert leicht den Überblick, insbesondere wenn er gezwungen ist, ein und dieselbe Datei auf mehrere Systeme zu kopieren: es ist dann sehr mühsam, festzustellen, wo die Daten auf dem neuesten Stand sind.
  • Werden Dateisysteme mit inkompatiblen Methoden des Zugriffsschutzes verwendet, so ergeben sich Sicherheitsprobleme dadurch, daß beim wechselseitigen Zugriff nur die jeweils minimale Sicherheit durchgesetzt werden kann (z.B. wenn etwa Access Control Lists vom anderen System nicht honoriert werden). Außerdem neigen dann Benutzer aus Bequemlichkeit zur Anwendung unsicherer Verfahren (z.B. der Speicherung von Paßwörtern in Dateien wie ".netrc").
  • Daten, die von globalem Interesse sind, werden schwerer gefunden, wenn der Zugriffspfad von Zufälligkeiten der Rechnerlandschaft, etwa Rechner- oder Benutzernamen, abhängt oder wenn innerhalb jedes Dateisystems die Dateien nach anderen Kriterien organisiert sind.

Die hier dargestellten Strukturen sind oft nur mit großen Aufwand zu ändern. Es kann daher durchaus legitim sein, "gewachsene" Strukturen zunächst unverändert weiterzubetreiben, selbst wenn sie als nicht optimal erkannt wurden. Es ist jedoch gerade in so einem Fall wichtig, sich (und gegebenfalls auch anderen) klarzumachen, wo Kompromisse eingegangen wurden und wie lange diese fortbestehen sollen.

Die Planung einer Datenhaltungsstruktur ist stark verflochten mit anderen Aspekten der Infrastruktur des Rechenzentrums, insbesondere mit den folgenden:

  • Backup-, Archiv- und Datenmigrationssysteme
  • Benutzerverwaltung
  • Software-Verteilung für dezentrale Rechner
  • System- und Netzmanagement
  • Aufteilung der Zuständigkeiten zwischen Rechenzentrum und Hochschulinstituten
  • Vergabe von Namen für Domänen und Rechner
  • Dokumentation, Organisation eines WWW-Servers

Im folgenden Abschnitt werden die verwendeten Begriffe kurz erläutert und auf diese Weise das Feld der zu betrachtenden Einzelheiten abgesteckt. Der darauffolgende Abschnitt beschäftigt sich mit der Frage, wieweit unterschiedliche Betriebssystem-Architekturen notwendig zu getrennten Dateibereichen führen. Danach werden in drei Abschnitten die wesentlichen Voraussetzungen und Kriterien zusammengestellt, die zu einer bestimmten Datenhaltungsstruktur führen.

Begriffe

Ein Fileserver ist ein Rechensystem, auf dem Dateien gelagert sind, die auch für den Zugriff von anderen Rechnern, den Clients, aus gedacht sind.

Ein lokales Dateisystem ist Systemsoftware zur Verwaltung von Dateien auf einem Rechner, unabhängig davon, ob diese Dateien auch anderen Rechnern zur Verfügung stehen. Ein verteiltes Dateisystem ist Software, die den Zugriff auf Dateien über mehrere Rechner hinweg ermöglicht. Der Anwendungsbereich dieser Begriffe überlappt sich, wenn eine Datei einem verteilten Dateisystem angehört und dazu auf einem Fileserver in einem lokalen Dateisystem gehalten wird: sie gehört dann zu einem verteilten und unabhängig davon auch zu einem lokalen Dateisystem. Zur Verwaltung eines verteilten Dateisystems kann der Einsatz weiterer Software ratsam sein. Manche verteilten Dateisysteme (z.B. DFS) erfordern sogar den Einsatz einer bestimmten Management-Umgebung (hier: DCE).

Bei den meisten verteilten Dateisystemen gehört jeder Fileserver und damit auch die dort gehaltenen Dateien einer Zelle (oder Domäne, je nach der in dem Dateisystem üblichen Terminologie) an. Zellengrenzen sind auf jeden Fall Grenzen der Verwaltung, sie können auch Grenzen von Zugriffsberechtigungen sein.

Die Datenhaltungsstruktur des Rechenzentrums besteht aus der Gesamtheit der Dateisysteme und der zu ihrem Betrieb notwendigen Werkzeuge im Verantwortungsbereich des Rechenzentrums, unabhängig davon, ob es selbst diese Dateisysteme betreibt oder ob dies dezentral durch einzelne Hochschulinstitute geschieht. Die Entscheidung für eine Datenhaltungsstruktur umfaßt die folgenden Aspekte:

  • die Wahl einer Verteilungstopologie der Daten (wieviele Zellen, wieviele Fileserver in jeder Zelle, welche Clients haben Zugriff auf welche Server, welche Daten werden lokal gehalten usw.)
  • die Wahl von Protokollen für den Betrieb verteilter Dateisysteme (z.B. DCE/DFS, Windows NT, NetWare, NFS, AFS,&nbsp. . .)
  • die Wahl geeigneter Managementwerkzeuge von Systemen zur Verteilung von Managementinformation (z.B. DCE, NIS, NIS+) bis hin zu Systemmanagementplattformen (z.B. Tivoli, CA Unicenter)
  • für jeden Fileserver die Wahl einer Rechnerplattform, eines Betriebssystems und der Speichermedien für die Dateien
  • unter dem Betriebssystem jedes Servers die Wahl eines lokalen Dateisystems für die dem verteilten Dateisystem zur Verwaltung übergebenen (und natürlich auch für die nur lokal zugreifbaren) Dateien; hier gibt es allerdings manchmal keine Alternativen
  • die Wahl einer geeigneten Backup-Strategie und der dafür notwendigen Werkzeuge
  • die Wahl von Namensräumen zum einen zur Identifikation der Dateisysteme und ihrer Zellen, zum anderen zum Auffinden von Dateien innerhalb eines Dateisystems (Verzeichnisbaum), sowie gegebenenfalls auch zum Auffinden von Information über mehrere Dateisysteme hinweg.

Das Datenhaltungskonzept besteht aus Aussagen des Rechenzentrums darüber, für welche Daten welche Elemente der Datenhaltungsstruktur, also welche Dateisysteme und anderen Werkzeuge, vom Rechenzentrum selbst betrieben, von ihm unterstützt oder empfohlen werden. Das Maß der Unterstützung wird sich dabei in der Regel danach richten, ob und wieweit sich die Betreiber dieser Systeme an die Vorgaben und Empfehlungen des Rechenzentrums halten.

Es gibt drei wesentliche Einflußfaktoren auf das Datenhaltungskonzept, denen jeweils weiter unten ein Abschnitt gewidmet ist:

  • Anforderungen an die Datenhaltung, wie sie sich aus Herkunft und Verwendung der Daten ergeben. Beispiele für unterschiedliche solche "Herkunft und Verwendung" sind:
    • Standardsoftware -- projektspezifische Software -- Texte -- Datenbanken -- maschinell zu verarbeitende Daten -- Ergebnisse
    • Projektdaten wissenschaftlicher Projekte -- Verwaltungsdaten
    • weltweit zugreifbare (WWW-Seiten, global abfragbare Datenbanken) -- lokal verbreitete -- institutsinterne -- private und vertrauliche Daten
    • kurzlebige -- langlebige Daten
  • Anforderungen an das Management der Datenhaltung, um einen stabilen, effizienten und sicheren Betrieb mit vertretbarem Aufwand realisieren zu können
  • das organisatorische Umfeld, das die Auswahl technischer Alternativen wesentlich mitbeeinflußt.

Abhängigkeiten von der Betriebssystemplattform

Bei rechnerübergreifenden Dateisystemen wird es oft als Problem gesehen, wenn die zugreifenden Rechner unterschiedlichen Betriebssystem-Familien (MS DOS, MS Windows, Unix, Mac) angehören. Dieser Punkt soll hier vorab diskutiert werden, weil seine Bedeutung oft als sehr hoch eingeschätzt wird und öfters sogar zum parallelen Betrieb mehrerer verteilter Dateisysteme ("PC-Netz", "Unix-Netz") führt.

Die Probleme ergeben sich auf drei Ebenen:

  • der fehlenden Verfügbarkeit der notwendigen Software zum Betrieb des verteilten Dateisystems auf einer Systemplattform, wodurch Protokollkonverter (z.B. Samba) benötigt werden - dieses Kriterium findet sich im übernächsten Abschnitt wieder

  • der fehlenden Applikationstransparenz, wenn sich ein Endbenutzer dazu entschließt, Daten im proprietären Format für ein bestimmtes Fabrikat von Applikationssoftware statt nach allgemeinen Normen abzulegen oder ein solches Format zum Datenaustausch zu verwenden. Er wird dann in erhebliche Probleme geraten, wenn diese Daten an einem anderen System mit anderer Software weiterverarbeitet werden sollen - das ist aber das Problem des Endbenutzers, und das Rechenzentrum hat allenfalls beratenden Einfluß

  • der fehlenden Plattformtransparenz, wenn Daten, auch wenn sie nicht im eben erwähnten Sinne proprietäres Format haben, nur deswegen an einem anderen Rechner nicht verarbeitet werden können, weil dieser einer anderen Systemfamilie angehört. Dieser Punkt hat in der Vergangenheit eine große Rolle gespielt (unterschiedliche Zeichensätze, sobald der ASCII-Bereich überschritten wird; unterschiedliche Konventionen für Zeilenenden in Textdateien), hat aber an Bedeutung verloren:

    • Internationale Standards wie ISO 8859-1 für die Zeichencodierug haben sich durchgesetzt.
    • Die Bedeutung einfacher Textdateien ist zurückgegangen.
    • Email-Austausch, Datenbankzugriffe, Erstellen und Lesen von Web-Seiten und andere Applikationen geschehen über Protokolle, bei denen die verwendeten Systeme keine Rolle spielen
    • Mit Java gibt es ein System zum Laden und Ausführen systemunabhängiger Programme
    • Büroautomationssysteme (jedoch leider nicht die des Marktführers) gestatten die beliebige Bearbeitung derselben Dateien von PCs und Unix-Systemen aus

    Trotzdem muß dieser Punkt mit in die Planung der Datenhaltungsstruktur einbezogen werden - er findet sich zu Beginn des nächsten Abschnitts wieder.

Anforderungen an die Datenhaltung aus Anwendersicht

Abhängig von Herkunft und Verwendung der Daten können die folgenden Punkte bei der Wahl des für diese Daten verwendeten Teils der Datenhaltungsstruktur eine Rolle spielen.

Plattform- und Applikationstransparenz

  • siehe vorangehender Abschnitt

Entfernter Zugriff, Zugriffsberechtigungen

  • Ermöglichung des Zugriffs von anderen Benutzern/Rechnern/Zellen aus (lokal, campusweit oder weltweit)
  • individuelle Zugriffsregelung (Access Control List) für einzelne Dateien und einzelne Benutzer, auch aus fremden Zellen, sowie für Gruppen von Dateien oder Benutzern
  • Authentisierung zum Dateizugriff grundsätzlich über die Authentisierung zur Rechnerbenutzung oder zu anderen Diensten, also nicht getrennte Paßworte für verschiedene Berechtigungen

Sicherheit

  • verschlüsselte Übertragung von Authentisierungsinformation (Kerberos)
  • verschlüsselte Speicherung oder Übertragung von Daten
  • vertrauliche Daten, bei denen der Zugriff von außen (aus dem Netz) sicher verhindert werden muß

Performanz des Zugriffs beim Benutzer

  • große Datenmengen, die hohe Übertragungsgeschwindigkeiten erfordern
  • Daten mit vordefinierten maximalen Zugriffszeiten
  • Experimentaldaten mit Realzeitanforderungen bei der Speicherung

Langlebigkeit der Daten und des Namensraums

  • Online-Archive, die die Systeme überdauern sollen, auf denen sie gelagert sind
  • Veröffentlichte Namen (z.B. URLs), die über Reorganisationen hinaus gültig bleiben sollen

Anforderungen an die Datenhaltung aus Betreibersicht

Verteilte Dateisysteme führen zu einer wesentlich komplexeren Umgebung, für die Betriebssicherheit und Dienstgüte nicht leicht zu garantieren sind. Deswegen kommen aus dem Bereich des Managements weitere wesentliche Kriterien hinzu. - Nicht explizit aufgeführt ist der Fall, daß aus technischen Gründen bestimmte Dateien auf jeden Fall lokal gehalten werden müssen.

Verfügbarkeit der Software

  • für die Fileserver
  • für die Clients

Verfügbarkeit von Sicherung, Migration und Archivierung

  • konsistenter Backup durch Schnappschüsse
  • Dateisystemschnittstellen zu Sicherungs-, Migrations- und Archivierungssoftware (DMAPI)

Sicherheit gegen Ausfall, Geschwindigkeit der Recovery

  • RAID-Systeme und ähnliche auf Redundanz beruhenden Sicherungen gegen Hardwareausfall
  • Journalled File Systems um nach Ausfall des Serversystems schneller einen aktuellen konsistenten Zustand wieder erreichen zu können

Administrative Gestaltungsmöglichkeiten

  • Kontingentierung von Ressourcenverbrauch auf Benutzer- und Projektebene
  • physische Verlagerung von Dateien von einem Server zum anderen transparent für den Benutzer, auch im laufenden Betrieb
  • weltweiter Namensraum, d.h. Einbindung in ein weltweites Kommunikationsnetz ohne bilaterale Absprachen mit den Zugreifern
  • Management des Dateisystems als Komponente des Systemmanagements verfügbar

Performanz des Datenzugriffs im Gesamtbetrieb

  • performanter Zugriff auf und Übertragung von großen Dateien
  • performante Suche in Verzeichnisbäumen mit vielen Dateien
  • geeignete Cache-Konzepte zur Beschleunigung entfernten Zugriffs und zur Reduktion der Netzlast, besonders im WAN-Bereich

Organisatorisches Umfeld

Neben dem Hochschulrechenzentrum als zentraler Instanz planen und betreiben auch Institute dezentral Rechner und damit auch Datenhaltung. Die Aufgabenteilung zwischen dem Rechenzentrum und den dezentralen Einrichtungen ist dabei von Ort zu Ort sehr verschieden. Im Rahmen dieser Betrachtungen spielt insbesondere eine wesentliche Rolle,

  • ob das Rechenzentrum für den Betrieb der dezentralen Systeme unmittelbar zuständig ist
  • ob das Rechenzentrum als Dienst wesentliche Teile des Systemmanagements dezentraler Systeme mit übernehmen kann, auch wenn es diese Systeme nicht selbst betreibt
  • ob das Rechenzentrum Einfluß auf Planungs- und Beschaffungsmaßnahmen in der Hochschule nehmen kann, sei es durch unverbindliche Beratung oder durch verbindliche Vorgaben
  • ob dem Rechenzentrum seitens der Hochschule zugestanden wird, nur solche dezentralen Lösungen durch Beratung und Hilfestellung zu unterstützen, deren Einsatz es empfiehlt
  • wieweit die Unterstützung durch das Rechenzentrum auch für solche Lösungen gehen muß, die es nicht selbst betreibt (z.B. reine PC-Netze, obwohl sich das Rechenzentrum für eine plattformübergreifende Lösung entschieden hat); hier ist insbesondere zu prüfen, ob nicht schon allein aus diesem Grunde der Betrieb einer solchen Lösung im kleineren Rahmen im Rechenzentrum selbst doch angezeigt ist, um das nötige Know-How zu erwerben und zu behalten.