Sicherheit und Anonymität im WWW

Teil 1 - Hintergründe

Das World Wide Web (WWW) hat sich in den vergangenen 10 Jahren zu einem weit verbreiteten und viel genutzten Medium entwickelt. War die Nutzerschaft in den Anfängen noch ein eher technisch orientiertes Publikum, das über wissenschaftliche Fragestellungen diskutierte, so verwenden heute zahlreiche Personen aus beruflichen oder privaten Gründen mehr oder weniger regelmäßig einen Webbrowser. Grundwissen des Nutzers über das verwendete Medium ist nicht mehr notwendig, gleichzeitig sind die Nutzungsmöglichkeiten des WWW wesentlich komplexer und vielfältiger geworden. Für die Entwickler des WWW gab es damals kaum Gründe, das Medium so zu konzipieren, dass Privatsphäre und Anonymität gewahrt bleiben. Die Zahl der Anbieter und Nutzer hat sich jedoch enorm vergrößert, und so wundert es nicht, dass unter den vielen seriösen Angeboten auch zweifelhaftere zu finden sind. Um so wichtiger ist es, ausreichend über die Folgen informiert zu sein, die sich aus einer unkritischen Nutzung des WWW ergeben können.

Gottfried W. (Namen aus Personenschutzgründen geändert) ist ein vorsichtiger Mensch. Als wissenschaftlicher Mitarbeiter an einem kleinen Institut geht er vorsichtig und sorgsam mit allen Geräten und Rechnern um, die ihm an seinem Arbeitsplatz zur Verfügung gestellt werden. Nirgends sind Passwörter auf Zetteln notiert, beim Verlassen des Arbeitsplatzes aktiviert er einen Bildschirmschoner mit Passwortschutz und schließt sein Zimmer ab. Briefe, die dienstliche oder persönliche Informationen enthalten, die nicht an die Öffentlichkeit dringen sollen, werden sorgsam durch den Papierschredder gejagt, den sie unlesbar und in tausend Stücken wieder verlassen.

Beobachten wir unseren vorsichtigen Zeitgenossen aber an seinem Arbeitsplatz am Rechner, so ergibt sich bei genauerem Hinsehen ein nicht ganz konsequentes Verhalten, was vermutlich darauf zurückzuführen ist, dass Gottfried W. in diesem Bereich nicht genügend sensibilisiert ist, um argwöhnisch zu sein. Wovon hier die Rede ist, wird beim Weiterlesen verständlich.

Internet - Webbrowser - Webserver - ein Schnelllehrgang

Damit wir uns der Problematik widmen können, sind vorab ein paar einführende Worte zum HTTP-Protokoll notwendig. Dieses Protokoll ist die Sprache, mit deren Hilfe sich Webbrowser und Webserver über das Internet "unterhalten". Damit die Kommunikation klappt, muss der Webbrowser wissen, wie die Adresse des Webservers ist, und der Webserver wiederum muss wissen, an wen er seine Antwort, also z.B. die Webseite, zurückschicken soll. Daher hat jeder Rechner im Internet eine ihm eindeutig zugeordnete Adresse, die so genannte IP-Adresse. Meistens gehört zu jeder IP-Adresse auch ein Domainname, der dann ebenfalls übermittelt wird.

Das HTTP-Protokoll ist jedoch weitaus geschwätziger und beschränkt sich nicht auf das unbedingt notwendige Minimum, sondern übermittelt eine ganze Reihe von Informationen, die nicht immer alle für eine bestimmte Kommunikation wichtig sind, aber automatisch bei jedem Mausklick komplett weitergegeben werden.

In unserem Zusammenhang sind die folgenden vom Webbrowser mitgeschickten Informationen von Interesse, die der Webserverbetreiber mitprotokollieren kann:

  • IP-Adresse
  • Zugehöriger Domainname
  • Der URL der Seite, aus der der abgerufene Link angeklickt wurde (HTTP-Referer).
  • Ein Kürzel für den benutzten Webbrowser, z.B. Mozilla/4.7 [en] (X11; I; Linux 2.2.12 i686) für Netscape (englische Version). Nebenbei erfährt man aus diesem Kürzel meist auch das verwendete Betriebssystem und welche Version davon, hier Linux 2.2.12 auf einem Intel-PC.
  • Viele Browser übermitteln auch E-Mail-Adressen und/oder den Login-Namen, falls diese dem Browser bekannt sind (Die E-Mail-Adresse kann vom Browser beispielsweise als Passwort für den Zugang zu einem anonymen FTP-Server oder über aktive Inhalte wie JavaScript und ähnliches übermittelt werden).

Auf der Testseite "Über Sie - About You" können Sie selbst überprüfen, welche Daten von Ihrem Browser an den WWW-Server des LRZ übermittelt werden.

Es gibt eine ganze Reihe anderer Webserverbetreiber, die ähnliche Dienste zum Selbsttest zur Verfügung stellen, hier eine kleine Auswahl:

Das scheint zunächst schon sehr viel Information zu sein, wenn man jedoch von E-Mail-Adressen und Login-Namen einmal absieht, die ohnehin eher selten übertragen werden, so kann man als Serverbetreiber noch relativ wenig mit dem Rest anfangen, da die Daten nicht oder nur geringfügig personenbezogen sind. Hinzu kommt, dass die Vielzahl von Internetnutzern, die sich über einen Provider einwählen, bei jedem Einwählvorgang eine neue, dynamisch zugeteilte IP-Adresse aus dem IP-Pool des Providers (z.B. 100 IPs für 800 Nutzer) erhalten. Wer einen fest installierten Anschluss hat - in Instituten und Firmen meist der Fall - hat zwar meist auch eine feste IP-Adresse, nutzt dann aber in der Regel auch einen Proxyserver, der - wiederum in der Regel - die Client-IP-Adresse nicht weitergibt. Der Webserverbetreiber sieht also nur die IP-Adresse des Proxyservers. Ausnahmen von dieser Regel machen zum einen Proxybetreiber, die ihren Proxy so konfigurieren, dass er die IP-Adresse des Webclients weitergibt. Zum anderen müssen Nutzer des Microsoft-Internet-Explorers die Voreinstellung des Browsers rückgängig machen, damit dieser Browser die eigene IP-Adresse nicht trotzdem über einen Proxy weitergibt: "Zählen der übertragenen Seiten" unter Internetoptionen --> Erweitert ausschalten. Netscape-Nutzer müssen nichts tun, für sie ist nur die Konfiguration des Proxybetreibers ausschlaggebend.

Übrigens: Umgekehrt kann man auch eine ganze Reihe von Informationen über einen Webserver herausfinden, hierauf wollen wir jedoch nicht weiter eingehen.

HTTP-Referer

Der HTTP-Referer ist der URL der Seite, aus der der abgerufene Link angeklickt wurde. Das klingt zunächst harmlos, kann aber für den, der den Referer kennt, sehr aufschlussreich sein. Beispielsweise erfährt ein Serverbetreiber daraus, ob seine Seiten über eine Suchmaschine gefunden wurden und mit welchen Suchbegriffen. Der HTTP-Referer ist in diesem Fall der URL zur Trefferliste, die man bei einer Suchanfrage erhalten hat, er enthält meist auch die Suchbegriffe selbst.

Wenn ein Webautor von einem zugangsbeschränkten Webserverbereich Hyperlinks zu anderen Servern legt, so erfahren die Betreiber dieser Webserver über den HTTP-Referer wiederum URLs von Seiten, die eigentlich nicht nach außen bekannt werden sollten. Auch wenn man hinter einer Firewall sitzt, muss man darauf achten, keine aufschlussreichen HTTP-Referer unbeachtet nach aussen zu transprotieren.

Angeblich kann der HTTP-Referer auch lokale Dateien enthalten, unter Linux mit Netscape war dies jedoch nicht der Fall. (weitere Tests!!) (Siehe auch Web Security)

Es kann daher durchaus sinnvoll sein, die Übertragung des HTTP-Referers zu unterbinden. Diese Möglichkeit ist jedoch nicht in den gängigen Browsermodellen vorgesehen, hierzu muss man sich spezieller Zusatzsoftware bedienen.

Cookies

Trotz einer großen Palette an Auswertungsmöglichkeiten, die ein Webserverbetreiber nun aufgrund dieser Daten hat, bleiben die Angaben weitgehend anonym und machen wenig Aussagen über das Verhalten des Individuums. Hier waren die so genannten Cookies für die Marktforscher die rettende Technik, obwohl diese ursprünglich zu andern Zwecken konzipiert wurden. Diese Cookies übermitteln Informationen, deren Inhalt der Nutzer nicht mehr unmittelbar überprüfen kann.

Schaut man nun einmal im Netscape-Konfigurationsmenü von Gottfried W. unter dem Punkt Edit - Preferences - Advanced nach, so erkennt man, dass Cookies aktiviert sind. Von dieser Tatsache hat Gottfried W. vermutlich bisher gar nichts gewusst und es auch nicht bemerken können. Was steckt dahinter?

Im Wesentlichen wird beim ersten Zugriff auf einen Webserver, der Cookies verwendet, eine eindeutige Kennziffer an den Webbrowser geschickt, die der Browser dann bei jedem neuen Zugriff auf den Webserver wieder zurück übermittelt. Somit kann der Serverbetreiber unterscheiden, ob ein Client tatsächlich dreimal auf seinen Server zugreift oder ob die Zugriffe von drei verschiedenen Nutzern vom gleichen Host (z.B. einem Proxy-Server) kommen. Er kann also den genutzten Client viel genauer identifizieren, als es allein mit der IP-Adresse möglich ist. Der Serverbetreiber kann davon ausgehen, dass der gleiche Nutzer dahinter steckt, solange die Cookie-Kennziffer bei verschiedenen Zugriffen übereinstimmt. Damit kann man jedoch die Bewegung des Nutzers am Server genau mitverfolgen. Und das nicht nur im Zeitraum eines einzelnen Tages, sondern über viele Monate hinweg, solange das Cookie "lebt"!

Mit Hilfe des Cookies kann sich der Serverbetreiber also ein wesentlich genaueres Bild seines Besuchers machen. Er weiß außerdem aus den übrigen Daten, welchen Browser dieser nutzt und wann, wie oft und wie lange er bestimmte Seiten gelesen hat.

Noch viel wertvoller wird die Information für den Betreiber, wenn er dem Ahnungslosen über diverse Formulare ein paar Fragen stellt (Wohin würden Sie gerne in Urlaub fahren?), die dieser dann brav beantwortet - und sich später - wieder ahnungslos - freut, dass auf dieser Seite so viel Werbung für Urlaub auf den Malediven angeboten wurde, wo er doch so gerne mal hinwollte. Solche Fragebögen sind gängige Praxis, insbesondere auf sogenannten Portal-Sites, auf denen man sich unter Angabe einiger persönlicher Daten "anmelden" kann. Die im Portal angebotene Informationspalette kann man sich selbst zusammenstellen, und damit hat der Betreiber ein genaues Profil seines Nutzers. Solche Einrichtungen dienen der Marktanalyse und der Sammlung personenenbezogener Daten, die dann für Werbung gezielt genutzt werden können. Zu welchen Zwecken solche Datensammlungen in Zukunft außerdem genutzt werden oder genutzt werden könnten, darüber kann man spekulieren.

Es erübrigt sich wohl, weiter darüber nachzudenken, warum auch Webkataloge und Suchmaschinen, die im Wesentlichen durch Werbung finanziert werden, so gerne Cookies setzen. Gezielte Werbung ist erfolgversprechender als breit angelegte Wurfsendungen.

Wie lange ein solches Cookie aufbewahrt wird, liegt in der Hand des Serverbetreibers - und des Nutzers! Löscht der Nutzer die Cookie-Dateien, die sein Webbrowser benutzt, so muss der Webserver beim erneuten Besuch ein neues Cookie erzeugen. Das dürfte die Identifikation des Nutzers deutlich erschweren, ist aber für den Nutzer umständlich. Die meisten Browser erlauben es jedoch, Cookies grundsätzlich ganz zu deaktivieren, was man möglichst auch tun sollte. Wer wissen möchte, welche Server versuchen, Cookies zu setzen, kann sie auch aktiviert lassen, sollte dann aber die Browserkonfiguration so einstellen, dass der Browser fragt, ob er das Cookie setzen darf.

Aus technischer Sicht sind Cookies nur dann sinnvoll, wenn man über längere Zeiträume hinweg (von Session zu Session, über Tage, Wochen, Monate) den Zustand einer WWW-Session rekonstruieren will, zum Beispiel, um bei einem Online-Kurs an der Stelle weiterzumachen, wo man zuvor aufgehört hat. Hier dient das Cookie dazu, den individuellen Einstiegspunkt am Webserver zu rekonstruieren. Bei kurzfristigen Besuchen von Websites, auch bei Warenbestellungen, die innerhalb einer Browser-Session erfolgen, ist es für den Serverbetreiber jedoch nicht notwendig, Cookies zu verwenden, hier muss man annehmen, dass das Cookie aus anderen Gründen gesetzt wird.

What´s related? - Verwandte Objekte

What´s related, in der deutschen Version von Netscape Verwandte Objekte, ist in der rechten oberen Ecke des Browser-Fensters zu erkennen. Vielleicht hat Gottfried W. den Button noch nie benutzt. Macht nichts. Bei jedem Mausklick, den er mit seinem Browser macht - wirklich bei jedem! - wird der angeklickte URL und die Seite, aus der er angeklickt wurde, an einen Server der Firma Netscape übermittelt. Netscape verspricht natürlich, die gelieferten Daten vertraulich zu behandeln und zu keinem anderen Zweck zu verwenden als dem Folgenden (Nebenbei: Was wäre, wenn die Firma aufgekauft wird und ein anderer Hausherr das Sagen hat?): Unter der Annahme, dass Gottfried W. durch sein Klicken thematisch zusammengehörige Webseiten aufsucht, kann die so gesammelte Datenbank von anderen Nutzern nach "verwandten Objekten" abgefragt werden. Ein Klick auf den besagten Button liefert eine solche Liste von Dokumenten, die aus den gesammelten Klicks vieler Nutzer zusamengetragen wurde.

Bei What´s related handelt es sich somit um eine Art Suchmaschine oder Katalog, eine sinnvolle Hilfestellung also, um sich im Datendschungel durchzuschlagen?

An sich ja, aber: Mit jeder Übertragung einer URL wird nicht nur diese übertragen, sondern der Netscape-Server weiß damit auch genau die IP-Adresse oder den Domainnamen des Rechners, von dem die Daten übermittelt wurden. Ob Kennziffern ähnlich wie bei Cookies übertragen werden, ist nicht bekannt, aber denkbar. Das ist schon etwas kritischer, denn umgekehrt könnte nun Netscape ein Profil des Nutzers erstellen, z. B. mit Angaben dazu, welche Seiten dieser im Lauf der Zeit besucht hat. Netscape könnte dies mit Hilfe der von What´s related gesammelten Daten für jeden beliebigen Server, den ein Nutzer besucht. Versprochen ist selbstverständlich, die Daten nicht in diesem Sinne auszuwerten.

Und es wird nicht nur ermittelt, welche Seiten ein Nutzer in Zusammenhang mit anderen Seiten besucht, sondern auch die Verweildauer auf einer Seite bis zum nächsten Klick. Ist eine Seite uninteressant, wird man eher gleich weitergehen. Ist die Information relevant, wird man lesen und verweilen.

Kritisch ist auch die Tatsache zu bewerten, dass URLs passwortgeschützter Seiten übertragen werden. Zwar sind die Seiten selbst damit noch nicht lesbar, wenn man nicht über das Passwort verfügt, aber immerhin sind die genauen Datenpfade am geschützten Webserver damit "veröffentlicht", was einem Angreifer die Arbeit erleichtern könnte.

Hinter What´s related steckt Alexa Internet (www.alexa.com), eine Firma mit Sitz in San Francisco, die 1996 gegründet wurde. Sie vertreibt die gleichnamige Software. Man muss nicht unbedingt Netscape mit integriertem What´s related nutzen, um in den Genuss der Alexa-Technologie zu gelangen. Alexa vertreibt auch ein eigenes Client-Programm, das unabhängig vom Browser arbeitet und das man sich kostenlos installieren kann - wenn man denn möchte. Mehr über die Technologie, die hinter Alexa steht, findet man auf den Webseiten der Firma unter http://www.alexa.com/support/technology.html.

Alexa ist somit eine Client-Server-Anwendung, die, unabhängig von anderen Applikationen wie zum Beispiel Webbrowsern, Daten vom lokalen Alexa-Client auf einen Server der Firma überträgt (und umgekehrt?). Über die Art und den tatsächlichen Umfang der Daten ist nichts weiter bekannt - das ist Firmengeheimnis.

Auch der Online-Buchshop "Amazon" nutzt Alexa - und geriet dadurch bereits in die Schlagzeilen. Wer mehr darüber wissen möchte, kann in einem Online-Artikel aus "The Standard" vom 8. Februar 2000 nachlesen, der auch in diversen anderen Online-Magazinen erschienen war. Der "Standard"-Artikel zum Thema Alexa und Amazon ist als Original-Seite nicht mehr erreichbar, aber aus dem Google-Archiv gesichert, hier der Text. Mit diesem Thema befassen sich auch die Magazine "Internet Intern" (Wertet Amazon Alexa-Daten aus?) und "Wired" (Inside Amazon's Shopping Cart) in ihren Artikeln.

Internet Keywords

Wenn diese Funktion aktiv ist, kann man anstelle der gewohnten URLs auch Wörter und Begriffe in die Location-Zeile von Netscape eingeben. Netscape schickt das Stichwort dann an einen Server der Firma, der in einer Datenbank nach URLs sucht, die zu diesem Stichwort passen. Also wiederum eine Art Suchmaschine. Mit der Übermittlung des Stichwortes werden auch Cookies ausgetauscht, die - laut Netscape selbst - nur in Zusammenhang mit dem Smart Browsing benötigt werden, ohne dass personenbezogene Daten übermittelt werden.

Netscape-Anwender können What´s related und Internet Keywords über das folgende Konfigurationsmenü (de-)aktivieren: Edit - Preferences - Navigator - Smart Browsing. Auch Nutzern des Microsoft Internet-Explorers ist das Smart Browsing, wie Netscape die beiden beschriebenen Funktionen nennt, nicht vorenthalten. Sie können von den Webseiten von Netscape ein TuneUp laden und den Explorer um diese Funktionalität erweitern.

Active Channels

Die genannte Technologie ist im Microsoft Internet Explorer ab Version 4.0 integriert. Sie setzt einen speziell ausgerüsteten Browser (den Internet Explorer) voraus und der angesprochene Webserver muss die Technologie ebenfalls unterstützen.

Um an bestimmte Informationen zu gelangen, muss man im Browser bisher explizit URLs anklicken oder eintippen. Mit den Active Channels kann man nun einen sogenannten Channel aus dem Angebot eines Webserverbetreibers auswählen, der beim Starten des Browsers oder beim Starten des Internet-Zugangs geladen wird (also beim Einwählen oder im Fall eines Festanschlusses beim Hochfahren des Rechners).

Die Gefahr für den Einzelnen liegt auch hier wieder darin, dass der Abonnent des Channels nicht mehr anonym Daten von einem Server lädt, sondern bei jedem Zugriff als Individuum wieder erkannt werden kann. Sein Interessenprofil definiert sich durch den gewählten Channel. Die Active Channel Technologie bedient sich bei der Personalisierung der bereits beschriebenen Cookies.

Etwas mehr dazu kann man auf den Webseiten von Microsoft erfahren.

Web Bugs, clear GIFs, Data Spills

Web Bugs oder auch clear GIFs ähneln den bekannten Cookies. Allerdings sehen Webbrowser keine Möglichkeit vor wie bei Cookies, diese zu deaktivieren oder zumindest zu kontrollieren. Der Web Bug ist ein winziges GIF-Bildchen (ein Pixel groß), das in die Webseite irgendwo integriert ist und dem Betrachter nicht auffällt, da es so klein ist. Es übermittelt jedoch die IP-Adresse, die URL der besuchten Webseite, die URL des Web Bug GIFs, den Zeitpunkt, an dem der Web Bug angeschaut wurde, den Browsertyp sowie die Informationen eines zuvor gesetzten Cookies an einen Server. Macht man auf einer Seite, die einen solchen Bug enthält, persönliche Angaben, so können diese zusammen mit der Bug-Id gespeichert werden und funktionieren praktisch wie ein Cookie - nur dass man nichts davon merken und den Mechanismus auch nicht abschalten kann!

Data Spills oder auch Datensplitter sind persönliche Daten, wie man sie manchmal bei der Anmeldung zu bestimmten Online-Diensten oder Rechereche-Diensten angeben muss, die bei der Anmeldung automatisch an eine Werbeagentur wie beispielsweise DoubleClick weitergeleitet werden.

Wozu der Rummel?

Man kann sich nun zwei Dinge fragen. Erstens: Wieso veranstalten Webserverbetreiber einen solchen Aufwand, um Daten über ihre Besucher zu erhalten? Zweitens: Warum sollte man sich darum kümmern, ob man einen solchen Datenschatten hinterlässt oder nicht?

Zur ersten Frage: Der Handel mit Post-Adressen ist ein lukratives Geschäft, das insbesondere in den USA weit verbreitet ist, und so wundert es nicht, dass auch elektronische Adressen, wie z.B. E-Mail-Adressen, mit zunehmender Vernetzung der Welt in den schwunghaften Handel mit aufgenommen werden. Post-Adressen werden (beispielsweise in den Vereinigten Staaten) mit Preisen um 80 US-Dollar pro tausend Stück verkauft oder auch verliehen. Für die Werbebranche ist es umso besser, wenn man nicht nur die Adresse eines Kunden hat, sondern auch noch sein Interessenprofil und eine genauere Analyse seines Kaufverhaltens etc.

Leiten wir zur zweiten Frage über: Nicht nur zu Werbezwecken können solche Datenbanken also genutzt werden. Wer über das Web oder auch einfach nur "normal" über elektronische Zahlungsmittel wie Kreditkarte o.ä. einkauft, hinterläßt eine elektronische Spur seiner Tätigkeit auf den Rechnern des Händlers A. Kommt ein Händler B in Besitz dieser Daten (durch Einsicht in die Datenbank oder Kauf!), so kann er sie zu Zwecken nutzen, die der Kunde von Händler A gar nicht bedacht hat.

Beispiel: In USA ist es Apotheken erlaubt, Kundendaten zu sammeln und weiterzugeben, inklusive Information darüber, welche Medikamente der Kunde kauft. Kommen solche Daten in die Hände einer Krankenkasse oder eines zukünftigen Arbeitgebers, so kann die Kasse dem Kunden aufgrund der Daten die Versicherung verweigern, bzw. der Arbeitgeber kann die Einstellung ablehnen, falls man beispielsweise aus den gekauften Medikamenten auf eine langfristige, teure Erkrankung schließen kann. Solche Fälle sind in den USA bekannt geworden, viele ähnliche Beispiele sind im Buch "Database Nation: The Death of Privacy in the 21st Century" von Simson Garfinkel ('Reilly & Associates 1999) zu finden.

Kombiniert man solche Datenbanken, so kann man über die betroffenen Personen erstaunliche Aussagen machen. Ein noch ziemlich neues Beispiel ist der Fall DoubleClick, der erst kürzlich durch die Medien ging (siehe drei Heise-Newsticker). In Kürze: Die Online-Marketingagentur DoubleClick will eine Datenbank der Marktforschungsfirma Abacus Alliance kaufen, die mehr als 2 Millionen Kundenprofile enthält, inklusive Namen, Adressen und einiges mehr. DoubleClick könnte diese dann mit seinen gesammelten Surfprofilen verknüpfen. Darunter wären beispielsweise auch die Surfprofile aus den Webseiten der Firma Intuit, die die Finanz-Software Quicken vertreibt und die auf ihren Webseiten (www.quicken.com) individuelle Finanzierungsberechnungen ermöglicht. Wie bei jeder Übertragung von Webseiten, so wurde auch für diese Seiten der HTTP-Referer an DoubleClick übertragen. Hat jemand nun auf den Webseiten von Quicken eine Zinsberechnung durchgeführt, so waren die für die Berechnung notwendigen Gehaltsangaben mit im URL enthalten und wurden an DoubleClick übermittelt! Keiner der betroffenen Kunden kann wissen, ob er überhaupt in dieser Datenbank enthalten ist und wer darauf Zugriff hat. Inzwischen haben zahlreiche Proteste und auch das Einschreiten der US-Behörden dem Plan zunächst Einhalt geboten. Es ist abzuwarten, wie man sich einigt.

Die heimlichen Dritten

Inzwischen hat Gottfried W. seinen Webbrowser so konfiguriert, dass er einen Proxyserver verwendet. Cookies, What´s Related und Internet Keywords sind deaktiviert. Bisher haben wir jedoch nur in die Weite des Internet geblickt und die Kommunikation zwischen einem Webclient und einem Webserver betrachtet. Aber warum in die Ferne schweifen?! Immer noch weiß jemand darüber Bescheid, welchen Webserver Gottfried W. angesprochen hat: nämlich der Betreiber des Proxyservers!

Wie Webserver so protokollieren auch Proxyserver die Kommunikation, sie erhalten die gleiche Information wie der eigentliche Webserver. Aufgepasst: Das Protokoll enthält sämtliche Verbindungen, die über den Proxy abgewickelt wurden, also ein komplettes Surferprofil! Oft gehört der Proxyserver der gleichen Organisation an, zu der auch der Nutzer gehört. Dann kann der Betreiber des Proxyservers meist sehr genau zurückverfolgen, welche Person zu einem bestimmten Zeitpunkt eine bestimmte IP-Adresse, also einen bestimmten Rechner, genutzt hat. Das Surferprofil kann also unserem Gottfried W. exakt zugeordnet werden. Somit ist die Verwendung des Proxyservers also Vertrauenssache, informieren Sie sich gründlich über den Anbieter des Proxyservers!

Haben Sie einen vertrauenswürdigen Proxyserver gefunden, so sind Sie möglicherweise aber immer noch nicht vollkommen unerkannt. Auch Webclients, seien es Netscape oder MS-Internet-Explorer, protokollieren: Sie führen einen lokalen Cache der besuchten Webseiten, eine History-Datei mit den zuletzt besuchten Seiten, Cookie-Dateien und Bookmarks (Lesezeichen). Wer Zugang zu diesen Daten hat, kann sehr viel darüber erfahren, zu welchen Zwecken der Nutzer seinen Webclient eingesetzt hat. Am heimischen PC sind das in der Regel Familienmitglieder und eventuell Besucher. Am Arbeitsplatz haben notwendigerweise immer der Arbeitgeber und/oder die Systemadministratoren in irgendeiner Weise Zugriff, den diese nach deutschem Recht allerdings nicht zum "Ausspionieren" verwenden dürfen. Vergewissern Sie sich aber auf alle Fälle, insbesondere in vernetzten Umgebungen, dass niemand unberechtigt Zugriff auf diese Informationen hat.

Was raten wir Gottfried W.?

In Deutschland sind die Datenschutzregelungen wesentlich strenger als in den USA und der Umgang mit personenbezogenen Daten ist sensibler. Aber dennoch ist es ratsam, sich auch in unseren Landen vorzusehen und nicht zu glauben, man wäre wirklich anonym im Netz! Wo immer möglich, sollten Sie elektronische Datenschredder wie z.B. (vertrauenswürdige) Proxyserver verwenden. Deaktivieren Sie Cookies, What´s Related und Co. und überlegen Sie lieber dreimal, bevor Sie Webformulare mit personenbezogenen Angaben ausfüllen, Chatrooms, Clubs und dergleichen online beitreten, Portal-Sites nutzen oder Käufe im Internet tätigen. Wählen Sie Ihren Provider sorgfältig aus, hinterlassen Sie so wenig Spuren wie möglich und nur so viel wie unbedingt nötig und Ihrer Meinung nach vertretbar, sowohl zu Hause als auch am Arbeitsplatz.

Literatur

Teil 2 - praktische Tipps

Anonymität ist ein elementares Recht jedes einzelnen. Das drückt sich auch im Multimediagesetz (Informations- und Kommunikationsdienstegesetz (IuKDG) vom 1.8.1997) aus. Allerdings sieht die Praxis in diesem Bereich zurzeit anders aus. Nur wenige Softwareprodukte und Technologien, die in den letzten Jahren in Zusammenhang mit dem steilen Wachstum des Internets boomten, berücksichtigen dieses Recht in ihrer Implementierung. Meist kann man notdürftig "im Nachhinein" Maßnahmen ergreifen, die eine gewisse Wahrung der Privatsphäre erlauben. Ohne Eigeninititiative ist man meist alles andere als anonym im Netz. Was also kann man tun?

Was wissen "die" von mir?

Im letzten Rundschreiben haben wir darüber berichtet, welche Datenspuren man beim Navigieren im Netz auf den verschiedensten Rechnern und bei verschiedensten Anbietern von Webinhalten hinterlässt und auf die Gefahren aufmerksam gemacht, die damit verbunden sein können. Wer selbst gerne genauer überprüfen möchte, was man über ihn so alles erfahren und ausspionieren kann, der möge sich eine Weile Zeit nehmen und die folgenden Testseiten mit seinem eigenen Browser durcharbeiten. Sämtliche Tests gehen davon aus, dass ein beliebiger Browser aus dem "anonymen" Internet (weltweit) auf den Webserver zugreift. Daraufhin wird versucht, möglichst viel über diesen Fremden herauszufinden.

Auf allen anderen Webservern und Proxyservern, die man nutzt, fallen natürlich die gleichen Daten an wie auf den hier aufgezählten Testservern. Bei Providern, in Firmen, Instituten, Behörden etc. allerdings mit einem nicht unbedeutenden Unterschied: Der Nutzer der IP-Adresse kann hier meist namentlich ermittelt werden, beispielsweise ein Benutzer an einem Mitarbeiter-PC oder jemand, der sich über einen Wählzugang eingewählt hat. Auch wenn man auf Multi-User-Systemen wie Workstations oder Terminalservern und dergleichen arbeitet, wo alle Browsernutzer die gleiche IP-Adresse haben, ist die Zahl der in Frage kommenden Personen begrenzt, da nur ein genau bekannter Personenkreis Zugang zu diesem Rechner hat. Hier stoßen wir allerdings in einen Bereich vor, der nicht mehr Inhalt dieses Artikels ist, denn wir wollen uns auf Datenspuren im "anonymen" Internet beschränken.

Vollständige Anonymität kann es nie geben. Welche Maßnahmen kann man aber nun ergreifen, um die Anonymität möglichst weitgehend zu schützen?

Sofortmaßnahme: Browserkonfiguration

Überblick über die wichtigsten Konfigurationspunkte

Grundsätzlich gilt: Welchen Browser auch immer Sie verwenden, bringen Sie so viel wie möglich in Erfahrung über das verwendete Produkt (Zeitungen, Mailinglistenarchive, Newsartikel, Suchmaschinen durchstöbern). Überprüfen Sie die Konfiguration auf die folgenden Punkte und stellen Sie sie nach Ihren Wünschen ein:

  • Cookies, Empfehlung: deaktivieren
  • Netscape Smart Browsing: What's Related (Alexa), Internet Keywords, Empfehlung: deaktivieren
  • Microsoft Active-Channels, Empfehlung: nicht verwenden
  • Aktive Inhalte, Empfehlung: deaktivieren oder zumindest nur bei Bedarf aktivieren.
    • Java
    • JavaScript
    • ActiveX
  • Proxyserver, Providerabhängig entscheiden

Nachdem Netscape Navigator und Microsoft Internet Explorer immer noch die am meisten verwendeten Browser sind, seien deren individuelle Konfigurationen hier noch etwas genauer beschrieben.

Microsoft Internet Explorer (MSIE)

Im MSIE gibt es mehrere Bereiche, in denen sicherheitsrelevante Konfigurationen durchgeführt werden. Sie sind alle zu finden unter:

Extras --> Internetoptionen

Hier findet man mehrere "Karteikarten", in denen man die gewünschten Einstellungen machen kann. Leider wechselt das Aussehen der Menüs von NT zu Windows 95/98 und von Version zu Version, so dass eine Dokumentation der durchzuführenden Mausklicks am Browser hier nicht sinnvoll ist. Es empfiehlt sich aber ohnehin, sich mit dem Browser so weit vertraut zu machen, dass man die hier gelisteten Einstellungen ohne weitere Hilfe selbst vornehmen kann, möglicherweise ändert man auch im Laufe der Zeit einiges.

Um die vorgeschlagenen Einstellungen verstehen zu können, seien ein paar Worte zum gesamten Sicherheitskonzept im MSIE gesagt. Der MSIE teilt das gesamte Internet - also alle Dienste, die über den Browser erreichbar sind - in vier Zonen auf:

  • Internet: enthält alle Websites, die in keiner anderen Zone enthalten sind.
  • Lokales Intranet: enthält alle Websites im Intranet, in dem der MSIE läuft, also im lokalen Netzwerk und im Netzwerk des verwendeten Proxyservers.
  • Vertrauenswürdige Sites: Liste von individuellen Sites, denen Sie vertrauen.
  • Eingeschränkte Sites: Sites, denen Sie eher nicht vertrauen.

Jede einzelne dieser Zonen kann individuell konfiguriert werden. Für jede Zone kann man außerdem eine von vier möglichen Sicherheitsstufen auswählen: hoch, mittel, niedrig, sehr niedrig. Diese vier Sicherheitsstufen wiederum sind bereits vorkonfiguriert, es empfiehlt sich jedoch unbedingt eine genauere Kontrolle (siehe weiter unten im Text), insbesondere deshalb, weil man nicht unbedingt einverstanden sein muss mit den Voreinstellungen. Beispielsweise sind in der Internet-Zone aktive Inhalte wie ActiveX erlaubt, was den benutzten Rechner aufgrund der Sicherheitslücken in ActiveX potenziellen Angriffen aus aller Welt aussetzt.

In Bezug auf Sicherheit sollte man beim MSIE insgesamt folgendes beachten und nach eigenen Wünschen einstellen:

  • Die auf der Karteikarte "Sicherheit" (Internetoptionen --> Sicherheit) von Microsoft vorgeschlagenen Sicherheitsstufen sind nicht unbedingt ausreichend sicher, so dass die individuelle Konfiguration über den Punkt "angepasst - (nur für erfahrene Benutzer)" zu empfehlen ist. Hier ist folgendes einzustellen:
    • Deaktivieren Sie sämtliche Active-X-Elemente (mehrere Punkte)
    • Deaktivieren Sie sämtliches Scripting (mehrere Punkte)
  • Unter Internetoptionen --> Inhalt keine persönlichen Angaben im Microsoft Profil-Assistenten machen.
  • Unter Internetoptionen --> Erweitert
    • Cookies deaktivieren
    • "Zählen der übertragenen Seiten" ausschalten, sonst wird der Rechnername oder die IP-Adresse an den Server übermittelt, auch wenn man über einen Proxy geht. Außerdem würden Zugriffe auf Webseiten auch beim Offline-Lesen mitprotokolliert und beim nächsten Besuch an die Website übertragen!
    • "Auf zurückgezogene Zertifikate überprüfen" einschalten
    • PCT 1.0 ausschalten, wird nicht benötigt und enthält evtl. unnötige Sicherheitslücken.
    • "Verschlüsselte Daten nicht auf der Festplatte abspeichern" einschalten
    • "Gespeicherte Seiten beim Beenden des Browsers löschen" einschalten

Interessant ist auch der Menüpunkt Extras --> Verwandte Links anzeigen (ab MSIE V5.0). Offensichtlich nutzt MSIE inzwischen auch Alexa. Ob und wann im MSIE Daten beim Navigieren durch beliebige Seiten an Alexa oder Microsoft übertragen werden wie bei Netscape, ist noch unbekannt. Ich habe allerdings - im Gegensatz zu Netscape - noch keine Möglichkeit gefunden, dies abzuschalten (dafür aber einen Download-Button, um den kompletten Alexa-Service zu laden ...).

Netscape Communicator

Die Konfiguration des Communicators erfolgt über das Menü Bearbeiten - Einstellungen. Hier gibt es mehrere Kategorien. Sicherheitsrelevant sind:

  • Navigator - Smart Browsing Hier kann man What´s Related/Verwandte Objekte und Internet Keywords/Internet Schlüsselbegriffe ausschalten.
  • Erweitert (De-)Aktivieren von Java, JavaScript, Cookies, E-Mail-Adresse als anonymes FTP-Passwort
  • Erweitert - Proxies Einstellen des gewünschten Proxyservers

Will man Netscape nur als Webbrowser einsetzen, nicht aber als E-Mail- und/oder Newsclient, dann sollte man keine persönlichen Angaben unter Mail & Diskussionsforen machen. Die Einstellungen hier sind dann nicht notwendig und man sollte grundsätzlich keine überflüssigen Angaben machen.

Über den Button Sicherheit kann man sämtliche digitalen Signaturen, oft auch als Zertifikate bezeichnet, verwalten, sowohl eigene als auch diejenigen, die man von anderen Servern importiert hat. Webkommunikation über Zertifikate garantiert u.a., dass die zertifizierten Daten tatsächlich vom angewählten Server kommen und nicht durch Dritte manipuliert worden sind. Eine genauere Beschreibung der relativ komplexen Materie kann hier nicht erfolgen. Im Wesentlichen kann man in diesem Menü festlegen, über welchen Zeitraum hinweg man ein Zertifikat akzeptieren will und wie oft es auf Gültigkeit geprüft werden soll. Die Voreinstellungen des Navigators sind hier in der Regel ausreichend sicher.  

Nutzung proxy-ähnlicher Dienste: Anonymizer, Rewebber und Mixe

Im Netz findet man einige Anbieter von so genannten Anonymizern. Es handelt sich hierbei um speziell konfigurierte Proxyserver. Sie werden am Webclient genauso eingetragen wie normale Proxies und funktionieren auch nach dem gleichen Prinzip. Das besondere an ihnen ist, dass sie sämtliche HTTP-Header-Informationen gegen einen anonymen Header austauschen, sodass der Webserver garantiert nur noch den Anonymizer als Webclient identifizieren kann. Die Verwendung solcher Server ist jedoch Vertrauenssache! Außerdem ist die Performance oft nicht mehr besonders gut, wenn man einen solchen Proxy anwählt, der netztechnisch weit entfernt liegt, möglicherweise sogar im Ausland.

Rewebber haben ähnliche Funktionalität wie Proxyserver, jedoch muss man sie nicht im Browser als Proxyserver konfigurieren, sondern man navigiert über den Rewebber zum eigentlichen Server. URL-Beispiel:

    http://www.rewebber.de/surf_encoded/http://www.lrz-muenchen.de/
    

Der Rewebber holt beim Aufruf dieser URL die Webseite vom eigentlichen Server, hier also www.lrz-muenchen.de und gibt sie an den Webbrowser weiter. Die geladene Webseite ist gegenüber der ursprünglichen verändert: Sämtliche URLs, auf die man von dieser Seite aus klicken kann, werden über den Rewebber umgeleitet. Ist man also einmal über den Rewebber auf einer Webseite eingestiegen, nutzt man ihn solange, bis man einen URL lädt, der diese Umleitung nicht mehr enthält. Testen kann man diese Art Zugang unter [4]. Da der Rewebber ohnehin jede HTML-Seite schon in der beschriebenen Weise verändert, bietet es sich für die Anbieter der meist kostenlosen Dienste natürlich an, zusätzlich noch Werbung mit einzublenden.

Ein Mix-System besteht aus mehreren Stationen (Mixe), über die Nachrichten geschickt werden. Das Konzept wurde ursprünglich von David Chaum [3] zur Verwendung bei E-Mail entwickelt, ist aber auf andere Netzdienste wie beispielsweise das WWW übertragbar. Jeder Mix sammelt die eingehenden Nachrichten, sortiert sie um und sendet sie nach einer gewissen Zeit weiter. Damit kann kein Zusammenhang zwischen den eingehenden und den ausgehenden Nachrichten hergestellt werden. Wenn auch nur ein einziger Mix vertrauenswürdig arbeitet, ist das ganze System vertrauenswürdig, d. h. der Nutzer bleibt anonym. Die Kommunikation innerhalb der Mixe erfolgt verschlüsselt und kann somit auch nicht von Dritten abgehört werden. Nachteil der Mixe ist, dass sie hohe Netzlast erzeugen. Mixe stehen noch nicht öffentlich zur Verfügung, sondern man findet lediglich einzelne Pilotprojekte [5].

Alles im Griff: Eigener Proxyserver, eigene Firewall

Allgemeines

Hiermit sind solche Proxyserver gemeint, die speziell auf den Bedarf des Einzelnutzers zugeschnitten sind und die man auf dem eigenen Rechner, zu Hause oder am Arbeitsplatz installiert. Sie können unterschiedliche Funktionsbereiche abdecken:

  1. Filterung von Daten, die vom Webclient nach außen übertragen werden.
  2. Filterung von Daten, die von außen zum Webclient übertragen werden.
  3. Filterung von Werbebannern, animierten Bildern und Pop-Up-Menüs aus HTML-Seiten.

Während die Installation dieser Tools meist noch verhältnismäßig einfach ist, sollte man für die Konfiguration und den praktischen Einsatz jedoch ein wenig Erfahrung und Hintergrundwissen mitbringen.

Ein lokal installierter Proxyserver kann auch zusätzlich einen Proxyserver Ihres Providers verwenden. Es ist auch möglich, ihn mit Kollegen gemeinsam zu benutzen. Meist hat die Verwendung auch noch einen positiven Nebeneffekt, von dem insbesondere Netznutzer, die sich über einen Wählzugang ins Internet einklinken, profitieren: Man spart Netzbandbreite, da die gefilterten Daten erst gar nicht geladen werden müssen. Der Webzugang wird schneller. WWWoffle ist außerdem sogar ein sehr effektiver cachender Proxy. Hat man ein paar Megabyte Plattenplatz übrig, kann man diesen für den Cache reservieren und dann auch offline und ohne Zeitdruck Daten aus dem Cache lesen.

Im Folgenden werden die drei Proxyserver Webwasher, Junkbuster und WWWoffle kurz vorgestellt.

Webwasher

Diese Software gibt es für Windows 95/98/NT/2000 sowie auch für Macintosh. Sie dient in erster Linie dazu, Werbebanner, animierte Bilder und Pop-Up-Menüs aus Webseiten herauszufiltern. Diese Funktionalität ist zwar durchaus erwähnenswert und dient insofern auch der Wahrung der Privatsphäre, als dass sie die zunehmende "Bevormundung" des Lesers durch die zahlreichen Werbebanner unterbindet. In unserem Zusammenhang sind aber andere mitgelieferte Merkmale interessant: Mit dem Webwasher kann das Senden des HTTP-Referers, also derjenigen URL, von der die Seite angeklickt wurde, unterbunden werden und man kann eine Liste von URLs angeben, die auf alle Fälle weggefiltert oder aber auch durchgelassen werden sollen. Der Webwasher sendet als User-Agent den tatsächlich vom Webbrowser geschickten String. Per Voreinstellung erhält dieser jedoch eine Erweiterung, dass Webwasher verwendet wurde. Dies kann man aber abstellen.

Der Webwasher ist für den privaten Gebrauch kostenlos. Zur weiteren Dokumentation und zum Download siehe:

http://www.webwasher.de/

Internet Junkbuster

Den Junkbuster gibt es für Windows 95/98/NT und Unix/Linux-Systeme. Wie der Webwasher so unterdrückt auch der Junkbuster das Laden von Werbung aller Art. Hierzu wird eine Blockliste verwendet, die man sich aus dem Netz regelmäßig in aktualisierter Version beschaffen oder selbst pflegen sollte. Mit dem Junkbuster kann man außerdem Cookies verwalten, was vor allem nützlich ist, wenn man bestimmten Webservern Cookies erlauben möchte und anderen nicht.

Mit dem Junkbuster kann man fast den gesamten HTTP-Header kontrollieren, der vom Webclient an einen fremden Webserver gesendet wird. Somit hat man es selbst in der Hand, welchen User-Agent man hier angeben möchte, ob ein HTTP-Referer mitgeliefert wird und so weiter. IP-Adresse und Domain-Namen sind diejenigen des Rechners, auf dem der Junkbuster läuft, also in der Regel die gleichen wie die des verwendeten Webclients. Schaltet man jedoch noch einen Proxyserver hinter den Junkbuster, so sieht der Webserver nur noch die IP-Adresse des letzten Proxyservers in der Kette.

Der Junkbuster ist frei verfügbar unter der GPL (Gnu Public License), Dokumentation und Download siehe:

http://www.junkbuster.com/

WWWoffle

WWWoffle läuft unter Unix/Linux-Systemen sowie unter Windows NT. Eine Version für Windows 95 existiert, diese läuft aber nicht korrekt. Der Proxy dient in erster Linie als cachender Proxyserver und ermöglicht es, ohne Netzanbindung in diesem Cache zu navigieren. Seiten, die man anklickt, die aber noch nicht im Cache liegen, werden in einer Liste notiert und dann auf Wunsch beim Umschalten auf Online-Betrieb automatisch nachgeladen. Auch ein rekursives Laden ist möglich. Durch den Cacheinhalt kann man nach verschiedenen Kriterien navigieren, z.B. kann man sich alle in der letzten Sitzung besuchten Seiten listen lassen, oder alle Seiten, die beim nächsten Online-Betrieb nachgeladen werden und dergleichen. Es ist auch möglich, eine eigene Suchmaschine (ht://Dig) zur Suche über den Cacheinhalt zusätzlich zu installieren. Was überhaupt im Cache landen soll, ist natürlich auch konfigurierbar.

Das Programm kann komplett über den Webbrowser gesteuert werden, einschließlich des Umschaltens zwischen Online- und Offline-Betrieb.

Interessant ist WWWoffle in unserem Zusammenhang vor allem auch deshalb, weil man, ähnlich wie beim Junkbuster, die HTTP-Header gezielt definieren kann. Auch kann man genau festlegen, welche Arten von Web-Dokumenten und welche im HTML-Code integrierten Skripten und dergleichen erlaubt sind. Man kann damit beispielsweise das Laden von Frames oder Bildern abschalten, oder aber festlegen, dass Java- oder JavaScript-Elemente aus dem HTML-Code entfernt werden.

WWWoffle kann auch als FTP-Proxy verwendet werden, hier kann man genau festlegen, mit welchem Benutzernamen man sich bei einem anonymen FTP-Server anmeldet und muss dies nicht dem Zufall oder den im Webbrowser eingebauten Voreinstellungen überlassen.

WWWoffle ist freigegeben unter der GPL, Dokumentation und Download siehe:

http://www.gedanken.demon.co.uk/wwwoffle/

Tipp: Eine gutes Gespann bilden WWWoffle und Junkbuster, wenn man sie einfach hintereinander schaltet. Im Webbrowser konfiguriert man dazu WWWoffle als Proxyserver. WWWoffle wiederum verwendet Junkbuster als Proxy, und der Junkbuster kann dann entweder direkt ins Netz gehen oder aber den Proxyserver des Providers verwenden. Diese Kombination ist übrigens keineswegs langsam! Im Gegenteil: Durch die Filterung der Werbung und die effiziente Nutzung des Cache wird das Laden erheblich schneller. Außerdem wird weniger Netzbandbreite benötigt. Beides werden vor allem Nutzer eines Wählmodemzugangs zu schätzen wissen.

Literatur