Mehr als neun Milliarden Webseiten in 185 Sprachen durchsucht und so etwa 1330 Tebibytes (das sind etwa 1462 Terabytes) an Inhalten indiziert und katalogisiert: Auf dieser Arbeit baut der offene Webindex OWI auf, den das von der EU geförderte Projekt OpenWebSearch.EU (OWS.EU) im Mai 2025 veröffentlichte. „Dieser Index kann von Einzelpersonen oder Organisationen genutzt werden, um eigene Suchmaschinen zu entwickeln“, sagt Prof. Michael Granitzer von der Universität Passau und Projektleiter von OWS.EU.
Die technischen Grundlagen für neue, spezialisierte Suchdienste zu schaffen, die nicht nur die sprachliche und soziokulturelle Vielfalt in Europa widerspiegeln können, das war die Vision, mit der OWS.EU im Herbst 2022 startete. 14 Organisationen aus sieben europäischen Ländern – neben Universitäten, Forschungsinstituten und Unternehmen auch Supercomputing-Zentren wie das Leibniz-Rechenzentrum (LRZ) – erarbeiteten zusammen eine Infrastruktur zur Erfassung und Katalogisierung von Internetdaten. Ohne diese sind weder Suchmaschinen noch Suchdienste denkbar, die auf großen, künstlich intelligenten Sprachmodellen basieren. OWI ist das zentrale Ergebnis dieser Anstrengungen – im Gegensatz zu seinen kommerziellen Kollegen ist der Webindex öffentlich zugänglich und wie Open-Source-Software frei verfügbar. Außerdem ist OWI transparent aufgebaut, die Quellen von Suchergebnissen können leicht nachvollzogen und überprüft werden.
Neue Services sind vor allem eine Frage von „Ressourcen und Kosten“, wie Granitzer erläutert. Für OWS.EU waren Server von mehreren Supercomputing-Zentren im Dauereinsatz, um täglich rund 100 Millionen von Webadressen zu durchforsten. Trotzdem ist das nur ein Bruchteil des Aufwandes, den die Betreiber der kommerziellen Suchmaschinen Google, Bing oder Baidu treiben: „Um mithalten zu können, müssten wir unsere Anstrengungen um das 20- bis 30-Fache steigern“, so Granitzer, das wäre durchaus machbar, „aber wir müssten Leute einstellen, um den Dienst aufrecht zu erhalten und wir müssten mehr Speicherplatz kaufen.“ Einen Webindex 24 Stunden am Tag und das ganze Jahr über zu betreiben, ist kostenintensiv – und überfordert natürlich ein öffentlich gefördertes Forschungsprojekt. Die Hoffnung bleibt trotzdem, dass sich Unternehmer und Investorinnen finden, die mit OWI innovative Geschäfte und Services aufbauen.
Dass OWI dazu eine gute Grundlage bildet, ist bereits erwiesen. Sieben von OWS.EU geförderte Community-Projekte entwickelten aus dem Webindex Geschäftsideen, Suchdienste und Werkzeuge für Unternehmen oder Organisationen, etwa einen Faktencheck für aktuelle Themen oder ein Tool zum Aufbau von Online-Shops aus den Informationen von Planungssoftware (ERP). Das Know Research Center in Graz, das aus Forschungsergebnissen Lösungen für Wirtschaft und Gesellschaft entwickelt, baute mit 200.000 von OWI indizierten Websites sowie KI-Modellen eine auf Gesundheitsthemen spezialisierte Suche. Tilde rankt die Ergebnisse einmal nicht nur nach der Beliebtheit oder Reichweite von Aussagen, sondern nach deren Zuverlässigkeit: „Für jedes Suchergebnis gibt Tilde die Quellen an und bewertet die Vertrauenswürdigkeit“, erklärt Projektleiter Dr. Michael Jantscher. „Nutzende können dabei selbst einstellen, welche Informationen sie für wichtiger halten – wissenschaftliche Studien, Fachartikel, Blogs oder Social Media.“ Mit dem Dienst ist auf Basis des OWI eine Blaupause für weitere Themen-Suchen sowie für Folgeprojekte entstanden: „Die Erfahrungen und Strategien aus dem OWS-Projekt können wir bei anderen Aufgaben wieder verwenden“, so Jantscher
Wie Tilde sollen auch die anderen Use Cases oder technischen Lösungen zur Indizierung von Webinhalten Gründerinnen und Firmen inspirieren. Denn das kann sich lohnen – für Unternehmen wie auch für Europa oder die Gesellschaft. Laut einer Studie der Münchner Beratung Mücke, Roth & Company könnten sich Investitionen auf Basis von OWI in etwa vier Betriebsjahren rentieren. Der Profit, den die EU aus Online-Suchdiensten, den daraus resultierenden wirtschaftlichen und gesellschaftlichen Verbesserungen sowie einer höheren technologischen Wettbewerbsfähigkeit ziehen könnte, wird mit rund 4,5 Milliarden Euro beziffert.
Doch auch in der Forschung geht es weiter: Das Projekt „Skalierbare, offene und umfassende Erkennung von Desinformationskampagnen im Web“ oder kurz: SOURCE wird auf OWS.EU aufbauen und eine europaweit nutzbare, offene Forschungs- und Analyseinfrastruktur zur Identifikation und Untersuchung von Desinformationskampagnen entwickeln. Deren Ziel wird es unter anderem sein, mit Hilfe von OWI kontinuierlich große Mengen an Web- und Socialmedia-Inhalten zu erfassen und mit Hilfe von KI auszuwerten. So soll eine frei verfügbare Datenbank entstehen, die Inhalte zur Desinformation speichert und zur Überprüfung von Online-Texten und -Bildern oder zum Training von KI-Faktenchecks dienen kann. (vs | LRZ)