KI-Modelle: Trainingsschritte berechnen

Künstliche Neuronale Netze werden immer größer und komplexer – und brauchen daher fürs Training mit Daten immer mehr Energie: Ein Forschungsteam um Felix Dietrich, Professor für Physics-Enhanced Machine Learning an der Technischen Universität München (TUM), arbeitet daran, Trainingsschritte durch mathematische Methoden zu ersetzen. Das senkt den Strombedarf – und hilft, die Funktionsweise von Künstlicher Intelligenz besser zu verstehen.

Warum braucht das Training von KI-Modellen so viel Energie?
Prof. Felix Dietrich: Je größer KI-Modelle sind – das bestätigen die Forschung und praktische Erfahrungen – desto besser funktionieren sie, aber sie brauchen dann beim Training viel mehr Energie. Künstliche Neuronale Netzwerke oder kurz: KNN sind aus miteinander vernetzten Elementen, den Neuronen aufgebaut, die Eingabesignale mit vorher festgelegten Parametern multiplizieren, alles aufaddieren und dann das Ergebnis zu allen verbundenen Elementen in einer nächsten Netzwerkschicht schicken. KNN werden hauptsächlich iterativ trainiert, das heißt, die Parameter werden Schritt für Schritt leicht angepasst, so dass das Netzwerk immer besser die gewünschte Lösung vorhersagen oder eine sinnvollere Prognose geben kann. Solche Trainings kosten viel Energie, weil dafür viele einzelne Schritte oder Anpassungen nötig sind. Der Stromverbrauch wächst zusätzlich um ein Vielfaches, weil es eine weitere Schleife gibt – die Suche nach der richtigen Netzwerksarchitektur, die Neural Architecture Search oder die Konfiguration eines Netzwerks. Die Komplexität dieser Suche wächst mit der Größe des Netzwerks und der Komplexität des zu lösenden Problems. Wird beispielsweise die Anzahl der Neuronen oder die der Zwischenschichten falsch konfiguriert, wird unter Umständen trainiert und Strom verbraucht, obwohl das Netz nach dem Training nicht gut funktioniert.

Prof. Felix Dietrich

erforscht numerische Algorithmen für KI-Methoden. Dietrich studierte Scientific Computing, legte den Master und die Promotion an der TUM ab. Nach Stationen in den USA übernahm er 2022 eine Emmy Noether Nachwuchsgruppe, 2024 wurde er von der TUM zum Professor für Physics-Enhanced Machine Learning berufen.

mehr erfahren

Prof. Felix Dietrich, TUM – Bildnachweis: © Andreas Heddergott | TUM

Wie sind Sie vorgegangen, um energieintensive Trainingsschritte neu gestalten zu können?
Dietrich: Wir haben uns zuerst grundlegende Fragen gestellt: Warum funktionieren neuronale Netze und auf welchen Parametern basieren letztlich die Vorhersagen? Noch werden die Parameter eines KI-Modells und ihre Bedeutung nicht umfassend verstanden. Aber angenommen, die Aufgabe jedes Parameters wäre klar, dann – das war unsere Grundidee – können wir sie auch direkt aus den Daten berechnen und damit eventuell sogar die Suche nach der passenden Konfiguration sowie Tausende von Trainingsschritten umgehen. Zur Wahrscheinlichkeitsrechnung sind wir gestoßen, weil aktuell vor dem Training die Netzwerkparameter oft zufällig gewählt werden – im Prinzip wird also das Training mit einer zufälligen Vorhersage begonnen. Wenn dann mehrere solcher zufälligen Vorhersagen nur noch linear kombiniert werden, nennt man das Random Feature Model. Ein vergleichbares, zufälliges Vorgehen, die Randomized Linear Algebra, hat sich im klassischen wissenschaftlichen Rechnen bewährt: Für Berechnungen der linearen Algebra werden Zahlenwerte in Spalten und Zeilen dargestellt, aber je nach Problem sind manche dieser Matrizen so groß, dass Computer diese nicht abspeichern können. Dann greift man zu einem Trick, und speichert nur noch die Produkte aus Matrix und zufällig gewählten Vektoren, nicht mehr die ganze Matrix. Auf all dem konnten wir unsere Methode aufbauen.

Und wie funktioniert Ihr Verfahren?
Dietrich: Ich erkläre es zuerst an einem vereinfachten Beispiel und dann allgemein. Eine Firma möchte wissen, ob sich ein Angebot im nächsten Monat besser oder schlechter verkauft als bisher, basierend auf dem Preis und der Anzahl verkaufter Produkte im Vormonat. Es geht also um ein Klassifizierungsproblem mit zwei Klassen: „verkauft sich besser“ – A und verkauft sich schlechter – B sowie zwei Eingaben: Preis und Anzahl. Jetzt soll dafür ein Netzwerk trainiert werden, das diese Funktion darstellt. Es wird mit Preis und Anzahl gefüttert und gibt danach als Ergebnis A oder B aus. Der Trainingsdatensatz besteht aus 100 bis 1000 Inputdaten und den entsprechenden realen Verkaufsdaten. Wie finden wir nun die Parameter des Netzwerkes mit unserer Methode? Zuerst wählen wir Paare von Inputs im Datensatz, bei denen jeweils einer Klasse A und der andere Klasse B als Ausgabe hat – also immer unterschiedliche Klassen pro Punkt-Paar. Dann bewerten wir diese Paare: Je ähnlicher die Eingaben sind, desto höher setzen wir die Wahrscheinlichkeit, dass wir dieses Paar zur Berechnung eines Parameters im Netzwerk verwenden wollen. Der Grund dafür ist, dass die Vorhersage im Allgemeinen schwieriger ist, wenn die Inputs ähnlich sind, aber die Outputs verschieden, wie im Beispiel die beiden Klassen. Nach der Bewertung von vielen solcher Input-Paaren wählen wir dann zufällig, mit der berechneten Wahrscheinlichkeit, aus, welche Paare wir in Parameter für Neuronen umrechnen. Nach der Konstruktion aller Neuronen lösen wir dann noch ein einfaches, lineares Gleichungssystem um die lineare Kombination aller Neuronen in den Output, also Klasse A oder B, zu berechnen.

Okay, und wie lässt sich das verallgemeinern?
Dietrich: Wir ersetzen iterative Trainingsschritte durch probabilistische Berechnung und suchen dazu gezielt Werte in den Datensätzen, die sich durch Änderung von Parametern besonders stark und schnell ändern. Hauptidee ist, dabei nicht-lineare Parameter unter Berücksichtigung von Dateninhalten und zu lösendem Problem zu bewerten, und dann den linearen Anteil, die letzte Schicht des Netzwerks, über ein lineares Gleichungssystem zu beschreiben und zu lösen. Beim aktuell häufig verwendeten iterativen Training muss man das Netzwerk hundert- oder gar tausend Mal auf den Trainingsdatensatz anwenden und dabei jeweils dessen Parameter ändern. Mit unserer Methode berechnen wir über einen Durchlauf des Datensatzes die nicht-linearen Parameter und lösen danach ein lineares Problem. Aus 1000 Schritten werden so zwei, wodurch der Strombedarf drastisch sinkt. Das funktioniert bei einfachen Netzwerkarchitekturen wie Feedforward oder Recurrent Networks, die hauptsächlich beim maschinellen Lernen für Tabellen- und Zeitreihendaten eingesetzt werden, und inzwischen auch bei Graph-Modellen zur Verarbeitung von verknüpften Daten auf Graphen. Wir brauchen zwar etwas mehr Neuronen, aber die Genauigkeit unserer Methode ist vergleichbar mit iterativem Training.

Wem nutzt Ihre Forschung oder die Erkenntnis?
Dietrich: Im Moment Forschenden oder Unternehmen, etwa aus der Finanzindustrie, die auf klassisches Machine Learning setzen, die außerdem auf Basis tabularer Daten kleine neuronale Netze trainieren oder die mit einem KI-Modell Daten zusammenfassen und diese für Prognosen variieren wollen. Auch Forschende, die Netzwerke mit Simulationsdaten trainieren, um daraus Ersatz- oder Surrogatmodelle abzuleiten, kommen schneller zum Ziel. Um aber die Entwicklung neuer KI-Systeme oder auch generativer KI mit mathematischen Methoden unterstützen zu können, suchen wir zurzeit nach mathematischen Lösungen für Convolutional Layers, die spezialisiert sind auf die Verarbeitung von Bildern, sowie für Attention Layers, die im Moment hauptsächlich in den großen, generativen Sprachmodellen verwendet werden. Wenn wir das geschafft haben, können wir auch Lösungen für Transformer Networks entwickeln, die aktuell die Basis von generativer KI für Text darstellen.

Wo liegen die Grenzen der Parameter-Berechnung?
Dietrich: Weil wir die zu berechnenden Parameter zufällig wählen, brauchen wir mehr Neuronen. Das heißt die Netze, die wir trainieren, sind etwas größer als die, die man aus einem iterativen Training gewinnen kann. Von uns trainierte Netzwerke brauchen deshalb im Betrieb mehr Energie, das aber nur, weil wir uns noch keine bestehenden Verfahren angeschaut haben, mit denen man trainierte Netzwerke wieder verkleinern kann. Weiteres Manko – wir haben unsere Methode noch nicht für alle Netzwerkstypen von aktuellen KI-Systemen entwickeln können, leider gerade für die nicht, die in energieintensiven, komplexen Modellen wie generativer KI verwendet werden. Nach meinem Gefühl gibt es da aber keine konzeptionelle Bremse, und wir haben schon erste Ideen und vielversprechende Tests, um das Verfahren zu erweitern.

Und was raten Sie Wissenschaftlerinnen, die mit KI-Modellen und generativer KI arbeiten – wie können die ihre Daten sparsamer analysieren?
Dietrich: Es gibt inzwischen sehr viele vortrainierte KI-Modelle für unterschiedlichste Anforderungen. Daher ist meine Empfehlung, das Rad nicht stetig neu zu erfinden – soll heißen, nicht ständig neu zu trainieren - sondern auf bereits existierende Modelle zu setzen. Auch für eigene, neue Datensätze können solche bestehenden Modelle angepasst und austariert werden. In vielen Fällen ist ein Modell aufzubauen und trainieren viel zu viel Aufwand, zumal Forschende und Firmen an ihren speziellen Fachfragen interessiert sind und nicht am Training von KI-Modellen. (vs | LRZ)

Bolager, Erik L, Iryna Burak, Chinmay Datar, Qing Sun, and Felix Dietrich: "Sampling Weights of Deep Neural Networks." In: Advances in Neural Information Processing Systems, 36:63075–116. Curran Associates, Inc, 2024
Bolager, Erik Lien, Ana Cukarska, Iryna Burak, Zahra Monfared, and Felix Dietrich: “Gradient-Free Training of Recurrent Neural Networks.” 2024
Datar, Chinmay, Taniya Kapoor, Abhishek Chandra, Qing Sun, Iryna Burak, Erik Lien Bolager, Anna Veselovska, Massimo Fornasier, and Felix Dietrich: "Solving Partial Differential Equations with Sampled Neural Networks.” 2024
Rahma, Atamert, Chinmay Datar, and Felix Dietrich: “Training Hamiltonian Neural Networks without Backpropagation.” In NeurIPS 2024 Workshop on Machine Learning and the Physical Sciences. NeurIPS 2024.