Jump to main navigation Jump to main navigation Jump to main content Jump to footer content

LRZ entwickelt 10B-Sprachmodell

Technologie:KI & Big Data Forschungsbereich:Big Data & KI

Bayrisch, Deutsch und Englisch – in einem Sprachmodell: Damit KI auch Bayrisch kann, wurde am LRZ ein eigenes Sprachmodell entwickelt und trainiert

„Hock di hera, samma mera“* ins Deutsche oder Englische übersetzen? Dazu gibt es jetzt Llama-GENBA-10B. Das tri-linguale Sprachmodell basiert auf dem Large Language Model (LLM) von Meta (Llama, Version 3.1-8B), wurde von Forschenden des Leibniz-Rechenzentrums (LRZ) sowie Cerebras Systems mit 10 Milliarden Parametern trainiert, und zwar mit einem Datensatz von 164 Milliarden Token. Llama-GENBA-10B ist ein inklusives und ressourceneffizientes Basismodell, das nicht nur übersetzt, sondern auch Texte auf Englisch, Deutsch und Bayerisch generiert. „Unser Modell demonstriert effizientes mehrsprachiges Training auf dem Cerebras CS-2 System“, erläutert Michael Hoffmann aus dem LRZ-Team Big Data & Artificial Intelligence (BDAI). „Für das Training von Llama GENBA 10B hat das CS2-System in 66 Tagen rund 35 Megawatt-Stunden Energie aufgenommen.“

Über die Methode und Herausforderungen des Trainings von Llama-GENBA-10B hat die Gruppe gerade ein Paper veröffentlicht (Preprint). Darin vergleicht sie die Leistungen des Modells mit anderen Sprachmodellen, etwa Apertus-8B, gemma-2-9b oder EuroLLM-9B. „Neben der Leistung war uns wichtig, mit nicht-englischsprachigen Daten und vor allem mit einem Dialekt zu arbeiten“, sagt Jophin John vom BDAI-Team. Da sich die meisten LLM auf Englisch konzentrieren, stärkt Llama-GENBA-10B den Erhalt von weniger verbreiteten Sprachen und regionalen Dialekten. Damit bietet es eine Blaupause für ähnliche Modelle, die auch kleine Forschungsteams umsetzen können.

* „Setz dich her, dann sind wir mehr“