

„Hock di hera, samma mera“* ins Deutsche oder Englische übersetzen? Dazu gibt es jetzt Llama-GENBA-10B. Das tri-linguale Sprachmodell basiert auf dem Large Language Model (LLM) von Meta (Llama, Version 3.1-8B), wurde von Forschenden des Leibniz-Rechenzentrums (LRZ) sowie Cerebras Systems mit 10 Milliarden Parametern trainiert, und zwar mit einem Datensatz von 164 Milliarden Token. Llama-GENBA-10B ist ein inklusives und ressourceneffizientes Basismodell, das nicht nur übersetzt, sondern auch Texte auf Englisch, Deutsch und Bayerisch generiert. „Unser Modell demonstriert effizientes mehrsprachiges Training auf dem Cerebras CS-2 System“, erläutert Michael Hoffmann aus dem LRZ-Team Big Data & Artificial Intelligence (BDAI). „Für das Training von Llama GENBA 10B hat das CS2-System in 66 Tagen rund 35 Megawatt-Stunden Energie aufgenommen.“
Über die Methode und Herausforderungen des Trainings von Llama-GENBA-10B hat die Gruppe gerade ein Paper veröffentlicht (Preprint). Darin vergleicht sie die Leistungen des Modells mit anderen Sprachmodellen, etwa Apertus-8B, gemma-2-9b oder EuroLLM-9B. „Neben der Leistung war uns wichtig, mit nicht-englischsprachigen Daten und vor allem mit einem Dialekt zu arbeiten“, sagt Jophin John vom BDAI-Team. Da sich die meisten LLM auf Englisch konzentrieren, stärkt Llama-GENBA-10B den Erhalt von weniger verbreiteten Sprachen und regionalen Dialekten. Damit bietet es eine Blaupause für ähnliche Modelle, die auch kleine Forschungsteams umsetzen können.
* „Setz dich her, dann sind wir mehr“