Wie gelingt es, dass Sprachmodelle sich selbst verbessern, ohne zusätzliche Trainingsdaten? In unserer aktuellen Ausgabe unseres KI Journal Clubs stellen wir eine Untersuchung zum Thema Self-Rewarding Language Models vor.
In jüngster Zeit haben einige Forschungsarbeiten mit der verblüffenden Fähigkeit zur iterativen Selbstverbesserung von künstlicher Intelligenz für Aufsehen gesorgt. Generative Adverserial Networks (GANs), “RL from AI Feedback” (RLAIF) und Self-Instruct sind nur einige Beispiele für diesen Trend.
In der aktuellen wissenschaftlichen Abhandlung "Self-Rewarding Language Models" demonstrieren die Autoren, wie Large Language Models (LLMs) sich durch AI-Feedback und Direct Preference Optimization (DPO) selbst zyklisch verbessern und Leistungen erreichen, die mit GPT-4 konkurrieren. Die Autoren beginnen mit dem etwas übereifrigen Zitat “superhuman agents [...] require superhuman feedback”. Aus großer Kraft folgt große Verantwortung – und enorme Investitionen erfordern offenbar enorme Übertreibungen. Doch zeigt sich einmal mehr, wie synthetische, von LLMs generierte Trainingsdaten zum Fine-Tuning hilfreich sein können. DPO bietet dabei eine effiziente und zuverlässige Methode, um LLMs mit Präferenzdaten anzupassen, ohne auf die komplexen Reward-Modelle des klassischen Reinforcement Learnings zurückgreifen zu müssen.
Die Herangehensweise in der Arbeit ist einfach zu verstehen: Um Large Language Models (LLMs) zu besseren Assistenten zu machen brauchen wir qualitativ hochwertige Dialogsequenzen zwischen Nutzer und Assistent (Nutzerfrage - Assistentenantwort - ...). Für die Direct Preference Optimization (DPO) benötigen wir zu jedem Userinput zwei Reaktionen des Assistenten - eine gute und eine schlechte.
In der Arbeit werden all diese Daten durch sorgfältiges Prompting vom LLM generiert.
Erst werden synthetische Nutzerfragen generiert (“Erstelle eine Nutzeranfrage, wie sie in der Interaktion mit einem Chat-Assistenten vorkommen könnte”). Anschließend werden diverse Antworten des Assistenten generiert (“Wie würde ein hilfreicher, wahrheitsgetreuer und höflicher Chat-Assistent auf diese Frage antworten”). Das gleiche Modell wird dann verwendet, um die Antworten zu bewerten (“Bewerte die folgende Antwort des Chat-Assistenten auf einer Skala von eins bis fünf:”). Die höchst- und niedrigstbewertete Antwort bilden ein Präferenzpaar für die DPO. Dieser Ablauf wird dreimal wiederholt, wobei sich das Modell zyklisch selbst verbessert.
Warum aber funktioniert es, dass ein Modell sich ohne neue Trainingsdaten verbessert, indem es quasi über seine eigene Output-Distribution sinniert? Hier gibt uns das Paper einen Hinweis - denn klassisches Fine-Tuning auf den LLM generierten Daten ist nicht erfolgreich. Es benötigt also DPO, wobei das Modell sich anhand von Präferenzpaaren in Richtung des besseren Outputs und vom schlechteren weg bewegt.
DPO beinhaltet außerdem einen Mechanismus, der verhindert, dass das Modell zu weit von seiner ursprünglichen Version wegdriftet. Dies könnte der Schlüssel zum Erfolg sein. Das ungebremste Fine-Tuning auf den eigenen LLM Outputs könnte zu einer Übersteuerung führen, ähnlich einer Feedbackschleife bei einem Mikrofon.
Es scheint, dass LLMs in der Lage sind, gute von schlechten Outputs zu unterscheiden, bevor sie selbst hochwertige Ergebnisse erzeugen können. Die Autoren scheinen uns empirisch durch eine intuitiv einleuchtende Annahme zu bestärken, dass es nämlich einfacher ist, Qualität zu erkennen, als sie zu erschaffen.
Bildquelle: generiert durch DALL-E
Datum: 28.02.2024
Kontaktieren Sie uns
Einstiegsangebot für Unternehmen
Entdecken Sie die Möglichkeiten der künstlichen Intelligenz für Ihr Unternehmen. Kontaktieren Sie uns für eine kostenlose Beratung und entdecken Sie die Vorteile von Sprachmodellen, Machine Learning und Suchtechnologien.
Autor
Bertram Sändig
Bertram ist Experte für KI- und Machine-Learning-Systeme mit einem Fokus auf NLP und Neural Search. Er hält einen B.Sc. in Informatik der FH Brandenburg und seit 2018 einen M.Sc. der TU Berlin mti den Schwerpunkten Machine Learning und Robotik. Parallel zum Studium war er fünf Jahre Leitender Software-Ingenieur im Space Rover Project des Luft- und Raumfahrtsinstituts der TU-Berlin. 2018 stieg er als Machine Learning Engineer bei Neofonie ein und leitet heute das Machine Learning Team bei ontolux, einer Marke der Neofonie GmbH. Mit großer Leidenschaft überführt er aktuelle Forschungsergebnisse in nutzbare Anwendungen für Kunden, vor allem an der Anpassung, Optimierung und Integration von Large Language Modellen in Suchsysteme und das Textanalyse-Toolkit von ontolux.