Das neue KI-Modell o3 von OpenAI hat auf einem der wichtigsten Maßstäbe für die Reasoning-Fähigkeiten von Sprachmodellen, dem ARC-ARI Benchmark einen bisher nie dagewesenen Wert von 87,5% erreicht. Im Folgenden stelle ich ARC-AGI vor, was es so herausfordernd macht, warum traditionelle große Sprachmodelle (LLMs, Large Language Models) Schwierigkeiten hatten und wie der Durchbruch von o3 neue Horizonte für die KI-Forschung eröffnet.
Messbarkeit von Künstlicher Allgemeiner Intelligenz
Die Suche nach Künstlicher Allgemeiner Intelligenz (AGI, Artificial General Intelligence) gehört zu den ambitioniertesten Zielen der künstlichen Intelligenz, darüber sind sich alle einig. Weniger einig sind sich Experten über eine klare Definition von AGI.
Im Gegensatz zu KI-Systemen, die auf spezifische Aufgaben spezialisiert sind, zeichnet sich AGI durch die Fähigkeit aus, sich an neue Probleme anzupassen und durch logisches Denken und Generalisierung Situationen zu bewältigen, die sie noch nie zuvor erlebt hat. KI-Schachprogramme erreichen übermenschliche Schachfähigkeiten, können diese jedoch nicht übertragen, um ein Spiel wie "Mensch ärgere dich nicht" zu spielen.
Während Benchmarks wie ImageNet und GLUE Fortschritte in eng umrissenen Bereichen messen, legt ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) besonderes Augenmerk auf Anpassungsfähigkeit und logisches Denken. Entwickelt von François Chollet, ist ARC-AGI so konzipiert, dass es nicht durch reines Auswendiglernen und Interpolation zu lösen ist.
ARC-AGI stellt eine große Herausforderung für KI-Modelle dar. Selbst moderne Systeme wie GPT-3 und GPT-4o erzielten lediglich 0 % bzw. 5 %. Eine auf ARC-AGI angepasste Version des neuen o3-Modells von OpenAI erreichte allerdings kürzlich eine Punktzahl von 75,7 % auf dem semi-privaten Test Set und sogar 87,5 % in einem Lauf mit erheblich erhöhten Rechenressourcen (172x).
Was ist ARC-AGI und warum ist es so schwierig?
Im Kern ist der ARC-AGI-Benchmark eine Sammlung von Rätseln, die logisches Denken, Abstraktion und Generalisierung testen sollen. Jede Aufgabe besteht aus einer handvoll Beispielen: einem Eingabegitter mit farbigen Zellen und dem entsprechenden Ausgabegitter. Die Herausforderung für ein KI-System besteht darin, die Transformationsfunktion zu ermitteln, die das Eingabegitter in das Ausgabegitter überführt, und diese Funktion dann auf ein neues, unbekanntes Eingabegitter anzuwenden.
In Grafik 1 ist eine beispielhafte ARC-AGI Aufgabe zu sehen. Dem Leser sei es überlassen, zuerst selbst nach der passenden Transformation zu suchen, da all diese Aufgaben unterhaltsame Rätsel darstellen.
Die Lösung der Aufgabe ist folgendermaßen:
- Identifiziere die hellblauen (Tetris-ähnlichen) Objekte im Eingabegitter.
- Identifiziere alle grünen, kontinuierlichen Flächen im Eingabegitter.
- Finde all jene Stellen, in denen eine (wenn nötig rotierte) Version des hellblauen Objekts in eine der grünen Flächen hineinpasst.
- Färbe solche Stellen hellblau.
ARC-AGI ist so konzipiert, dass jede einzelne Aufgabe speziell für das Benchmark erdacht wurde. Es sollten also im Internet keine Beispiele für die Aufgaben existieren. Jedes einzelne Rätsel ist außerdem signifikant unterschiedlich von allen anderen Rätseln. Jede Aufgabe hat zudem nur eine sehr geringe Anzahl von Beispieldemonstrationen.
Daraus ergibt sich, dass ein System, das auf ARC-AGI gute Ergebnisse erzielt, nicht einfach aus dem Internet oder den Trainingsdaten auswendig gelernt haben kann. ARC-AGI ist somit resistent gegen Memorization und Overfitting. Stattdessen erfordern die Aufgaben ein Verständnis grundlegender Konzepte wie Objekthaftigkeit, Zählung, Rotation und Symmetrie – Fähigkeiten, die Menschen typischerweise im Alter von vier Jahren erwerben.
Ist ARC-AGI anthropozentrisch?
Dies führt jedoch zu einer wichtigen Kritik: Ist ARC-AGI anthropozentrisch? Testet es lediglich eine Art von Intelligenz, die eng mit der menschlichen Kognition verwandt ist? Es ist naheliegend, dass diese Konzepte fundamental für die Struktur des physikalischen Universums sind und für jedes Lernsystem vorteilhaft wären.
Mehrdeutigkeiten in ARC-AGI-Aufgaben
Ein charakteristisches Merkmal von ARC-AGI ist die geringe Anzahl von Beispielen je Aufgabe. Diese Minimalität sorgt dafür, dass die Aufgaben nicht durch Auswendiglernen gelöst werden können, führt jedoch zwangsläufig zu Mehrdeutigkeiten. Oft existieren mehrere plausible Transformationsfunktionen, die die wenigen bereitgestellten Beispiele erklären könnten.
Ein anschauliches Beispiel dafür ist die zuvor beschriebene Aufgabe mit den Tetris-ähnlichen Objekten. In den Demonstrationen wurde gezeigt, dass diese Objekte gedreht werden können, um in grüne Flächen zu passen. Im Testgitter gab es jedoch eine grüne Fläche, in die das gesuchte Objekt nur mithilfe einer Spiegelung eingefügt werden konnte – eine Transformation, die in den Beispielen nicht explizit demonstriert wurde. Solche Mehrdeutigkeiten stellen selbst für Menschen eine Herausforderung dar. Als ich mit Kollegen über die Aufgabe sprach, argumentierte ich, dass wir davon ausgehen müssen, dass Spiegelung keine erlaubte Operation ist, da sie in den Beispielen nicht beobachtet wurde. Vielleicht war ich sogar von der Ähnlichkeit der Objekte zu Tetris beeinflusst, wo Spiegelung nicht erlaubt ist. Zu unserer Überraschung wurde unsere Lösung als falsch eingestuft: Die Autoren der Aufgabe hatten Spiegelung den möglichen Transformation beigefügt.
Dieses Beispiel verdeutlicht eine weitere Facette des anthropozentrischen Charakters von ARC-AGI. Selbst mit zusätzlichen Demonstrationen wären die möglichen Transformationen nie eindeutig definiert. Tatsächlich existiert immer eine unendliche Anzahl valider Transformationen, die die gegebenen Beispiele erfüllen könnten. In der Philosophie ist dies als Induktionsproblem oder Humesches Problem bekannt.
Zur Verdeutlichung eignet sich eine Zahlenfolge wie 2,4,8,…. Wie sollte diese logisch fortgesetzt werden? Eine naheliegende Vermutung ist, dass die Funktion f(x)=2ˣ gemeint ist, was die nächste Zahl 16 ergibt. Aber auch die Funktion f(x)=x²−x+2 erfüllt die bisherigen Werte und liefert 14 als nächstes Ergebnis.
Für jede endliche Menge von Punkten gibt es unendlich viele Funktionen, die durch diese verlaufen. Das Lagrange-Interpolationstheorem garantiert ein eindeutiges Polynom minimalen Grades, doch durch höhere Grade oder andere Funktionsformen entstehen beliebig viele Alternativen. Ohne Einschränkungen wie Glattheit oder Einfachheit gibt es keine eindeutig „beste“ oder „korrekte“ Funktion.
Das Gleiche gilt für die Gittertransformationen in ARC-AGI. Welche Lösung wir als sparsamer, eleganter oder richtiger empfinden, spiegelt letztlich nur unsere menschliche Ästhetik wider.
Herausforderungen von GPT-3, GPT-4o und o1
Beim Testen mit ARC-AGI erzielte o1 Punktzahlen von 25 %, 31 % und 32 % bei niedrigen, mittleren und hohen Rechenressourcen. Dies stellte einen deutlichen Fortschritt gegenüber GPT-4o dar, blieb jedoch hinter der menschlichen Leistung und den Erwartungen an ein wirklich intelligentes System zurück.
Der Erfolg des Modells lag in seiner Fähigkeit, durch die Methode des „Chain of Thought“ menschenähnliches Denken zu simulieren. Während des Trainings wurde o1 darauf trainiert:
- Nachzudenken: Mehr Rechenleistung für schwierige Probleme aufzuwenden, ähnlich wie Menschen länger über komplexe Fragen nachdenken.
- Sich zu verbessern: Fehler im eigenen Denken zu erkennen und Lösungen zu überarbeiten.
- Aufzuteilen: Ein komplexes Problem in einfachere Schritte zu zerlegen und diese nacheinander zu lösen.
- Alternativen zu erkunden: Unproduktive Ansätze aufzugeben und neue Strategien auszuprobieren.
Trotz seiner Fortschritte offenbarte o1 auch die Grenzen dieses Paradigmas. Während Verstärkungslernen und „Chain of Thought“-Denken signifikante Fortschritte ermöglichten, stagnierte die Leistung des Modells bei etwa 30 %, selbst mit beträchtlichen Rechenressourcen. Dies ebnete den Weg für weitere architektonische Innovationen, die schließlich im o3-Modell gipfelten.
Schwächen bei GPT-3, GPT-4o und o1
Traditionelle große Sprachmodelle (LLMs) schnitten bei ARC-AGI enttäuschend ab. GPT-3 erreichte 2020 0 %, GPT-4o 2024 nur 5 %. Diese Ergebnisse zeigen die grundlegende Schwäche solcher Modelle: die Unfähigkeit, sich an neue Aufgaben außerhalb ihrer Trainingsdaten anzupassen.
Mit dem o1-Modell begann ein Wandel. Es wurde mit Reinforcement Learning trainiert, um nicht nur bessere Ergebnisse zu liefern, sondern auch erfolgversprechendere Lösungswege zu planen, komplexe Aufgaben in kleinere Unteraufgaben zu zerlegen und seinen Ansatz iterativ zu verbessern. Dieser Prozess erlaubt es, für schwierige Probleme mehr Rechenleistung einzusetzen, ähnlich wie ein Mensch mehr Zeit aufwendet, um anspruchsvolle Fragen zu durchdenken.
Dank dieser Methodik erreichte o1 bei ARC-AGI Punktzahlen von 25 %, 31 % und 32 % bei unterschiedlichen Rechenressourcen. Dies war ein deutlicher Fortschritt gegenüber GPT-4o, jedoch noch weit von menschlicher Leistung entfernt. Die Innovationen in o1 legten jedoch den Grundstein für das leistungsstärkere o3-Modell.
Warum die schlechten Ergebnisse überraschen mögen
Moderne Modelle wie GPT-4o sind in vielen Anwendungen erstaunlich nützlich, weshalb ihre schlechten Ergebnisse bei ARC-AGI einige überraschen könnten. Viele halten Sprachmodelle bereits für menschenähnlich intelligent. Dabei sollte man bedenken, dass LLMs auf riesige Mengen an Trainingsdaten – das gesamte Internet – zurückgreifen können. Die schiere Masse an Informationen ist für Menschen kaum vorstellbar.
Gleichzeitig handelt es sich bei LLMs nicht um reines Auswendiglernen. Es ist extrem unwahrscheinlich, dass jede mögliche Nutzeranfrage wortwörtlich in den Trainingsdaten vorkommt. Stattdessen lernen LLMs, Muster und Zusammenhänge in den Daten zu erkennen und zu nutzen. François Chollet beschreibt sie treffend als Vektorfunktionsdatenbanken.
Schwammiges Auswendiglernen: LLMs als Vektorfunktionsdatenbanken
Vektordatenbanken erlauben eine „weiche“ Suche, bei der ähnliche, aber nicht identische Einträge gefunden werden können. LLMs speichern dabei nicht nur gewaltige Mengen an Wissen, sondern lernen auch Funktionen, die Wissen transformieren.
Ein Beispiel: Wird das Modell gebeten, ein Gedicht im Stil von Shakespeare zu schreiben, erkennt es eine Art „Programmschlüssel“ (Schreibe ein Gedicht) und kombiniert diesen mit einem „Inputparameter“ (im Stil von Shakespeare). Das Modell ruft eine Funktion ab, die diesen Anforderungen entspricht, und generiert darauf basierend eine passende Ausgabe.
Stärken und Schwächen dieser Repräsentation
Diese flexible Darstellung erlaubt es LLMs, auf beeindruckende Weise zu:
- Interpolieren: Wissen und Programme zu kombinieren, um neue Ausgaben zu erzeugen.
- Generalisieren: Aufgaben zu bewältigen, die nicht wortwörtlich in den Trainingsdaten vorkamen.
- Transformieren: Texte umzuschreiben, Sprachen zu übersetzen oder Inhalte zu kombinieren.
Solange eine Aufgabe ausreichend Ähnlichkeit mit den Trainingsdaten hat, funktioniert dies bemerkenswert gut. Doch diese Flexibilität hat Grenzen: Wenn keine ausreichende Grundlage vorhanden ist, können Modelle gravierende Fehler machen – etwa sogenannte Halluzinationen, bei denen sie mit bemerkenswerter Überzeugung vollkommen unbegründete Pseudofakten erfinden. Wann solche fehler passieren ist leider kaum vorherzusagen.
Menschenähnliche Leistung von OpenAIs o3-Modell
Mit einer Punktzahl von 75,7 % in der semi-privaten ARC-AGI-Bewertung und 87,5 % in einer High-Compute-Konfiguration setzt OpenAIs o3-Modell neue Maßstäbe, die die bisherigen Grenzen von Modellen wie GPT-3, GPT-4o und sogar o1 deutlich übertreffen. Trotz dieser beeindruckenden Ergebnisse ist es wichtig, den Erfolg von o3 mit einer gesunden Skepsis zu betrachten. Vieles über die Funktionsweise des Modells bleibt unklar, und die Methoden, die zu diesem Erfolg führten, wurden noch nicht vollständig offengelegt.
Was wir über o3 wissen
Nicht Viel. Obwohl OpenAI keine Details zur Architektur und den Trainingsprozessen von o3 veröffentlicht hat, gibt es einige fundierte Spekulationen aus der Forschungscommunity:
- Programmsynthese und -suche: o3 scheint Mechanismen für die Rekombination von Wissen in Echtzeit zu integrieren, die in früheren LLMs nicht vorhanden waren. Diese Fähigkeit ermöglicht es dem Modell, Programme zu erstellen und auszuführen, um neue Aufgaben zu bewältigen.
- Chain of Thought (CoT): Ähnlich wie o1 nutzt o3 eine erweiterte Version des CoT-Denkens, um komplexe Aufgaben in überschaubare Schritte zu zerlegen und Lösungen iterativ zu verbessern.
- Monte-Carlo-Suche im Programmbereich: Es wird vermutet, dass o3 eine Suchmechanik ähnlich der Monte-Carlo-Baumsuche von AlphaZero nutzt, gesteuert durch ein tiefes Lernmodell, das Lösungen bewertet und optimiert.
- Ausführung natürlicher Sprachprogramme: Anstatt symbolische Programme zu erzeugen, erstellt o3 Schritt-für-Schritt-Anweisungen in natürlicher Sprache, die flexibel und adaptiv ausgeführt werden können.
Warum Skepsis angebracht ist
Trotz der bemerkenswerten Ergebnisse ist es wichtig, die Erfolge von o3 nicht zu überschätzen:
- Mangelnde methodische Transparenz: OpenAI hat keine genauen Informationen über Architektur, Trainingsdaten oder Optimierungsstrategien offengelegt. Es ist unklar, wie stark die Leistung von o3 durch die spezifische Exposition gegenüber ARC-AGI-Daten beeinflusst wurde.
- Hohe Rechenkosten: Die Spitzenleistung erforderte eine High-Compute-Konfiguration, die extrem teuer ist. Der Low-Efficiency-Modus verbrauchte 172-mal mehr Ressourcen als der High-Efficiency-Modus, was Fragen zur Skalierbarkeit aufwirft.
- Noch keine AGI: François Chollet betont, dass ARC-AGI kein Beweis für AGI ist, sondern ein Werkzeug, um KI-Systeme zu bewerten und weiterzuentwickeln.
Ein bemerkenswerter Schritt vorwärts
Trotz der offenen Fragen und der begrenzten Transparenz bleibt o3 ein beeindruckender Meilenstein. Während o1 zwar spannend war, in der Praxis aber oft enttäuschte, scheint o3 die Erwartungen zu erfüllen. Die Verbindung von Deep Learning mit Monte-Carlo-Baumsuche, ähnlich wie bei AlphaZero, ist eine mächtige Kombination. Sollte o3 uns näher daran bringen, diese Technik mit der Flexibilität und dem Wissen moderner Sprachmodelle zu vereinen, wäre dies eine bemerkenswerte Errungenschaft.
Es ist jedoch auch wichtig zu beachten, dass OpenAI o3 speziell auf ARC-AGI trainiert hat. Das Ergebnis ist daher nicht nur ein Beweis für die Stärke des Modells, sondern auch für die Effektivität von semisupervised Pretraining und Finetuning.
Finetuning hat jedoch auch Schattenseiten. Während ARC-AGI auf allgemeines Schlussfolgern abzielt, neigt Finetuning dazu, Modelle für spezifische Aufgaben zu optimieren – meist auf Kosten ihrer Vielseitigkeit. Vielleicht schützt das fehlende Wissen über o3 am Ende vor Enttäuschung. Ein Modell, das bei jeder Frage, von Kant bis Kuchenrezepten, mit bunten Tetrisfiguren argumentiert, könnte zwar unterhaltsam, aber kaum die erhoffte Krönung allgemeiner Intelligenz sein.
Kontaktieren Sie uns gern für ein kostenloses Erstgespräch, um herauszufinden, wie Sie KI-Lösungen gezielt für Ihre Anforderungen einsetzen können.
Sprechen Sie uns an
Bertram Sändig
Bertram ist Experte für KI- und Machine-Learning-Systeme mit einem Fokus auf NLP und Neural Search. Er hält einen B.Sc. in Informatik der FH Brandenburg und seit 2018 einen M.Sc. der TU Berlin mti den Schwerpunkten Machine Learning und Robotik. Parallel zum Studium war er fünf Jahre Leitender Software-Ingenieur im Space Rover Project des Luft- und Raumfahrtsinstituts der TU-Berlin. 2018 stieg er als Machine Learning Engineer bei Neofonie ein und leitet heute das Machine Learning Team bei ontolux, einer Marke der Neofonie GmbH. Mit großer Leidenschaft überführt er aktuelle Forschungsergebnisse in nutzbare Anwendungen für Kunden, vor allem an der Anpassung, Optimierung und Integration von Large Language Modellen in Suchsysteme und das Textanalyse-Toolkit von ontolux.