In der Juliausgabe vom KI-Journal Club widmen wir uns der Weiterentwicklung von Sprachmodellen und stellen ein paar Entwicklungen vor. Mit den Sprachmodellen sollen Texte automatisiert entweder aus anderen Texten oder wie bei Wikipedia aus Fakten generiert werden.
Immer größere KI-Sprachmodelle
Der Hype um große KI-Sprachmodelle begann so richtig mit GPT-2 (GPT steht dabei für Generative Pre-trained Transformer). Also großen vortrainierten Modellen, die auf einer Unmenge von Textdaten gelernt haben, z.B. Texte automatisch zu vervollständigen. Der Nachfolger GPT-3 führte dann auch außerhalb der NLP-Gemeinde zu einigen Diskussionen, ob mit GPT-3 erste Schritte zu einer Artificial General Intelligence erreicht wurden. Diese Diskussion soll hier nicht weiter im Detail erläutert werden, wird aber immer noch angeregt geführt. Dass GPT-3 aber in der Lage ist durchaus realitätsnahe, und leider auch gefährliche, Ergebnisse zu produzieren, haben Forscher des Center for Security and Emerging Technology (CSET) der Georgetown University in Washington gezeigt. Die Wissenschaftler haben gezeigt, dass GPT-3 z.B. bei Desinformationskampagnen genutzt werden kann, indem Posts unterschiedlich formuliert werden können, sodass der Anschein einer großen Nutzerschaft erzeugt wird.
Das Rennen um das größte und beste Sprachmodelle ist aber noch lange nicht vorbei. So hat die Beijing Academy of Artificial Intelligence (BAAI) Wu Dao 2.0 vorgestellt. Ein Sprachmodell mit über 1.75 Billionen Parametern und trainiert auf über 5 TB Daten, das alle relevanten Benchmarks für sich entschieden hat. Auch OpenAI, die Organisation hinter GPT-3, arbeitet schon an der nächsten Generation ihrer Sprachmodelle, auch hier sicher mit mehr Daten und Parametern als bei GPT-3.
Gilt also immer größer = immer besser? Sicher nicht. Bei dem Ziel Modelle zu schaffen, die nicht nur statistisch „verstehen“ ist das reine „größer ist besser“ nicht zielführend. Es werden mehr Kniffe nötig sein, um die Modelle intelligenter zu machen. So wird die Kombination mit z.B. strukturiertem Wissen wie Knowledge Graphs wichtig werden. Auch der Ansatz von MUM (Multitask Unified Model), gerade von Google vorgestellt, ist vielversprechend. MUM setzt nicht nur auf Transfer Learning, z.B. durch das Training über verschiedene Sprachen hinweg, sondern durchbricht die Barriere Text und nutzt auch Bilder – arbeitet also multimodal. Dieses Mehr an unterschiedlichen Arten der Daten und Informationen wird mit Sicherheit weitere Verbesserungen bringen.
Während die USA und China mit Abstand führend sind, hinken wir in Europa weiter hinterher. So hat gerade erst das Bundeswirtschaftsministerium die Projektskizze „OpenGPT-X“ im Rahmen des Gaia-X-Projekts bewilligt. Ziel ist es, KI-Sprachmodelle auch für europäische Unternehmen anzubieten. Hoffentlich wird dabei aber nicht nur versucht GPT-3 zu kopieren, sondern auch neue Ideen umzusetzen.
Neues von Wikipedia
Während Sprachmodelle wie GPT-3 in der Lage sind, basierend auf den Texten, auf denen trainiert wurde, neue Text zu generieren, verfolgt die Wikimedia Foundation ein spannendes neues Projekt, um Texte basierend auf Fakten zu erstellen. Mittels Abstract Wikipedia sollen basierend auf Fakten automatisiert Texte erstellt werden, und das vor allem für Sprachen, in denen Wikipedia noch nicht stark vertreten ist. Dabei bildet die Faktengrundlage Wikidata, welches wir auch für die Erstellung unserer Knowledge Graphen nutzen. Mittels definierter Templates sollen dann in einem ersten Schritt Texte erstellt werden. Zu hoffen und auch zu erwarten ist aber die baldige Verschmelzung von templatebasierten Ansätzen mit den Sprachmodellen. Besser erklärt das aber der Projektleiter von Abstract Wikipedia selbst, Denny Vrandečić.
Datum: 30.07.2021
Autor
Dr. Till Plumbaum
Till Plumbaum verantwortete als ehemaliger COO die Bereiche KI, maschinelles Lernen, natürliche Sprachverarbeitung (NLP), Personalisierung, Empfehlungssysteme, Suche und Information Retrieval.