In einer Zeit, in der digitale Technologien zunehmend in unserem Alltag verankert sind, spielt auch Künstliche Intelligenz (KI) eine immer wichtigere Rolle. Große Sprachmodelle (Large Language Models, LLMs) sind dabei ein zentraler Forschungsbereich, der sich mit der Verarbeitung und Generierung von natürlicher Sprache beschäftigt. Diese Modelle können Texte verstehen, beantworten und generieren und sind somit für eine Vielzahl von Anwendungen relevant.
Doch trotz ihrer beeindruckenden Fähigkeiten stoßen diese Modelle an Grenzen, insbesondere wenn es darum geht, lange Texte zu verarbeiten. Aktuelle LLMs sind auf eine bestimmte maximale Kontextlänge beschränkt und haben Schwierigkeiten, lange Eingaben robust zu verarbeiten. Dies stellt ein Hindernis für Anwendungen dar, die eine umfassende Textanalyse erfordern, wie beispielsweise die Auswertung juristischer Dokumente oder wissenschaftlicher Arbeiten.
Um diese Einschränkungen zu überwinden, hat Google kürzlich ein neues System vorgestellt, das als ReadAgent bezeichnet wird. Dieses System, ein LLM-Agent, kann die effektive Kontextlänge in Experimenten um das bis zu 20-fache erhöhen. Inspiriert von der Art und Weise, wie Menschen interaktiv lange Dokumente lesen, ist ReadAgent als einfaches Aufforderungssystem konzipiert, das die fortgeschrittenen Sprachfähigkeiten von LLMs nutzt, um (1) zu entscheiden, welche Inhalte gemeinsam in einer Erinnerungsepisode gespeichert werden sollen, (2) diese Erinnerungsepisoden in kurze episodische Erinnerungen, sogenannte Kerngedächtnisse, zu komprimieren und (3) Aktionen auszuführen, um Passagen im Originaltext aufzurufen, falls ReadAgent sich an relevante Details erinnern muss, um eine Aufgabe zu erfüllen.
Die Evaluierung von ReadAgent erfolgte im Vergleich zu Basislinien, die Retrieval-Methoden verwenden, und zeigte, dass ReadAgent auf allen drei Aufgaben - QuALITY, NarrativeQA und QMSum, die auf das Verständnis langer Dokumente abzielen - besser abschnitt, während es das effektive Kontextfenster um das 3- bis 20-fache erweiterte.
Diese Ergebnisse sind besonders für Firmen wie Mindverse von Bedeutung, die auf KI-Lösungen spezialisiert sind. Mindverse bietet ein All-in-One-Content-Tool für KI-Texte, Inhalte, Bilder und Recherche und entwickelt maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssysteme und vieles mehr. Die Möglichkeit, lange Kontexte effektiver zu verarbeiten, könnte die Funktionalität solcher Anwendungen erheblich verbessern und neue Möglichkeiten in der Mensch-KI-Interaktion eröffnen.
Die Relevanz von ReadAgent erstreckt sich auch auf die generelle Forschung im Bereich der KI, da das Verständnis dafür, wie KI-Modelle lange Texte verarbeiten und nutzen, noch begrenzt ist. Eine Studie, die von Forschern der Stanford University, der University of California, Berkeley und Samaya AI durchgeführt wurde, untersuchte die Leistung von Sprachmodellen in Aufgaben, die das Identifizieren relevanter Informationen in ihren Eingabekontexten erfordern. Die Ergebnisse zeigten, dass die Leistung signifikant abnimmt, wenn sich relevante Informationen in der Mitte langer Kontexte befinden.
Mindverse und andere KI-Unternehmen könnten ReadAgent und ähnliche Technologien nutzen, um ihre eigenen Produkte zu verbessern und ihren Kunden leistungsfähigere und effizientere KI-Werkzeuge zur Verfügung zu stellen. Mit der kontinuierlichen Weiterentwicklung von KI-Technologien wie ReadAgent wird die Fähigkeit, lange und komplexe Texte zu verarbeiten, sicherlich eine Schlüsselkomponente für zukünftige Anwendungen sein.
Quellen:
- Twitter-Profil von @_akhaliq (https://twitter.com/_akhaliq)
- arXiv:2307.03172v3 (https://arxiv.org/abs/2307.03172)
- Hugging Face Papers zu arXiv:2307.03172 (https://huggingface.co/papers/2307.03172)