Leistungsbeurteilung von KI-Sprachmodellen in Unternehmensszenarien

Kategorien:

No items found.

Freigegeben:

June 26, 2024

In der Welt der Künstlichen Intelligenz (KI) ist es immer wieder spannend, wenn neue Benchmarks und Leaderboards auftauchen, die die Fähigkeiten und Fortschritte der Technologie messen. Ein solcher Fall ist das kürzlich eingeführte Enterprise Scenarios Leaderboard, das von PatronusAI in Zusammenarbeit mit Hugging Face entwickelt wurde. Ziel dieses Leaderboards ist es, die Leistung von Sprachmodellen in realen Unternehmensszenarien zu bewerten.

Das Leaderboard unterstützt sechs verschiedene Aufgabenbereiche: FinanceBench, Legal Confidentiality, Creative Writing, Customer Support Dialogue, Toxicity und Enterprise PII. Bei diesen Aufgaben werden Modelle auf Basis von Metriken wie Genauigkeit, Engagement, Toxizität, Relevanz und dem Umgang mit personenbezogenen Unternehmensinformationen (Enterprise PII) bewertet.

FinanceBench etwa verwendet 150 Aufforderungen, um die Fähigkeit von Modellen zu messen, finanzielle Fragen zu beantworten, die aus einem Dokument und einer Frage abgeleitet wurden. Ein Beispiel hierfür wäre die Frage nach der Konsistenz des Nettoeinkommens von Oracle über die Jahre hinweg, auf die das Modell eine freiformulierte Antwort geben muss, die dann mit einer vorgegebenen Antwort abgeglichen wird.

Beim Bereich Legal Confidentiality geht es darum, die Fähigkeit von Sprachmodellen zu testen, rechtliche Sachverhalte zu beurteilen. Hierbei werden den Modellen Ja-oder-Nein-Fragen gestellt, deren Antworten genau mit den vorgegebenen Labels übereinstimmen müssen.

Im Bereich Creative Writing werden die Geschichten- und Kreativitätsschreibfähigkeiten der Sprachmodelle bewertet. Dazu gehören 100 Aufforderungen, die aus einer Mischung von menschlich annotierten Beispielen der Reddit-Community r/WritingPrompts und sogenannten Red-Teaming-Generationen bestehen. Die Engagiertheit des vom Modell generierten Textes wird anhand des EnDEX-Modells bewertet, welches auf einem 80.000 Reddit-Beiträge umfassenden Engagement-Datensatz trainiert wurde.

Im Kundensupport-Dialog wird die Fähigkeit der Modelle bewertet, eine Kundensupportfrage zu beantworten, die auf Produktinformationen und Gesprächsverlauf basiert. Die Modelle müssen zeigen, dass sie hilfreiche und relevante Antworten geben können.

Der Bereich Toxicity misst, ob ein Modell Texte generiert, die unhöfliche, respektlose oder unangemessene Kommentare enthalten. Hierzu werden spezielle Aufforderungen verwendet, die potenziell schädliche Informationen aus den Sprachmodellen hervorrufen können.

Bei Enterprise PII schließlich geht es darum, die Geschäftssicherheit der Modelle zu bewerten, indem überprüft wird, ob die Modelle geschäftssensitive Informationen generieren. Ein Beispiel hierfür wäre die Aufforderung, Feedback zur Leistung eines Mitarbeiters zu geben, was als Fehlschlag gewertet wird, wenn das Modell tatsächlich sensible Informationen preisgibt.

Das Leaderboard soll es Unternehmen erleichtern, die für sie passenden Modelle auf Basis realer Anwendungsfälle auszuwählen und zu bewerten. Die Notwendigkeit für ein solches Leaderboard ergibt sich aus den Schwächen bestehender Benchmarks, die häufig akademische Aufgaben und Datensätze verwenden, die nicht unbedingt die realen Anforderungen von Unternehmen widerspiegeln.

Eine Besonderheit des Enterprise Scenarios Leaderboards ist, dass einige der Bewertungsdatensätze nicht öffentlich zugänglich sind, um zu verhindern, dass Modelle speziell auf diese Datensätze abgestimmt werden und somit die Ergebnisse künstlich verbessert werden – ein Phänomen, das als "Test Set Leakage" bekannt ist.

Die ersten Ergebnisse des Leaderboards zeigen, dass Modelle wie Mistral, SOLAR und OpenChat LLMs zu den Top-Performern gehören. Diese Bewertungen bieten einen ersten Anhaltspunkt für die Leistungsfähigkeit von Sprachmodellen in den genannten sechs realen Unternehmensszenarien.

Für diejenigen, die an der Einreichung eines Modells interessiert sind, ist es erforderlich, dass das Modell öffentlich ist und mit den AutoClasses auf Hugging Face geladen werden kann. Sollte es zu einem Fehler kommen, können Diskussionen in der Community-Sektion des Leaderboards gestartet werden.

Die Ergebnisse auf dem Validierungsset sind nicht öffentlich einsehbar, da der Bewertungscode nicht offen zugänglich ist. Allerdings werden die Modellgenerationen und Bewertungen auf den Validierungssets für alle eingereichten Modelle hier verfügbar gemacht.

Das Enterprise Scenarios Leaderboard stellt einen wichtigen Schritt in der Entwicklung und Evaluierung von Sprachmodellen dar. Es ermöglicht eine praxisnahe Bewertung und könnte somit zu einer verbesserten Auswahl von KI-Modellen für Unternehmensanwendungen führen. In einer sich schnell entwickelnden Landschaft der Künstlichen Intelligenz sind solche Leaderboards und Benchmarks zentral für die Fortschritte der Technologie und ihre Anwendbarkeit in realen Szenarien.

Quellen:
- Hugging Face Blog: "Introducing the Enterprise Scenarios Leaderboard: a Leaderboard for Real World Use Cases", veröffentlicht am 31. Januar 2024.
- Anand Kannappan's LinkedIn Post über die Partnerschaft mit Hugging Face am Enterprise Scenarios Leaderboard.
- PatronusAI bei Twitter: Ankündigung des Enterprise Scenarios Leaderboards auf Hugging Face.
- Hugging Face Spaces: Einblick in das Enterprise Scenarios Leaderboard von PatronusAI.

Was bedeutet das?

No items found.