Große Sprachmodelle (LLMs) entwickeln sich rasant von reinen Konversationspartnern zu autonomen Agenten, die komplexe, professionelle Arbeitsabläufe ausführen können. Der Einsatz dieser Technologie in realen Unternehmensumgebungen wird jedoch durch das Fehlen geeigneter Benchmarks gebremst, die die besonderen Herausforderungen des Berufsalltags abbilden: langfristige Planung, permanente Zustandsänderungen und strenge Zugriffsprotokolle. Um diese Lücke zu schließen, haben Forscher von ServiceNow Research, Mila und der Université de Montréal das Projekt EnterpriseOps-Gym vorgestellt, eine hochrealistische Sandbox-Umgebung, die speziell darauf ausgelegt ist, die Fähigkeiten von KI-Agenten in Bezug auf Planung und Ausführung in komplexen Unternehmensszenarien zu bewerten.

EnterpriseOps-Gym bietet eine containerisierte Docker-Umgebung, die acht geschäftskritische Unternehmensbereiche simuliert. Diese Bereiche sind in operative, kollaborative und hybride Kategorien unterteilt, um ein umfassendes Bild der täglichen Herausforderungen in modernen Unternehmen zu zeichnen.

Zu den operativen Bereichen gehören Customer Service Management (CSM), Human Resources (HR) und IT Service Management (ITSM). In diesen Bereichen können KI-Agenten Aufgaben wie die Bearbeitung von Kundenanfragen, die Unterstützung von Mitarbeitern bei HR-bezogenen Fragen und die Lösung von IT-Problemen simulieren. Diese Szenarien erfordern ein tiefes Verständnis der jeweiligen Domäne und die Fähigkeit, komplexe Workflows zu navigieren.

Die kollaborativen Bereiche umfassen E-Mail, Kalender, Teams und Drive. Hier können KI-Agenten Aufgaben wie das Planen von Besprechungen, das Verwalten von E-Mails und das Teilen von Dokumenten automatisieren. Diese Szenarien erfordern die Fähigkeit, effektiv mit anderen Agenten und Benutzern zu kommunizieren und zusammenzuarbeiten.

Der hybride Bereich umfasst Aufgaben, die eine Koordination über verschiedene Domänen hinweg erfordern. Dies könnte beispielsweise die Beantragung eines Urlaubs (HR) und die anschließende Koordination mit dem IT-Support sein, um sicherzustellen, dass alle notwendigen Zugänge während der Abwesenheit des Mitarbeiters deaktiviert werden (ITSM). Solche Szenarien testen die Fähigkeit der KI-Agenten, komplexe, domänenübergreifende Aufgaben zu planen und auszuführen.

EnterpriseOps-Gym zielt darauf ab, ein standardisiertes und realistisches Testfeld für die Entwicklung und Bewertung von KI-Agenten im Unternehmenskontext zu schaffen. Durch die Simulation realer Arbeitsabläufe und Herausforderungen können Entwickler ihre Agenten besser trainieren und validieren, bevor sie in Produktionsumgebungen eingesetzt werden. Dies trägt dazu bei, das Vertrauen in KI-basierte Automatisierungslösungen zu stärken und die Akzeptanz in Unternehmen zu fördern. Die Forscher erhoffen sich, durch die Bereitstellung dieser Umgebung die Entwicklung von KI-Agenten zu beschleunigen, die in der Lage sind, komplexe Aufgaben im Unternehmensalltag selbstständig und zuverlässig zu erledigen und so die Effizienz und Produktivität in Unternehmen deutlich zu steigern. Die Ergebnisse der Forschung sind vielversprechend und könnten die Art und Weise, wie wir in Zukunft arbeiten, grundlegend verändern.