Microsoft Research hat in einer neuen Simulation erhebliche Leistungsprobleme aktueller KI-Modelle in autonomen Multi-Agent-Umgebungen festgestellt. Die Tests zeigen, dass die Systeme ohne klare menschliche Vorgaben an Genauigkeit verlieren, sich leicht manipulieren lassen und bei kooperativen Aufgaben oft scheitern.

Die Forschenden entwickelten für die Untersuchung einen vollständig synthetischen E-Commerce-Marktplatz namens Magentic Marketplace. In diesem simulierten Ökosystem interagierten 100 Kundenagenten mit 300 Unternehmensagenten, um realitätsnahe Handelsprozesse nachstellen zu können. Die Simulation wurde mit mehreren führenden Modellen durchgeführt, darunter GPT 4o, GPT 5 und Gemini 2.5 Flash. Der Quellcode des Marktplatzes ist öffentlich einsehbar und kann durch weitere Forschungsteams genutzt oder erweitert werden.
Im Fokus standen Entscheidungsfindung, Robustheit und Zusammenarbeit der Agenten. Dabei traten deutliche Schwächen auf. Kundenagenten ließen sich leicht durch Verkaufsagenten beeinflussen und trafen teils unvorteilhafte Entscheidungen. Sobald das Angebot zu groß wurde, sank die Effizienz spürbar, da die Modelle Schwierigkeiten hatten, Optionen zu priorisieren. Probleme zeigten sich auch in kooperativen Szenarien: Die Agenten waren häufig unsicher, welche Rollen sie übernehmen sollten, und lösten Aufgaben daher nur teilweise oder mit deutlicher Verzögerung. Erst klare Schritt-für-Schritt-Anleitungen führten zu besseren Ergebnissen.
Ece Kamar, Managing Director des AI Frontiers Lab, betonte, dass diese Forschungsergebnisse wichtige Hinweise auf die Grenzen derzeitiger Modelle liefern. Systeme, die häufig als weitgehend autonom beworben werden, benötigen weiterhin ausgeprägte menschliche Strukturierung und Kontrolle, sobald mehrere Agenten gleichzeitig agieren oder konkurrieren. Das gilt insbesondere für Bereiche, in denen autonome Handelsentscheidungen getroffen oder komplexe Zielkonflikte gelöst werden müssen.
Die Ergebnisse legen nahe, dass KI-Agenten in absehbarer Zeit nicht zuverlässig ohne menschliche Aufsicht arbeiten werden. Stattdessen rückt die Frage nach wirksamen Kontrollmechanismen, klaren Rollenstrukturen und Schutzmaßnahmen vor unerwünschten Manipulationen stärker in den Vordergrund. Microsofts Simulation zeigt, dass Multi-Agent-KI zwar Fortschritte macht, die Vision vollständig selbstständig operierender Systeme jedoch weiterhin unrealistisch bleibt.















