KI-Deployment im Unternehmen: Vom PoC in den Betrieb

Einleitung: Der Engpass liegt zwischen Pilot und Betrieb

Unternehmen investieren erheblich in Generative AI. Der messbare Geschäftsnutzen bleibt jedoch häufig aus. Eine viel zitierte Studie des MIT-Forschungsprogramms Project NANDA vom Juli 2025 kommt zu dem Ergebnis, dass 95 % der untersuchten Generative-AI-Pilotprojekte keinen messbaren P&L-Effekt erzeugen [1]. Die Projekte werden gezeigt, diskutiert und weiterentwickelt. In den produktiven Betrieb schaffen es nur wenige.

Der Engpass liegt meist im Deployment: im Übergang vom Proof of Concept zu einem belastbaren System, das in echten Prozessen läuft, überwacht wird, Kosten verursacht, Risiken erzeugt und messbare Ergebnisse liefern muss. IBM-CEO Arvind Krishna formulierte auf der Think 2026 die veränderte Priorität klar: „Es geht nicht mehr um Pilotprojekte. Es geht nicht mehr um Proofs of Concept." [2]

Diese Verschiebung zeigt sich auch am Markt. IBM, Microsoft, Google Cloud, AWS, Accenture und Capgemini haben 2026 neue Plattformen, Operating Models und Frameworks für Agentenbetrieb, Governance und Skalierung vorgestellt. Der Schwerpunkt liegt weniger auf Modelltraining als auf Integration, Betrieb, Kontrolle und Wirtschaftlichkeit.

Dieser Beitrag fasst die Datenlage 2025/2026 zusammen, beschreibt die wichtigsten Ursachen für gescheiterte KI-Initiativen und leitet daraus praktische Maßnahmen für den Weg vom Pilotprojekt in die Produktion ab.

Die Zahlen: Wo KI-Initiativen hängenbleiben

Die vorliegenden Studien messen unterschiedliche Dinge: technische Inbetriebnahme, ROI, EBIT-Wirkung, produktive Nutzung oder Skalierung. Trotzdem zeigen sie ein ähnliches Muster. Der Schritt vom Experiment zum wirtschaftlich wirksamen System bleibt schwierig.

Quelle	Zeitraum	Kennzahl	Wert
MIT Project NANDA [1]	Juli 2025	GenAI-Pilotprojekte ohne messbaren P&L-Effekt	95 %
RAND Corporation [3]	2024	Allgemeine Misserfolgsquote von KI-Projekten	80 %
McKinsey [4]	März 2025	GenAI-Projekte ohne EBIT-Wirkung	80 %
McKinsey [4]	März 2025	Organisationen, die in der Pilotphase feststecken	66 %
BCG [5]	2024	KI-Transformationen mit Fehlschlag	70 %
Gartner [6]	April 2026	I&O-Anwendungsfälle, die ROI-Erwartungen erfüllen	28 %
Gartner [6]	April 2026	I&O-Verantwortliche mit mindestens einem Fehlschlag	57 %
Deloitte [7]	Januar 2026	Organisationen, die „die meisten“ Piloten in Produktion bringen	25 %
IBM-Forschung [8]	März 2026	Unternehmen, die KI-Agenten in Produktion betreiben	11 %

Die Spannweite reicht von „28 % erfüllen ROI-Erwartungen“ bis „95 % erzeugen keinen messbaren P&L-Effekt“. Der Unterschied erklärt sich aus den jeweiligen Definitionen. Eine technische Live-Schaltung ist kein Nachweis für Gewinnwirkung. Ein Pilot mit positivem Feedback ist noch kein produktives System. Die RAND-Studie ordnet KI-Projekte als deutlich fehleranfälliger ein als reguläre IT-Vorhaben [3].

Abbildung 1: Erfolgsquoten produktiver KI-Initiativen laut MIT, RAND, Gartner, Deloitte und IBM für 2025/2026.

Warum Pilotprojekte den Sprung in die Produktion nicht schaffen

Aus der Entfernung wirken gescheiterte KI-Projekte häufig wie technische Probleme. Bei genauerer Betrachtung liegen die Ursachen meist in Daten, Prozessen, Betrieb, Governance und unklarer Wertmessung.

1. Daten sind nicht produktionsreif

Ein Modell kann im Pilot funktionieren, obwohl die Datenbasis für den Betrieb ungeeignet ist. In der Produktion braucht das System stabile Datenflüsse, klare Eigentümerschaft, definierte Aktualisierungszyklen, Datenqualitätssicherung und Zugriffskontrollen.

Gartner prognostiziert, dass bis Ende 2026 rund 60 % der KI-Projekte aufgegeben werden, weil ihnen „AI-ready Data“ fehlt [9]. Eine Analyse von Keyhole Software aus dem März 2026 beziffert den Anteil von Datenvorbereitung und Datenbereinigung am Projektaufwand auf 60 bis 80 % [10]. Der größte Teil der Arbeit entsteht damit vor dem Modell: Daten finden, bereinigen, verbinden, dokumentieren und für den Betrieb absichern.

2. Fachbereich und IT arbeiten mit unterschiedlichen Annahmen

Eine IDC-Whitepaper-Studie vom Juni 2025 führt 40 % der KI-Fehlschläge auf mangelnde Abstimmung zwischen Fachbereich und IT zurück. Weitere 33 % hängen mit fehlenden KI-Kompetenzen zusammen [11].

Im Pilot reicht es oft, wenn ein kleines Team einen Use Case demonstriert. In der Produktion müssen Fachbereich, IT, Data Engineering, Security, Legal, Controlling und Betrieb dieselbe Zieldefinition teilen. Ohne diese Abstimmung entstehen typische Brüche: Der Fachbereich bewertet Nutzen, die IT bewertet Stabilität, Risk bewertet Kontrolle, Controlling fragt nach Wirtschaftlichkeit. Wird diese Arbeit erst nach dem PoC begonnen, verzögert sich der Übergang oder bleibt ganz aus.

BCG beschreibt erfolgreiche KI-Transformationen mit einer 70/20/10-Verteilung: 70 % Menschen und Prozesse, 20 % Daten, 10 % Algorithmen [5]. Das ist kein Naturgesetz, aber ein nützlicher Hinweis. Der technische Anteil ist selten der größte Engpass.

3. Der produktive Betrieb fehlt

Ein Pilot kann auf einem Notebook, in einer isolierten Cloud-Umgebung oder mit manuellen Workarounds laufen. Ein produktives KI-System braucht deutlich mehr: Versionierung, Logging, Monitoring, Zugriffskontrolle, Lastverhalten, Fehlerroutinen, Sicherheits-Patches, Rollback-Pläne und klare Betriebsverantwortung.

Dieser Unterschied wird bei agentischen Systemen größer. Ein Agent, der eigenständig Aufgaben ausführt, braucht Grenzen, Eskalationspfade und Kontrollpunkte. Analystenmodelle beziffern den TCO bezahlbarer Multi-Agenten-Piloten auf 80.000 bis über 180.000 US-Dollar Initialkosten, zusätzlich 15 bis 25 % jährlicher Wartungsaufwand [12]. Solche Kosten werden im Pilot selten vollständig sichtbar.

4. ROI wird zu spät definiert

Deloitte beschreibt für 2026 eine wachsende „Pilot Fatigue“: Nach mehreren Jahren mit Demos und Experimenten erwarten Sponsoren belastbare Geschäftsergebnisse [7].

Das Problem entsteht oft am Anfang. Ein Pilot startet mit einer technischen Frage: Kann das Modell Dokumente zusammenfassen? Kann ein Agent Tickets klassifizieren? Kann ein Copilot Code erzeugen? Für den Produktionspfad reicht das nicht. Vor dem Start muss feststehen, welcher KPI sich ändern soll: Bearbeitungszeit, Fehlerquote, Umsatz, Conversion, Kosten pro Vorgang, Time-to-Market oder Kundenzufriedenheit. Ohne diese Definition endet der Pilot mit „funktioniert technisch“, aber ohne Investitionsentscheidung.

5. Governance wird nachträglich eingebaut

Mit dem EU AI Act und steigenden internen Anforderungen an Auditierbarkeit, Datenschutz und Risikomanagement wird Governance Teil des Produktionsdesigns. Sie lässt sich nur begrenzt nachträglich ergänzen.

Ein produktives KI-System braucht Risikoklassifikation, Modell-Monitoring, Audit-Logs, dokumentierte Entscheidungspfade, Rollen- und Rechtekonzepte sowie Rückfalloptionen. Wird das erst nach dem PoC geklärt, entstehen Verzögerungen, zusätzliche Architekturarbeit und häufig neue Freigabeprozesse. Gartner nennt Governance und Risiko als wichtige Gründe dafür, dass GenAI-Projekte nach der Pilotphase abgebrochen werden [13].

Die Antwort der Anbieter: Plattformen für Betrieb und Skalierung

Im Jahr 2026 haben mehrere große Anbieter ihre KI-Angebote in Richtung Produktion verschoben. Der Fokus liegt auf Agentenorchestrierung, Governance, Betriebsmodellen und ROI-Nachweis.

Anbieter	Angebot	Datum	Fokus
IBM	watsonx Orchestrate „Agentic Control Plane“ [2]	Mai 2026	Agentenorchestrierung über Datensilos hinweg
IBM Consulting	„Blueprint for the AI Operating Model“ [2]	Mai 2026	Beratung gegen die „AI Divide“
Microsoft	Azure AI Foundry mit Foundry Agent Service [14]	April 2026	Governance für Agentenflotten
Google Cloud	Gemini Enterprise Agent Platform [15]	April 2026	Konsolidierung der Vertex-AI-Werkzeuge
AWS	Amazon Bedrock AgentCore [16]	März 2026	Übergang von PoC zu Produktion für Agenten
Accenture	„AI Superhighway“-Betriebsmodell [17]	Mai 2026	End-to-End-Skalierungsleitfaden
Capgemini	RAISE™ – Reliable AI Solution Engineering [18]	Januar 2026	Zuverlässiger Betrieb agentischer KI

Die Begriffe ähneln sich: „Control Plane“, „Operating Model“, „Agentic Production“, „AI Divide“. Für die Auswahl solcher Angebote reicht die Begriffsebene nicht aus. Entscheidend sind belastbare Nachweise: SLAs, Referenzarchitektur, Sicherheitskonzept, Betriebsmodell, Kostenmodell, Monitoring-Ansatz und messbare Zielwerte.

ROI-Frameworks: Wertmessung vor dem Pilotstart

2026 hat sich die Diskussion um KI-Wertmessung professionalisiert. IDC beschreibt mit dem AI Business Value Benefit Framework neun Nutzenachsen: Umsatz, Kundenerfahrung, Mitarbeitererlebnis, Produktivität, Resilienz, Sicherheit, Time-to-Market, Nachhaltigkeit und Innovation [11]. Gartner arbeitet mit einer AI Value Matrix, die strategischen Impact und Umsetzbarkeit gegenüberstellt [13].

Solche Frameworks helfen, eine einfache Frage früh zu beantworten: Welcher Wert soll entstehen, auf welcher Achse, in welchem Zeitraum und mit welchem Nachweis? Diese Klärung muss vor dem Pilot erfolgen. Wird sie erst nach der technischen Demonstration begonnen, fehlt dem Projekt die Grundlage für eine Produktionsentscheidung.

Parallel entsteht FinOps for AI als eigene Disziplin. Die FinOps Foundation hat im April 2026 Empfehlungen zu „Token Economics“ und „AI Value Management“ veröffentlicht [19]. Der Hintergrund ist praktisch: Inferenzkosten, Modellwahl, Caching, Routing und Nutzungsmuster bestimmen im Betrieb einen wesentlichen Teil der Wirtschaftlichkeit.

Was erfolgreiche KI-Initiativen anders machen

Die Datenlage beschreibt nicht nur Scheitern. Aus Studien von MIT, McKinsey, Deloitte und KPMG sowie aus dokumentierten Fallbeispielen lassen sich fünf Muster ableiten, die mit Skalierungserfolg verbunden sind.

1. Reibung wird früh sichtbar gemacht

Die MIT-Studie State of AI in Business 2025 beschreibt erfolgreiche Projekte als Vorhaben, die „für Reibung designen“ [1]. Gemeint ist: Sie integrieren KI in reale Arbeitsabläufe und akzeptieren die daraus entstehenden Anpassungen.

Das betrifft Rollen, Freigaben, Datenflüsse, Verantwortlichkeiten und Gewohnheiten. Ein Pilot, der diese Reibung vermeidet, bleibt meist eine Demonstration. Ein Produktionssystem muss genau dort funktionieren, wo Übergaben, Ausnahmen und Haftungsfragen entstehen.

2. Führung denkt in Portfolios

MIT-Sloan-Forschung zeigt, dass erfolgreiche Unternehmen mehrere Projekte über längere Zeiträume verfolgen und ein Portfolio aufbauen [20]. Einzelne Use Cases liefern ungleichmäßige Ergebnisse. Manche scheitern, manche bleiben klein, manche werden später relevant.

Portfolio-Logik verhindert, dass ein einzelner Showcase die gesamte KI-Strategie trägt. Sie schafft außerdem Vergleichbarkeit: Welche Use Cases haben klare Datenbasis, messbare KPIs, beherrschbare Risiken und realistische Betriebsmodelle?

3. Wertbeiträge sind konkret messbar

Dokumentierte Fälle zeigen, wie produktive KI-Wertschöpfung aussehen kann:

Klarna: Der KI-Kundenservice-Agent übernahm bis Q3 2025 das Arbeitsvolumen von 853 Vollzeitstellen und sparte 60 Millionen US-Dollar ein [21].
JPMorgan Chase: Über 450 produktive KI-Anwendungsfälle; Investment-Banking-Agenten erstellen Präsentationen in 30 Sekunden [22].
Morgan Stanley: KI überprüfte mehr als 9 Millionen Zeilen Legacy-Code und gewann 280.000 Entwicklerstunden zurück [23].
Walmart: Ein KI-gestütztes Workflow-Tool reduzierte die Schichtplanung im Nachtwarengeschäft von 90 auf 30 Minuten [24].

Diese Fälle haben eine gemeinsame Struktur: Der Engpass ist klar benannt, der Prozess existiert bereits, der Nutzen ist messbar und das System wurde über mehrere Quartale verbessert.

4. Das AI Center of Excellence wird zur Steuerungsfunktion

KPMG beschreibt 2026 eine Weiterentwicklung des klassischen AI Center of Excellence: weg von fragmentierten Tool-Sammlungen, hin zu einer orchestrierten Fähigkeit, die Copiloten, Agenten und Workflows zentral steuert [25].

Das verändert die Rolle des CoE. Es liefert nicht nur Beratung oder Templates, sondern koordiniert Architektur, Governance, MLOps, Risiko, Datenzugriff und Wiederverwendung. Für produktive KI ist diese Koordination wichtiger als ein weiterer isolierter Pilot.

5. Kontrollgrenzen sind Teil des Designs

Agentische Systeme brauchen klare Grenzen. Dazu gehören erlaubte Aktionen, gesperrte Aktionen, Eskalationsregeln, menschliche Freigaben, Protokollierung und Rückfallpfade. Dieses Safe-Fail-Design reduziert das Risiko ungewollter Autonomie, falscher Entscheidungen und nicht nachvollziehbarer Ergebnisse.

In regulierten Branchen ist das Voraussetzung für produktive Nutzung. Ohne solche Grenzen bleibt ein Agent häufig auf Assistenzfunktionen beschränkt oder wird gar nicht freigegeben.

Praktischer Leitfaden: Sieben Hebel für den Weg in die Produktion

Aus den Studien und Fallbeispielen ergeben sich sieben Maßnahmen, die vor dem nächsten KI-Pilot geklärt werden sollten.

Geschäftlichen KPI vor dem technischen Use Case formulieren.
Der erwartete Nutzen muss in Euro, Stunden, Prozentpunkten, Fehlerreduktion oder einem anderen belastbaren Maß beschrieben sein.
Datenreife vor Modellwahl prüfen.
Fehlende Datenqualität, unklare Eigentümerschaft oder instabile Datenflüsse sollten vor dem Pilot adressiert werden. Sonst wird der PoC später an der Pipeline scheitern.
Budget für Menschen, Prozesse und Betrieb einplanen.
Modelle und Infrastruktur sind nur ein Teil der Kosten. Rollen, Schulung, Prozessänderung, Monitoring, Governance und Support gehören in die Kalkulation.
Betriebsmodell vor dem PoC definieren.
SLA, On-Call-Regeln, Versionierung, Incident-Prozess, Rollback und Monitoring sollten Teil der Pilotspezifikation sein.
Governance ab dem ersten Tag einbauen.
Risikoklassifikation, Audit-Logs, Modell-Monitoring und Freigaberegeln müssen mitentwickelt werden, besonders in regulierten Bereichen.
FinOps for AI etablieren.
Token-Kosten, Inferenz-Routing, Caching, Modell-Tier-Auswahl und Nutzungsgrenzen beeinflussen die Wirtschaftlichkeit im Betrieb erheblich.
Portfolio statt Einzelshowcase aufbauen.
Mehrere mittelgroße Use Cases mit klarer Wertlogik sind belastbarer als ein einzelner Leuchtturm-PoC. Das Portfolio sollte regelmäßig anhand von Nutzen, Risiko, Datenreife und Betriebsfähigkeit überprüft werden.

Fazit: Produktion entscheidet über den Wert

KI erzeugt erst dann belastbaren Wert, wenn sie in produktiven Prozessen läuft. Die Zahlen aus 2025 und 2026 zeigen, wie groß die Lücke zwischen Pilot und Betrieb bleibt: 95 % der untersuchten GenAI-Piloten erzeugen keinen messbaren P&L-Effekt [1], 11 % der Unternehmen betreiben KI-Agenten produktiv [8], und ein erheblicher Teil der GenAI-Projekte endet nach dem Proof of Concept [13].

Die Ursachen sind greifbar: Datenqualität, Betriebsmodell, Governance, ROI-Definition, Kostenkontrolle und organisatorische Abstimmung. Genau dort sollte die Arbeit beginnen. Wer einen KI-Pilot startet, sollte den Produktionspfad von Anfang an mitplanen: Zielwert, Datenbasis, Betrieb, Risiko, Kosten und Verantwortlichkeiten.

Quellen

[1] Fortune – MIT report: 95% of generative AI pilots at companies are failing
https://fortune.com/2025/08/18/mit-report-95-percent-generative-ai-pilots-at-companies-failing-cfo/

[2] IBM Newsroom – Think 2026: IBM Delivers the Blueprint for the AI Operating Model as the AI Divide Widens
https://newsroom.ibm.com/2026-05-05-think-2026-ibm-delivers-the-blueprint-for-the-ai-operating-model-as-the-ai-divide-widens

[3] RAND Corporation – The Root Causes of Failure for Artificial Intelligence Projects
https://www.rand.org/pubs/research_reports/RRA2680-1.html

[4] McKinsey / Boston University Questrom – The State of AI in 2025: Moving Beyond AI Pilots
https://www.bu.edu/questrom/blog/moving-beyond-ai-pilots-what-organizations-get-wrong/

[5] BCG – 70/20/10 Research on AI Transformations
https://www.linkedin.com/posts/greg-d-vogel_why-70-of-ai-transformations-fail-and-what-activity-7428901680080957440-5gIt

[6] Gartner – AI Projects in Infrastructure and Operations Stall Ahead of Meaningful ROI Returns
https://www.gartner.com/en/newsroom/press-releases/2026-04-07-gartner-says-artificial-intelligence-projects-in-infrastructure-and-operations-stall-ahead-of-meaningful-roi-returns

[7] Deloitte – State of AI in the Enterprise 2026
https://www.linkedin.com/posts/jeffchristianonline_deloitte-just-released-its-latest-state-of-activity-7433187959908052992-1Nqa

[8] TechHQ – IBM identifies the data bottleneck blocking agentic AI
https://techhq.com/news/ibm-agentic-ai-enterprise-data-bottleneck/

[9] sranalytics.io – Why 95% of AI Projects Fail and How Data Fixes It
https://sranalytics.io/blog/why-95-of-ai-projects-fail/

[10] Real World Data Science – Why 95% Of AI Projects Fail and How to Change the Odds
https://realworlddatascience.net/applied-insights/case-studies/posts/2026/01/12/why-95-percent-of-ai-projects-fail.html

[11] IDC – Time for the AI Pivot
https://info.idc.com/rs/081-ATC-910/images/US-IDC-250624-Whitepaper-Time-for-the-AI-Pivot.pdf

[12] MyBusinessFuture – RAND/Gartner Analysis: 80% AI Failure Rate 2026
https://mybusinessfuture.com/en/80-ai-failure-rate-2026-how-rand-and-gartner-expose-the-ai/

[13] IBM Think Insights – Why most enterprise AI projects stall before they scale
https://www.ibm.com/think/insights/why-most-enterprise-ai-projects-stall-before-scale

[14] Microsoft – Azure AI Foundry
https://azure.microsoft.com/en-us/products/ai-foundry

[15] Google Cloud – Gemini Enterprise Agent Platform
https://cloud.google.com/learn/what-is-artificial-intelligence

[16] IBM – Announcing watsonx Orchestrate eCommerce Pilot for AI Agents
https://www.ibm.com/new/announcements/announcing-watsonx-orchestrate-ecommerce-pilot-for-ai-agents

[17] LinkedIn – Accenture AI Superhighway / Complizen Analysis
https://www.linkedin.com/posts/complizen_mit-report-95-of-generative-ai-pilots-at-activity-7364016734510452740-zQhF

[18] The AI Enterprise – Why 95% of GenAI Pilots Fail
https://www.theaienterprise.io/p/ai-pilots-fail

[19] FinOps Foundation
https://www.finops.org/

[20] 80,000 Hours / MIT Project NANDA Podcast – The story behind the bad AI stat
https://80000hours.org/podcast/episodes/ai-workplace-mit-study/

[21] Innovative Human Capital – The GenAI Divide: Why 95% Fail and How the 5% Succeed
https://www.innovativehumancapital.com/article/the-genai-divide-why-95-of-enterprise-ai-investments-fail-and-how-the-5-succeed

[22] Medium / Vishvas Kumar – From Experimentation to Execution: Why 95% of Enterprise AI Pilots Fail
https://medium.com/@er.vishvas.kumar/from-experimentation-to-execution-why-95-of-enterprise-ai-pilots-fail-and-what-the-5-do-049e0482ca4c

[23] LinkedIn – MIT Study 2025: 95% of GenAI pilots fail
https://www.linkedin.com/posts/charles-declerck_mit-study-2025-95-of-genai-pilots-fail-activity-7458059195603431425-NtFI

[24] Walmart Corporate – Walmart Unveils New AI-Powered Tools to Empower 1.5 Million Associates
https://corporate.walmart.com/news/2025/06/24/walmart-unveils-new-ai-powered-tools-to-empower-1-5-million-associates

[25] Forbes / Jason Snyder – MIT Finds 95% Of GenAI Pilots Fail Because Companies Avoid Friction
https://www.forbes.com/sites/jasonsnyder/2025/08/26/mit-finds-95-of-genai-pilots-fail-because-companies-avoid-friction/