«We know more than we can tell.»

⚠️ Draft-Notizen (vor Publikation): Quellen-Links sind bewusst nicht eingefügt — die internen YT-Mirror-URLs gehören nicht in einen öffentlichen Post; echte YouTube-Links bei Bedarf ergänzen (Liste am Schluss). Harte Zahlen (McKinsey 88/6, Deloitte 84 %, Harvey 6×, Rocketin −90 %) stammen aus Talk-Synthesen → vor Publikation an Originalquelle verifizieren.

Warum die meisten Enterprise-AI-Initiativen eine Schicht zu hoch ansetzen

Michael Polanyi formulierte diesen Satz 1966. Er ist die Basis seines Konzepts des impliziten Wissens: jener Erkenntnisse, Fähigkeiten und Urteile, die unser Handeln und unsere Erfahrung prägen – sich aber nie vollständig in Worte, Regeln oder Formeln fassen lassen.

Sechzig Jahre später beschreibt dieser Satz meines Erachtens die am stärksten unterschätzte Limitation aktueller Enterprise-#AI-Initiativen.

Die Zahlen dazu sind ernüchternd: Laut McKinsey setzen rund 88 % der Unternehmen AI ein – aber nur 6 % erzielen damit echten Wertbeitrag (Zahl vor Publikation verifizieren). Deloittes State-of-AI-Bericht 2026 berichtet, dass 84 % der Enterprise-Leader sehen, wie ihre AI-Initiativen den erwarteten Wert nicht liefern. Das ist keine Pilot-Delle. Das ist ein strukturelles Muster.

Und es ist kein Modellproblem.

Die Verarbeitungsebene ist gelöst. Die Substratebene nicht.

Aktuelle Ansätze – von RAG bis Fine-Tuning – optimieren die Verarbeitungsebene: Sie definieren, wie eine KI mit Kontext umgeht. Hier sind die Fortschritte real und schnell.

Das eigentliche Problem liegt aber eine Schicht tiefer. In den meisten Unternehmen ist die Wissensbasis schlichtweg fragmentiert. Die AI-Engineer-Community bringt es auf eine brutale Formel: Institutionelles Wissen ist typischerweise „40 % tribal, 20 % veraltet, 20 % unzuverlässig, 10 % dupliziert" – und „kein noch so grosser Stapel an MCP-Servern oder RAGs" kann ein kaputtes Wissenssubstrat reparieren (AI Engineer, IKEA-Case zu Enterprise-Agents at Scale, 2026).

Wir bauen hochmoderne KI-Systeme auf einem Kontext auf, der das echte, lebendige Wissen der Organisation nur unvollständig abbildet. Der Engpass ist nicht Intelligenz. Der Engpass ist das Substrat.

In unserem Team nennen wir dieses fehlende Substrat «Business Brain».

Erst die Sprache: von Prompt Engineering zu Context Engineering

Bevor wir über das Substrat reden, lohnt ein Blick darauf, wie sich die Disziplin selbst gerade neu sortiert. „Prompt Engineering" war ausreichend, solange KI-Interaktionen synchron und sessionbasiert waren. Es bricht in dem Moment, in dem Agents über Stunden autonom laufen.

Anthropic hat den Begriffswechsel 2025 grundlegend gefasst: Context Engineering ist „der Übergang vom Verfassen isolierter Instruktionen hin zum Gestalten des gesamten Informationszustands, in dem ein KI-System operiert." Oder, wie es Harrison Chase (LangChain) zuspitzt: „Everything's context engineering."

Der Analyst Nate B. Jones zerlegt das frühere Sammelbecken „Prompting" in vier eigenständige Disziplinen – Prompt Craft, Context Engineering, Intent Engineering, Specification Engineering. Genau diese Vermischung, so seine These, hat dazu geführt, dass Enterprise-Teams in Kontext-Infrastruktur systematisch unterinvestiert haben. Sein Satz, der hängenbleibt:

„Der beste Prompt der Welt kann eine KI nicht dafür entschädigen, dass sie nicht weiss, woran du gearbeitet hast, was du bereits versucht hast, was deine Constraints sind, wer die Schlüsselpersonen sind – oder was ihr letzten Dienstag entschieden habt." — Nate B. Jones

Die AI-Engineer-Szene formuliert daraus eine Rollenverschiebung: Aus dem Prompt-Schreiber wird ein Informationsarchitekt. „Context is the new code." Und wie Code braucht Kontext einen Lebenszyklus: erzeugen, testen (Evals), verteilen, beobachten.

Das ist die Verarbeitungsebene auf ihrem aktuellen Stand. Notwendig – aber nicht hinreichend.

Warum RAG allein nicht reicht

RAG war der erste ernsthafte Versuch, das Kontextproblem zu lösen. Das oft gehörte „RAG is dead" ist eine Fehllesung. Was stirbt, ist das naive Muster: einmal Vektor-Suche, Chunks in den Prompt, fertig.

Chase AI bringt das mentale Modell auf den Punkt: Systeme, die „einfach Chunks greifen, ohne die Beziehungen zwischen ihnen zu verstehen", sind im Grunde „ein überkompliziertes Strg-F" – sie kennen Nähe, nicht Bedeutung.

Drei Bruchstellen, die für unser Thema zählen:

Latentes Schlussfolgern. Fragen, die „latentes Reasoning über mehrere Dokumente oder Assoziationen zwischen mehreren Dingen" erfordern, sind mit naivem RAG strukturell nicht lösbar (AI Engineer).
Agents brauchen Bundles, keine Chunks. Nate B. Jones argumentiert, dass Agents zusammengesetzte Kontext-Bundles benötigen – Records, Policies, Lineage, Permissions –, nicht nur semantisch ähnliche Textfetzen. Klassisches Chatbot-RAG lässt Agents bis zu 85 % ihrer Rechenleistung darauf verschwenden, in jedem Schritt denselben Kontext neu zu entdecken.
Das Context-Window-Trugbild. Grössere Fenster lösen das Problem nicht. Transformer lesen Tokens als flachen String; das Resultat ist eine U-förmige Aufmerksamkeitskurve, in der die Mitte verloren geht („lost in the middle"). Reale Performance fällt oft auf ~10 % der beworbenen Kapazität.

Die Pointe der AI-Engineer-Szene: „The gap is not intelligence; it is context." Mehr Modell, mehr Tokens, mehr MCP-Pipes – nichts davon hilft, wenn das Substrat darunter inkohärent ist.

Die eigentliche Wand: implizites Wissen

Hier treffen sich Polanyi und die Empirie von heute.

Das Wissen, das Unternehmen am dringendsten in ihre KI-Systeme bekommen müssten, ist genau jenes, das sich am schlechtesten artikulieren lässt. Nate B. Jones macht daraus ein präzises Argument:

„Die erfahrensten, am stärksten überlasteten Wissensarbeiter tragen das höchste Verhältnis von implizitem zu explizitem Wissen. Ihre Arbeit ist am stärksten komprimiert. Und sie ist ihnen selbst am unsichtbarsten."

Und er beziffert die Lücke: „80 % der Bedeutung rund um das Produkt … ist Tribal Knowledge. Es lebt in unseren Köpfen. Vielleicht in Marketing-Copy. In unseren Datenstrukturen existiert es nicht." Nur rund ein Fünftel des relevanten Wissens ist in strukturierten Daten repräsentiert. Der Rest liegt verstreut: „Code in GitHub, Architektur-Entscheide in Confluence-Seiten, die niemand aktualisiert, Kundenkontext in Salesforce, Projektstatus in Jira – und das eigentliche Warum in Slack-Threads, die vorbeiscrollen, in Meeting-Transkripten, die keiner liest, oder in den Köpfen sehr erfahrener Leute, die überlegen, das Unternehmen zu verlassen."

Das ist exakt Polanyi, sechs Jahrzehnte später, in der Sprache der Plattformen.

Und es ist nicht neu. Bereits 1995 beschrieben Nonaka und Takeuchi in The Knowledge-Creating Company das SECI-Modell: Organisationales Wissen lebt in vier Modi. Zwei davon – Externalisierung und Kombination – sind traditionell dokumentenbasiert. Die anderen beiden – Sozialisation und Internalisierung – beruhen auf rein menschlicher Interaktion und waren vor LLMs operativ kaum systematisch erfassbar.

Heute ist erstmals ein technischer Pfad in Sichtweite, diese verbleibenden Modi skalierbar anzugehen. Vorausgesetzt, die Architektur sieht ihn auch wirklich vor.

Konkret: Strategie-Decks dokumentieren typischerweise nur einen Bruchteil der Begründungen hinter einer Entscheidung. Meeting-Rapporte und CRM-Notes fangen einen kleinen Teil dessen ein, was den Account-Status wirklich erklärt. Brand Guidelines decken einen kleinen Teil dessen ab, was eine Marke ausmacht. Diese Lücke ist kein Dokumentations-Versagen, sondern ein strukturelles Problem. Formeln wie «professionell, doch nahbar» oder «kundenzentriert» sind Artefakte, in denen das eigentliche Wissen bereits verloren gegangen ist. Vieles bleibt in den Köpfen. Solange die «eine» Person bleibt, ist das ein theoretisches Problem. Wenn sie geht, nicht mehr.

«Business Brain»: das fehlende Substrat

Der Begriff ist neu – Accenture etwa nennt die Brand-Variante «Digital Brand Brain» (dazu gleich mehr). Das Problem ist es nicht.

Architektonisch ist ein Business Brain eine eigenständige Schicht, kein Nebenprodukt bestehender Knowledge-Management-Systeme. Sie sitzt unter Agents, RAG-Pipelines und Tool-Integrationen – und unterscheidet sich durch drei Eigenschaften von einer Confluence-Sammlung. Bemerkenswert ist, dass die führenden Engineering-Teams genau diese drei Eigenschaften gerade unabhängig voneinander bauen.

1. Provenienz als First-Class-Property

Jede Aussage trägt Quelle, Zeitpunkt und Bestätigungs-Status. Ohne das vermischen sich Hypothese und gesichertes Wissen – was Downstream-Agents inkohärent macht.

Das ist keine Theorie. Anthropics eigene Agent-Memory-Architektur erzwingt Per-Agent-Attribution bei jedem Schreibvorgang; geteilte Speicher tragen vollständige Versionshistorie – nicht nur was bekannt ist, sondern wer es wann geschrieben hat. Neo4j macht Provenienz strukturell navigierbar: Reasoning-Traces – das Warum hinter Entscheidungen – werden als eigene Knoten neben Fakten gespeichert, sodass ein Agent nicht nur „ähnliche" Antworten liefert, sondern Präzedenz, Urheber und Zeitpunkt. Und Elicit zeigt das Prinzip in Reinform: Hinter jeder Antwort steht ein ausführbarer, reproduzierbarer Ableitungsplan – der Mechanismus zählt so viel wie das Resultat.

2. Widersprüche werden gehalten, nicht aufgelöst

Wenn fünf Stakeholder uneinig sind, ist die Disagreement-Map die wertvolle Information – nicht der Mittelwert. Organisationales Wissen ist eben kein Konsensdokument, sondern ein Feld konkurrierender Ansprüche.

Genau hier versagt naives RAG, weil Top-k-Ähnlichkeit Widerspruch glattbügelt. Graph-basierte Ansätze halten Konflikt als Relation – man kann sehen, welche Knoten sich widersprechen. Nicht zufällig speichert das IKEA-Team seine kuratierten Kontextblöcke in einem Git-Repository statt in Confluence: Gits Konfliktlösung, PR-Review und Historie sind dafür gebaut, konkurrierende Beiträge in produktiver Spannung zu halten, statt sie still zu mergen. Die Gegenkraft auf Modellebene heisst übrigens Sycophancy – das Modell sagt, was gefällt, nicht was stimmt (Anthropic). Wer Zustimmung in jede Schicht einbaut, bekommt am Ende einen sehr höflichen Durchschnitt statt Wahrheit.

3. Belege werden gegen Artefakte abgeglichen

Was Menschen über ihr Marketing oder ihre Kundenbeziehungen glauben, wird gegen historische Outcomes geprüft. Selbstwahrnehmung ist eine Quelle, kein Ground Truth.

Das anschaulichste Beispiel kommt von Arize: Ein Report-Agent bei Apple-Engineers schrieb seinen Output auf die Disk, statt ihn zurückzugeben – ein systemischer Fehler, vom Endergebnis aus unsichtbar, nur im Span-Trace erkennbar. Die Selbstwahrnehmung war schlicht falsch; erst das Artefakt sagte die Wahrheit. IKEAs „Demand-Driven Context" macht daraus Methode: Agents bekommen echte Arbeit, dürfen scheitern, die konkreten Lücken werden sichtbar, ein Fachexperte füllt sie – und der Agent kuratiert die Antwort in einen wiederverwendbaren Kontextblock. Anthropics „Memory Dreaming" schliesst denselben Loop asynchron: Was der Agent zu wissen glaubte, wird gegen sein tatsächliches Verhalten über Sessions abgeglichen. Die berichteten Effekte – Harvey (6× auf einem Legal-Benchmark), Rocketin (−90 % Fehler im First Pass) (beide Zahlen vor Publikation prüfen) – stammen aus diesem Reconciliation-Loop, nicht aus besseren Modellen.

Was wir im Team bauen

Bei uns im Team arbeiten wir seit Monaten an genau dieser Architektur. Die Arbeitsbasis ist ein versionierter Markdown-Vault, in dem dokumentierte Repositories – Brand-Material, Offerings, Strategie-Artefakte, Use-Case-Historien – neben strukturierten Implicit-Knowledge-Schichten leben. Die Wahl von Git/Markdown ist kein Zufall, sondern dieselbe Logik wie bei IKEA: Versionierung, Provenienz und Widerspruch sind eingebaut, nicht nachgerüstet.

Ein eigener Layer aus Interview-Agents speist die Externalisierungs-Komponente von SECI systematisch – also genau jenen Modus, der menschliches, implizites Wissen in explizite Form überführt. Dazu kommt der laufende Abgleich der Artefakte gegen tatsächliche Outcomes. Drei Eigenschaften, ein Substrat.

Der Proof Point: von der These zur Live-Kampagne

Dass das kein theoretisches Konstrukt ist, hat Ende Mai der Swiss MarTech Summit 2026 in Winterthur gezeigt. Jonathan Fearns von Accenture gab dort den ersten öffentlichen Walk-through, wie Accenture sein eigenes Marketing neu erfunden hat – und führte die Brand-Variante des Substrats vor: den Digital Brand Brain.

Das Bemerkenswerte ist die Aufteilung, die Accenture selbst auf die Bühne brachte – sie ist deckungsgleich mit der These dieses Artikels:

Explizit: 20 %. Creative Context (Brand Kits, Design-Systeme, Briefings), Activation Context (Audiences, Personas, Performance) sowie Legal & Compliance – der dokumentierte Teil.
Implizit: 80 %. Aus annotierten und freigegebenen Assets abgeleitete „On-Brand"- und „Off-Brand"-Regeln: Jahrzehnte an Creative-Director-Urteilen, Agentur-Calls und Asset-Freigaben, die nie in einer Guideline standen.

Fearns' Satz dazu hätte aus diesem Artikel stammen können: Brand Guidelines sind ein winziger Bruchteil dessen, was eine Marke wirklich ausmacht. Das ist Polanyi auf der Marketing-Bühne. Und es ist kein Zufall, dass Accenture den Brand Brain in ihrem «Digital Core» verortet – der Schicht, auf der alles andere steht. Substrat, nicht Feature.

Konkret bei Lavazza: Kaffee ist kulturell hochspezifisch und verlangt tiefe Lokalisierung. Accenture kodifizierte die Marke in einen Brand Brain, der dem kreativen Prozess vier Fähigkeiten gibt – Predict, Assemble, Generate, Validate –, liess synthetische Personas die Kampagne vorab prüfen und brachte die Origami-Kampagne in den USA live. Content, der nicht nur Guideline-konform war, sondern Brand-implizit konsistent.

Ein Proof of Concept für eine Domäne. Brand ist eine davon. Strategie, Sales, Service und Product folgen derselben Logik.

Zwei Konsequenzen

Architektonisch: Ein Business Brain ist eine Substrat-Investition, die unter mehreren KI-Use-Cases liegt. Wer sie überspringt, optimiert weiter auf Modell- und Prompt-Ebene – während der eigentliche Engpass eine Schicht tiefer unberührt bleibt. Das ist die Pointe hinter den 6 %: nicht zu wenig Intelligenz, sondern ein inkohärentes Substrat.

Budgetär: Wenn in eurer Organisation niemand verantwortlich ist, dieses Substrat aufzubauen, generiert jeder Agent, den ihr ausrollt, aus der dokumentierten Untermenge eurer Realität. Der Output wirkt kompetent genug, dass die strukturelle Lücke erst sichtbar wird, wenn ein Mitbewerber sie geschlossen hat.

Auf welchem Substrat generieren eure Agents? Und wie weit reicht dieses Substrat in die Modi organisationalen Wissens, die jenseits eurer dokumentierten Quellen liegen?

Quellen / weiterführend

(YouTube-Links bei Bedarf ergänzen)

Michael Polanyi, The Tacit Dimension (1966)
Nonaka & Takeuchi, The Knowledge-Creating Company (1995) — SECI-Modell
Anthropic — Context Engineering (2025); Persistent Memory / „Dreaming"-Architektur; Sycophancy
Nate B. Jones — Four Disciplines of AI Prompting; Tacit Knowledge Problem; Organizational Knowledge Problem; Agent-Native Context Bundles
AI Engineer (Conf-Talks) — Enterprise AI / IKEA „Knowledge Monolith" & Demand-Driven Context; The Future of RAG; Context Graphs (Neo4j); The Context Engine Gap
Chase AI — Why Naive RAG Fails
Arize / Braintrust — Production Agent Observability & Evals
Elicit — reproduzierbare Ableitungspläne (ÆPL)
Accenture / Lavazza — „Digital Brand Brain" (20 % explizit / 80 % implizit), Swiss MarTech Summit 2026, Winterthur, 28. Mai 2026 (Keynote: Jonathan Fearns)