Der Trend, Computer über KI-Agenten per Mustererkennung auf Bildschirmebene zu steuern, verspricht eine Revolution: Software, die Anwendungen wie ein Mensch „bedient“, ohne Schnittstellenintegration, könnte Büroarbeit, Verwaltung und Teile von Industrieprozessen weitgehend automatisieren. Gleichzeitig klafft eine Lücke zwischen beeindruckenden Benchmarkzahlen und den Anforderungen sicherheitskritischer und hochregulierter Prozesse, in denen schon wenige Prozent Fehlerrate inakzeptabel sind. Um zu klären, wo die Grenzen eines rein empirischen, „pixelgetriebenen“ Ansatzes liegen und welche Leitplanken Politik und Wirtschaft setzen sollten, ist aus meiner Sicht eine kritische Würdigung erforderlich.

Schon Anfang der 2000er-Jahre gab es Versuche, Applikationsfelder auf dem Bildschirm pixelgenau zu erkennen, um Inhalte auszulesen oder zu befüllen, etwa für die Indexierung von Dokumenten in DMS-Systemen ohne APIs oder stabile Feldbenennungen. Solche Lösungen arbeiteten meist mit Screenshot-basierten Mustern, Koordinaten, Farbbereichen oder einfachen Formen und versprachen, genau wie viele moderne Agenten heute, „Integration ohne Schnittstelle“. In der Praxis erwiesen sie sich jedoch als extrem fragil: Kleinste Layoutänderungen, neue Bildschirmauflösungen oder andere Themes führten zu Fehlschlägen, die hohe Wartungsaufwände und manuelle Korrekturen nach sich zogen und damit den erwarteten Produktivitätsgewinn relativierten.

Auch die damaligen Überprüfungen unterschätzten oft die reale Komplexität. Tests liefen auf wenigen, gut kontrollierten Masken, während produktive Umgebungen mit Sonderfällen, Pop-ups, langsamen Leitungen und unvorhersehbaren Nutzeraktionen Überraschungen bereithilten. Das Ergebnis waren glänzende Demo-Szenarien, die mit dem rauen Alltag in der Sachbearbeitung, Buchhaltung oder Logistik nur bedingt etwas zu tun hatten. Dieser Erfahrungshorizont ist wichtig, wenn heute wiederum versprochen wird, generische Screen-basierte Steuerung könne klassische Integrationsarbeit breitflächig ersetzen.

Die neue Generation von Computer-Use-Agenten geht technisch weit über frühe Pixel-Lösungen hinaus: Modelle lernen anhand großer Datenmengen aus Screen-shots und Aktionssequenzen, wie sich reale Desktop- und Webanwendungen bedienen lassen. Hinzu kommen multimodale Fähigkeiten (Bild und Text), Planungslogik und Mechanismen zur Selbstverstärkung, die es ermöglichen, kontextabhängige Abläufe über mehrere Schritte zu orchestrieren. Benchmarks testen dies inzwischen an hunderten Aufgaben über viele Live-Websites, inklusive dynamischer Inhalte, Pop-ups und wechselnder Layouts.

Auf solchen Benchmarks werden heutzutage Erfolgsquoten von über 80 Prozent erzielt. Gleichzeitig zeigen andere Untersuchungen, dass viele aktuelle Agenten trotz Fortschritten noch deutlich unter menschlicher Zuverlässigkeit bleiben, oft mehr Schritte benötigen als nötig und in komplexeren Recherche- oder Entscheidungsaufgaben weit abfallen. Fortschritt ist unbestreitbar, aber der Abstand zur betrieblich benötigten Robustheit bleibt erheblich.

Eine Erfolgsrate von über 80 % klingt auf den ersten Blick beeindruckend, suggeriert sie doch, dass der Großteil der Aufgaben korrekt bewältigt wird. In realen Geschäftsprozessen werden diese Einzelschritte jedoch verkettet: Wenn ein Prozess aus 20 Einzelschritten besteht, ist es bei einer Genauigkeit von 83% pro Schritt sehr wahrscheinlich, dass in mehreren dieser Schritte Fehler auftreten. Und schon ein einziger solcher Fehler kann das Gesamtergebnis unbrauchbar machen.

Hinzu kommt, dass nicht alle Fehler gleich sind. In vielen administrativen oder finanziellen Kontexten ist ein fehlgeschlagener Versuch (etwa ein hängender Browser) deutlich weniger gravierend als ein „falscher, aber erfolgreicher“ Schritt, etwa eine Überweisung an den falschen Empfänger oder die Löschung der falschen Datensätze. Benchmarks bewerten meist nur, ob das Endziel erreicht wurde, nicht, ob unterwegs riskante Zwischenaktionen stattfanden, die in einer produktiven Umgebung rechtliche und wirtschaftliche Folgen hätten. Eine scheinbar akzeptable Durchschnittsquote kann unter diesen Bedingungen zu systematischen Schäden führen, die den erhofften Effizienzgewinn übersteigen. Auch besteht das Risiko, dass Fehler nicht kurzfristig entdeckt werden und zu deutlich späteren Zeitpunkten erhebliche Nachteile mit sich bringen, die sich im Zeitverlauf sogar kumulieren können.

Auch ökonomisch lohnt sich ein genauer Blick hinter die Versprechen scheinbar günstiger Agentenlösungen, denn die eigentliche Kostenlawine entsteht oft erst im Betrieb. Zur tatsächlichen Total Cost of Ownership gehören nicht nur Lizenz- und Infrastrukturkosten, sondern vor allem der dauerhafte Aufwand für Monitoring der Agentenaktivitäten, die Analyse von Vorfällen, die Rückabwicklung fehlerhafter Transaktionen sowie zusätzliche Maßnahmen für Haftung, Compliance und Versicherungsschutz. Besonders problematisch sind ‚stille Fehler‘, die zunächst unentdeckt bleiben und erst Wochen oder Monate später durch Prüfungen, Kundenreklamationen oder regulatorische Anfragen sichtbar werden, dann aber zu gebündelten Nacharbeiten, Vertragsstrafen oder Reputationsschäden führen können.

In der Biologie spielt Lernen durch Beobachtung und Versuch-und-Irrtum eine zentrale Rolle, insbesondere bei Tieren, die ihr Verhalten flexibel an wechselnde Umwelten anpassen müssen. Gleichzeitig zeigt die Natur, dass bloßes „Pattern-Picking“ aus sensorischen Eindrücken selten ausreicht, um in komplexen und risikoreichen Umgebungen zuverlässig zu agieren: Erfolgreiche Organismen kombinieren erlernte Muster mit angeborenen Strukturen, internen Modellen und redundanten Kontrollmechanismen.

Reflexe, Instinkte und selbstregulierende Sicherheitsmechanismen sorgen dafür, dass bestimmte Grenzen nicht überschritten werden, selbst wenn ein kurzfristig erlerntes Verhalten „lohnend“ erscheint. Übertragen auf KI-Agenten bedeutet das, dass reines Screen-basiertes Lernen ohne explizites Verständnis von Geschäftsregeln, Risiken und Nebenbedingungen eher einem Tier gleicht, das gelernt hat, „wo es meistens langgeht“, nicht einem Ingenieur, der Systemgrenzen und Folgen abschätzen kann.

Biologische Systeme stoßen bei rein beobachtungsbasiertem Lernen auf klare Grenzen der Skalierbarkeit. Je komplexer das Umfeld, desto wichtiger werden fest definierte Geschäftsregeln, die nicht aus Beobachtung abgeleitet, sondern vorgegeben werden müssen. Tiere oder Menschen, die neue Werkzeuge nutzen, verlassen sich nicht nur auf visuelle Muster, sondern entwickeln interne Konzepte und „Theorien“ über Ursache-Wirkungs-Zusammenhänge, die über das unmittelbar Beobachtete hinausgehen. Diese strukturierten Repräsentationen ermöglichen es, in neuen Situationen richtig zu handeln, ohne jede Variante explizit beobachtet haben zu müssen.

Aktuelle Computer-Use-Agenten hingegen werden primär auf beobachteten Abläufen trainiert, deren Generalisierungsfähigkeit in völlig neuen Konstellationen, insbesondere wenn fehlerhafte Aktionen nicht sofort stark negative Rückmeldungen erzeugen, begrenzt ist. Aus biologischer Sicht fehlt ihnen damit ein wichtiges Element robuster Intelligenz: die tiefe Verknüpfung von Wahrnehmungsmustern mit abstrakten, stabilen Modellen der Umgebung, die auch seltene, aber kritische Ereignisse angemessen berücksichtigen.

Sobald KI-Agenten nicht nur Texte erzeugen, sondern aktiv klicken, tippen, Dateien verschieben oder Systemkonfigurationen verändern, ändert sich die Risikolage grundlegend. Anbieter betonen zwar eingebaute Sicherheitsmechanismen, etwa das Erkennen und Ablehnen offensichtlich schädlicher Anweisungen, doch systematische Tests gegen komplexe Angriffe, versteckte Anweisungen in Dokumenten oder mehrstufige Ausnutzungen sind bislang noch begrenzt. Zudem können auch unbeabsichtigte Fehlinterpretationen legitimer Aufgaben, wie etwa falsche Auswahllisten, gelöschte Datensätze oder falsche Kontierungen, erhebliche Schäden verursachen, ohne dass ein klassischer „Angriff“ vorliegt.

Erschwerend kommt hinzu, dass die meisten Computer-Use-Agenten heute als Black Boxes agieren. Außen sind Eingaben und Klickfolgen sichtbar, innen bleibt jedoch weitgehend undurchsichtig, warum der Agent in einer konkreten Situation Knopf X statt Y gewählt oder Feld A statt B ausgefüllt hat. Für Audits, Fehleranalysen und regulatorische Prüfungen ist diese mangelnde Erklärbarkeit hochproblematisch, weil sich ohne nachvollziehbare Entscheidungswege weder systematische Schwachstellen identifizieren noch Verantwortlichkeiten sauber zuordnen lassen. Erst durch transparente Protokolle, erklärbare Entscheidungslogiken und geeignete Werkzeuge zur Rekonstruktion des Agentenverhaltens kann das notwendige Vertrauen entstehen, solche Systeme in wirklich kritischen Geschäftsprozessen einzusetzen.

Für Entscheider stellen sich damit unausweichlich rechtliche Fragen: Wer haftet, wenn ein Agent falsche Finanztransaktionen ausführt, Fristen versäumt oder vertrauliche Daten an die falsche Stelle übermittelt? Der Anbieter? Der Betreiber? Oder die verantwortliche Führungskraft? In regulierten Bereichen wie Finanzwesen, Gesundheitswesen oder kritischen Infrastrukturen greifen Vorgaben wie GoBD, BAIT, MaRisk oder Produkthaftungs- und Datenschutzrecht, die robuste Kontrollen, Nachvollziehbarkeit und menschliche Aufsicht verlangen; sie entbinden Unternehmen nicht von ihrer Verantwortung, nur weil eine Entscheidung technisch von einem Agenten getroffen wurde. Wer solche Systeme einsetzt, muss deshalb nachweisen können, dass angemessene Kontrollmechanismen, Protokollierung und Notfallpläne vorhanden sind. Andernfalls drohen nicht nur operative, sondern auch juristische und aufsichtsrechtliche Konsequenzen.

Aus den Fehlschlägen früher pixelbasierter UI-Automation und den Mechanismen biologischer Systeme lassen sich mehrere Leitgedanken ableiten.

Erstens: Robustheit sollte Vorrang vor Demotauglichkeit haben! Systeme müssen mit Layoutänderungen, Latenzen, Ausnahmen und „schmutzigen“ Daten umgehen können, ohne unkontrolliert zu versagen.

Zweitens: Reine Mustererkennung sollte mit explizitem Prozess- und Domänenwissen kombiniert werden, etwa durch klar modellierte Workflows, Validierungsregeln und mehrstufige Freigaben für kritische Aktionen.

Drittens: Wie in der Biologie sollten besonders risikoreiche Schritte mit zusätzlichen Sicherheitsmechanismen belegt werden, etwa erzwungenen menschlichen Freigaben, Limitierungen pro Zeit oder technischen „Airbags“ wie Rollback-Mechanismen.

Für Entscheidungsträger folgt daraus ein Bündel konkreter Anforderungen: Zertifizierungs- und Testmaßnahmen, die über Benchmarks hinausgehen, Transparenzpflichten über Fehlerraten und Einsatzbereiche, klare Regelungen zur menschlichen Letztverantwortung sowie Vorgaben für Protokollierung und Nachvollziehbarkeit von Agentenaktionen.

Statt screenbasierte Steuerung als Ersatz für klassische Integration zu verstehen, bietet sich ein hybrider Ansatz an, in dem bewährte Architekturbausteine gezielt mit KI kombiniert werden. Eine Workflow- oder BPM-Engine definiert dabei Struktur, Reihenfolge und Regeln eines Prozesses, klassische Schnittstellen sorgen für robuste, validierbare Datenflüsse, und KI-Komponenten bringen dort Flexibilität ein, wo unstrukturierte Informationen, Ausnahmen oder Entscheidungsspielräume zu bewältigen sind. Screen-basierte Agenten sollten in einem solchen Setup vor allem dazu dienen, unvermeidbare Lücken zu schließen, die etwa bei selten genutzten Legacy-Anwendungen ohne API entstehen, nicht aber den Kern der Unternehmensarchitektur bilden. So lässt sich das Innovationspotenzial nutzen, ohne den langfristig erforderlichen Aufbau sauberer Schnittstellen- und Prozesslandschaften zu unterlaufen.

Trotz aller Kritik bleibt festzuhalten: Die Fortschritte bei Computer-Use-Agenten sind real und bedeutsam. Leistungsstarke Modelle, die in Benchmarks deutlich vor bisherigen Lösungen liegen, bei gleichzeitig geringeren Kosten pro Schritt und wachsender Aufgabenvielfalt, eröffnen neue Möglichkeiten, Routinearbeiten zu automatisieren und Menschen von monotonen Klicktätigkeiten zu entlasten. Richtig eingesetzt, z.B. in klar abgegrenzten, gut überwachbaren Prozessen mit begrenztem Risiko und hohem manuellem Aufwand, können solche Agenten erhebliche Effizienzgewinne bringen.

Die kritische Betrachtung dieses Trends richtet sich daher nicht gegen einzelne Anbieter oder Produkte, sondern gegen die Versuchung, aus beeindruckenden Kennzahlen voreilig eine allgemeine Reife für jede Art von Geschäftsprozess abzuleiten. Wenn Politik und Wirtschaft das Potenzial dieser Technologien würdigen, ohne ihre Grenzen zu ignorieren, und wenn Agenten in Architekturen eingebettet werden, die menschliche Verantwortung, klare Regeln und robuste Sicherungen vorsehen, dann kann aus einem fragwürdigen Versprechen ein verlässliches Werkzeug statt eines weiteren KI-Hypes werden. In diesem Sinne ist die Skepsis kein Widerspruch zum technologischen Fortschritt, sondern eine notwendige Bedingung, damit dieser Fortschritt nachhaltig und verantwortungsvoll genutzt werden kann.


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert