Kaum eine Technologie wurde in den letzten Jahren so gehypt wie LLMs – und kaum eine wird so schnell wieder totgesagt.
Ich lese in letzter Zeit immer wieder davon, dass sich die Ära der großen Sprachmodelle „Large Language Models (LLMs)“ ihrem Ende nähern würde. Es gäbe zu viele Nachteile, andere Alternativen wären günstiger, schneller, besser … schlicht der heilige Gral. Einige Autoren argumentieren dabei durchaus geschickt mit anderen „neuen“ Technologien. Doch so verlockend die Versuchung für Manche sein mag wieder mal „eine Sau durchs Dorf zu jagen“, um zu zeigen, dass er oder sie dem Stand der Dinge voraus ist, verdient das Thema eine differenzierte Betrachtung. Vieles, was heute als „neue Ära“ verkauft wird, ist weniger eine radikale Abkehr als vielmehr eine Weiterentwicklung oder Diversifizierung bestehender Konzepte. Ich denke, dass wir derzeit nicht das Ende der LLMs erleben, sondern eine Phase der kritischen Reifung. Unternehmen stellen fest, dass ROI nicht einfach immer nur durch geschickte Sprachverwendung entsteht. Neue Lösungen und Verbesserungen der vorhandenen Systeme kommen auf den Markt und auch in politischer, moralischer und philosophischer Hinsicht erfolgen laufend Neubewertungen eines eigentlich noch sehr jungen Themas.
Die Kostenrealität führt zum Veränderungswunsch
Die wirtschaftlichen Dimensionen der LLM-Entwicklung sind dramatischer als viele vermuten. Das Training von GPT-4 kostete geschätzt über 100 Millionen Dollar, während Googles Gemini Ultra zwischen 30 und 191 Millionen Dollar verschlungen haben soll. OpenAIs GPT-5 soll laut Branchenberichten (ohne offizielle Bestätigung) sogar 500 Millionen Dollar pro Trainingsrunde kosten. Diese Zahlen verdeutlichen eine fundamentale Herausforderung: Das bisherige Skalierungsmodell droht seine wirtschaftlichen Grenzen zu erreichen. Es fehlt schlicht an Erfahrungswerten und Fantasie, um sich den ROI solcher Investitionen vorstellen zu können. Dies gilt umso mehr, als die meisten Unternehmen sich bei der Definition klarer Use-Cases mutmaßlich noch schwertun.
Die Inference-Kosten verstärken dieses Problem. In- und Output-Tokens von GPT-5 kosten z.B. das 25-fache des GPT-5 nano-Modells aus gleichem Hause. Für Unternehmen bedeutet dies eine kritische Kosten-Nutzen-Rechnung: Wann rechtfertigt eine für den spezifischen Anwendungsfall eventuell nur marginale Leistungssteigerung die vielfachen Kosten? Hinzu kommt, dass es den meisten Nutzern/Unternehmen schwerfällt, zu verstehen, welches Anwendungsszenario durch welches Modell am besten abgedeckt wird. Der Fachkräftemangel lässt schön grüßen 😉.
Die Kostenstruktur und die abstrakte Natur derselben (sind 100 PS mehr einen Aufpreis von 20.000 Euro wert?) treiben drei entscheidende Entwicklungen voran: die Suche nach effizienteren Architekturen, die Spezialisierung auf profitable Nischen und die Optimierung bestehender Modelle. Ich stimme zu, dass die reine Größe von LLMs als Erfolgsrezept ausgedient hat.
Reasoning-Systeme
Ein zentrales Thema ist das sogenannte „Reasoning“ (z.B. „Denken“ bei Qwen oder „Erweitertes Nachdenken“ bei Claude), also die Fähigkeit eines Modells, logisch zu denken, Teilschritte zu planen und sich bei Bedarf selbst zu korrigieren. Was hier aber als Sensation angepriesen wird ist zumindest ein Stück weit alter Wein in neuen Schläuchen. Tatsächlich konnte man durch geschicktes Prompt-Design den meisten LLMs bereits vor längerer Zeit komplexe Denkmuster entlocken. Gedankenketten, schrittweise Aufgabenlösungen und sogar argumentative Strukturen sind schon verhältnismäßig lange kein Hexenwerk.
Dennoch bleibt die Frage, ob ein Modell wirklich „denkt“ oder lediglich ein besonders ausgeklügeltes Sprachmuster reproduziert. Die aktuellen Entwicklungen in Richtung spezifischer Reasoning-Modelle versuchen, diese Grenze zu überwinden, indem sie strukturell dafür optimiert werden, mehrstufige Überlegungen nicht nur zu simulieren, sondern systematisch durchzuführen. Dazu gehören etwa „verifier models“ oder „scoring models“ für korrekte Schlüsse. Neu ist dabei nicht das Ziel, sondern die Konsequenz, mit der Modelle nicht als Nebenprodukt, sondern als zentrales Designprinzip auf „Denkfähigkeit“ hin trainiert werden, was sich in der Modellarchitektur niederschlägt. Aus meiner Sicht stellen diese Reasoning-Systeme damit nicht eine vollkommen neue Produktkategorie dar, sondern sind eine ganz natürliche Produktpflege und -weiterentwicklung durch die LLM-Hersteller.
Test-Time Compute Scaling / Inference-Time Scaling
Ein weiteres oft genanntes Innovationsfeld ist das Konzept des sogenannten Test-Time Compute Scaling. Der Gedanke dahinter ist simpel, aber wirkungsvoll: Anstatt die Modellgröße stetig zu erhöhen, lässt man kleinere Modelle zur Laufzeit intensiver „nachdenken“. Mehrfache Antwortgenerierung, Hypothesenprüfung, Unsicherheitsabschätzung oder selbstinitiierte Korrekturschleifen sind nur einige der Mittel.
Die Analogie zum menschlichen Denken ist offensichtlich. Komplexe Probleme erfordern mehr Zeit und Reflexion als einfache Antworten. (Zumindest empfiehlt sich das gelegentlich😉.) Ein Modell kann verschiedene Lösungsansätze parallel entwickeln, diese gegeneinander abwägen und die beste Variante auswählen. Technisch wird dies durch „Monte Carlo Tree Search“, „Beam Search“ oder andere Suchalgorithmen realisiert, die den Lösungsraum systematisch erkunden.
Dennoch benötigt auch dieser Ansatz ein solides Wissensfundament, da ansonsten die beste Denkarchitektur ineffizient bleiben muss. Ein Modell, das keine relevanten Informationen zur Verfügung hat, weil ihm Trainingsdaten fehlen, kann sich durch Rechenzeit nicht „hochintelligent rechnen“. Rechenkapazität und Datenverfügbarkeit stehen somit in einem unausweichlichen Spannungsverhältnis, das nur durch intelligente Integration, wie z.B. durch Retrieval-Mechanismen, aufgelöst werden kann.
Die wirtschaftliche Logik ist bestechend: Statt 500 Milliarden Parameter zu trainieren, nutzt man 50 Milliarden Parameter mit zehnfacher Rechenzeit bei kritischen Anfragen. Die Trainingskosten sinken dramatisch, während die Flexibilität steigt. Dies stellt also durchaus eine sinnvolle Produktvariante dar, die für entsprechende Anwendungsfälle deutliche Effizienzgewinne verspricht. Sie ersetzt LLMs aber nicht, sondern ergänzt sie gezielt.
Domain-Specific Models
Eng damit verknüpft sind sogenannte Domain-Specific Models, also Modelle, die auf ein enges Fachgebiet spezialisiert sind. Solche Systeme zeigen bereits heute z.B. im medizinischen, juristischen oder technischen Bereich, dass spezialisierte Modelle oft den ganz großen LLMs überlegen sind und in ihrer jeweiligen Nische weit bessere Resultate als Universalmodelle erreichen. Zudem reduzieren sie das sogenannte Halluzinieren drastisch.
Die Marktlogik ist dabei eindeutig. Spezialisierte KI schafft abhängig vom jeweiligen Einsatzszenario ein Vielfaches an Wert gegenüber allgemeinen Modellen. Ein medizinisches Diagnosesystem muss keine Gedichte schreiben oder Kunstwerke malen können und Ressourcen darauf „verschwenden“. Diese Fokussierung erlaubt kleinere, effizientere Architekturen mit höherer Genauigkeit bei drastisch reduzierten Kosten.
Dabei werden anders als bei Retrieval-Augmented Generation (RAG) optimierte Tokenizer, weniger komplexe Modelle und eine aufgabenspezialisierte Architektur verwendet.
Konkret bedeutet dies etwa, dass ein juristisches Modell nicht nur mit Rechtsdokumenten gefüttert wird, sondern auch die spezifische Argumentationslogik, Präzedenzfälle und Auslegungsmuster lernt. Die Tokenisierung berücksichtigt juristische Fachtermini, die Architektur ist auf lange, strukturierte Dokumente optimiert, und das Training erfolgt mit Feedback von Rechtsexperten.
Edge AI
Ein weiteres vielversprechendes Feld ist Edge AI, also die Ausführung von KI direkt auf lokalen Geräten, ohne Cloud-Anbindung. Besonders bei Anwendungen mit hohen Anforderungen an niedrige Latenz oder Energieverbrauch sowie Datenschutz bietet diese Architektur entscheidende Vorteile. Die technischen Fortschritte in der Modellkompression und spezialisierter Hardware machen dies zunehmend praktikabel.
Doch auch hier sollte klar sein, dass Edge AI kein Ersatz für LLMs ist, sondern eine sinnvolle Ergänzung darstellt. Während zentrale Servermodelle in der Breite skalieren, übernehmen Edge-Systeme gezielt Aufgaben vor Ort. Einfache, häufige Anfragen werden lokal verarbeitet, während komplexe Problemstellungen an Cloud-Ressourcen delegiert werden. Ein Sprachassistent im Auto kann Navigationsbefehle sofort umsetzen, greift aber bei komplexen Recherchen auf die großen Modelle aus der Cloud zu.
In den nächsten 2-3 Jahren dürften meiner Einschätzung nach hybride Architekturen weit verbreitet sein, bei denen einfache Modelle lokal agieren und bei Bedarf komplexe Aufgaben an Cloud-Komponenten delegieren. Die 5G-Infrastruktur und verbesserte Edge-Prozessoren machen diese nahtlose Integration, hoffentlich auch in schnellen öffentlichen Verkehrsmitteln in Deutschland 😉, erst möglich.
Algorithmische Effizienz
Häufig übersehen, aber zunehmend relevant ist der Bereich der algorithmischen Effizienzsteigerung. Hier geht es nicht um neue Konzepte, sondern um die konsequente Optimierung bestehender Verfahren. Fortschritte in Bereichen wie Modellkompression, Distillation oder Trainingsalgorithmen ermöglichen heute bereits erhebliche Kostenreduktionen bei gleichbleibender Leistung.
Knowledge Distillation funktioniert wie ein Mentoring-Prozess: Ein großes, teures „Lehrer“-Modell bringt einem kleineren „Schüler“-Modell bei, ähnliche Ergebnisse zu erzielen. Der Schüler lernt nicht nur die richtigen Antworten, sondern auch die Unsicherheiten und Entscheidungsmuster des Lehrers. Dadurch entstehen Modelle, die bei einem Zehntel der Größe 90 Prozent der Leistung erreichen.
Quantisierung reduziert die Präzision der Modellgewichte von 32 auf 8 oder sogar 4 Bit, ohne merkliche Qualitätsverluste. Pruning entfernt überflüssige Verbindungen im neuronalen Netz, ähnlich wie das Gehirn ungenutzte Synapsen abbaut. Die Inferenzkosten können durch die Kombination solcher Techniken um den Faktor 10-50 reduziert werden.
Solche Entwicklungen zeigen: Auch innerhalb des bestehenden LLM-Paradigmas sind signifikante Effizienzsprünge möglich – ohne dass man gleich die gesamte Architektur verwerfen müsste. Ich vermute, dass die nächsten 3-5 Jahre von dieser stillen Optimierung geprägt sein werden, bevor fundamentale Architekturwechsel greifen.
Liquid Neural Networks (LNNs)
Den wohl radikalsten Bruch mit den bisher hauptsächlich eingesetzten Systemen markieren sogenannte Liquid Neural Networks. Diese Modelle sind inspiriert von biologischen Nervensystemen und zeichnen sich dadurch aus, dass sie auch zur Laufzeit weiterlernen und ihre Struktur dynamisch anpassen können. Besonders bei Aufgaben mit kontinuierlichen Datenströmen oder veränderten Umgebungsbedingungen zeigen sie heute schon vielversprechende Ansätze.
Während herkömmliche neuronale Netze wie eingefrorene Momentaufnahmen funktionieren, verhalten sich Liquid Networks wie lebende Organismen, die sich kontinuierlich an neue Situationen anpassen. Dies kann man sich ähnlich wie das biologische Lernen vorstellen. Die Gewichte und sogar die Architektur dieser LNNs können sich während der Ausführung ändern, um auf neue Datenmuster zu reagieren.
Der praktische Einsatz ist derzeit allerdings noch auf spezialisierte Anwendungen beschränkt. Autonome Fahrzeuge, die sich an neue Verkehrssituationen anpassen müssen, oder Industrieroboter, die flexible Fertigungsprozesse beherrschen sollen, profitieren teilweise aber bereits von dieser Technologie. Die Infrastruktur für großflächige Sprachverarbeitung steht hier noch am Anfang und ich vermute, dass eine realistische Marktreife für komplexe Sprachanwendungen nach derzeitigem Stand frühestens in 5-10 Jahren zu erwarten ist.
Neuromorphic Computing
In eine ähnliche Richtung geht das Konzept des neuromorphic computing, bei dem Hardware nach dem Vorbild des Gehirns entwickelt wird. Spezialisierte Chips verarbeiten Informationen nicht in sequenziellen Takten, sondern durch asynchrone neuronale Impulse. Sie verbrauchen deutlich weniger Energie und eignen sich besonders für kontinuierliche, ereignisgesteuerte Prozesse. (Ja, alle Shareholder von GPU-Herstellern sollten die letzten beiden Sätze nochmal lesen 😉.)
Die Energieeffizienz ist beeindruckend. Während ein herkömmlicher Prozessor konstant Strom verbraucht, aktivieren neuromorphe Chips nur bei Bedarf einzelne Bereiche. Das Gehirn verbraucht etwa 20 Watt – weniger als eine Glühbirne – und übertrifft dabei jeden Computer in der Mustererkennung und Anpassungsfähigkeit.
Dabei konkurrieren neuromorphe Systeme nicht mit LLMs im herkömmlichen Sinn. Sie stellen vielmehr eine alternative Rechenplattform dar, die auch in Kombination mit klassischen KI-Architekturen genutzt werden kann. Intel z.B. arbeitet an solchen neuromorphen Chips und plant den breiteren kommerziellen Einsatz. Ob LLMs künftig ganz auf solcher Hardware laufen werden, bleibt offen, doch das Potenzial für spezialisierte KI-Lösungen ist unbestritten.
Neurosymbolische KI
Ein Konzept, das seinen Ursprung weit vor dem Deep-Learning-Boom hat, ist Neurosymbolic AI. Hierbei wird versucht, symbolische Logik mit neuronalen Netzen zu kombinieren. Der Wunsch, formale Regeln mit statistischem Lernen zu verbinden, ist alt und nach heutigen Maßstäben in vielen Jahrzehnten nur in Trippelschritten vorwärts gekommen. Der große KI-Durchbruch kam erst mit dem ChatGPT-Moment und den Transformermodellen.
Die Idee ist dabei bestechend. Während neuronale Netze hervorragend in der Mustererkennung sind, versagen sie oft bei logischen Schlussfolgerungen und kausalen Beziehungen. Symbolische Systeme können perfekt logisch schließen, haben aber Probleme mit unscharfen oder unvollständigen Informationen. Die Kombination verspricht das Beste aus beiden Welten.
Erste Systeme zeigen, dass logisches Schlussfolgern, mathematische Beweisführung und kausales Denken in neuronale Architekturen integriert werden können. Führende Unternehmen investieren erhebliche Ressourcen in diese Richtung. In der Praxis stehen viele dieser Ansätze jedoch noch am Anfang; viele prototypische Modelle erreichen noch nicht die Flexibilität und Skalierbarkeit reiner LLMs.
Die technische Umsetzung erfolgt durch hybride Architekturen: Ein neuronales Netz extrahiert Informationen aus natürlicher Sprache, ein symbolisches System führt logische Operationen durch, und ein weiteres neuronales Netz formuliert die Ergebnisse verständlich aus. Dennoch deutet sich an, dass in bestimmten Bereichen – etwa Recht, Wissenschaft oder erklärungsbedürftige Systeme – neurosymbolische Methoden langfristig unverzichtbar sein könnten.
Ein realistischer Zeitrahmen für die breite Anwendungen liegt meiner Einschätzung nach bei 7-10 Jahren, da die Integration verschiedener Paradigmen nach wie vor erhebliche technische Herausforderungen mit sich bringt.
Marktdynamik und regulatorische Einflüsse
Die Entwicklung wird nicht nur durch technische Möglichkeiten, sondern auch durch Marktmechanismen und Regulierung geprägt. Die Dominanz weniger Tech-Giganten bei Universalmodellen trifft auf eine wachsende Open-Source-Bewegung und spezialisierte Anbieter, die profitable Nischen besetzen.
Regulatorische Entwicklungen verstärken diese Fragmentierung. 2025 wird vermutlich ein Jahr verstärkter staatlicher KI-Regulierung, was kleineren, spezialisierten und transparenten Modellen Vorteile verschafft.
Die Investitionsmuster verschieben sich entsprechend. Während Universalmodelle Milliarden verschlingen, können spezialisierte Anwendungen mit deutlich kleineren Budgets entwickelt werden. Venture-Capital-Firmen fahren zunehmend einen hybriden Investitionsansatz.
Fazit: Nicht das Ende, sondern der Übergang
Was lässt sich aus all dem schließen? Eine Debatte über das „Ende“ der LLMs ist aus meiner Sicht unsinnig. Alle geschilderten Technologien bilden die Grundlage für LLMs oder ergänzen sie. Die Schlussfolgerung lautet lediglich, dass wir in einer Welt, die nicht nur aus Nägeln besteht, mehr Werkzeuge als nur einen Hammer brauchen. Die wirtschaftlichen Realitäten und konkrete Use-Cases erzwingen einen Strategiewechsel von „größer ist besser“ zu „das beste Werkzeug für den individuellen Anwendungsfall“.
Es entsteht eine neue Werkzeug-Landschaft, die durch eine Kombination aus großen Sprachmodellen und kleineren, spezialisierten, dynamischen und oft hybriden Systemen geprägt ist. Diese neue Generation von KI ist nicht im Sinne spektakulärer Benchmarks leistungsfähiger, sondern durch ihre Passgenauigkeit an spezifische Bedürfnisse.
Dies bedeutet nicht, dass LLMs der Weisheit letzter Schluss sind. Sie bringen eine ganze Reihe an signifikanten Herausforderungen mit sich und doch stellen Sie meiner Meinung nach immer noch ein leistungsstarkes Werkzeug für spezifische Aufgaben bereit, welches noch eine ganze Zeit nicht „zum alten Eisen“ gehört. Bevor die viel beschworene AGI mit „ganz neuer und andersartiger“ Technologie kommt, sollten wir weniger zerreden und mehr aus den Möglichkeiten der jetzigen Technologie machen!


Schreibe einen Kommentar