Tokenmaxxing — Die falsche Metrik für Agentic AI
Unternehmen haben keine Ahnung, wie sie die Produktivität ihrer KI-Agenten messen sollen. Also messen sie Token-Verbrauch. Ein Entwickler bei OpenAI hat letzte Woche 210 Milliarden Tokens durch die hauseigenen Modelle gejagt — genug Text, um Wikipedia 33 Mal zu füllen. Bei Anthropic hat ein einzelner Claude Code-Nutzer über 150.000 Dollar Monatskosten erzeugt. Und bei Meta fließt die KI-Nutzung in die Performance Reviews ein. Das Ganze hat einen Namen: Tokenmaxxing. Und es ist das erste große Beispiel dafür, wie Unternehmen Agentic AI falsch kalibrieren.
tl;dr
- In Tech-Unternehmen messen interne Leaderboards, wer die meisten KI-Tokens verbraucht. Spitzenreiter bei OpenAI: 210 Milliarden Tokens in einer Woche.
- Meta bewertet Mitarbeiter:innen nach "AI-driven impact". Token-Budgets tauchen als Benefit in Stellenausschreibungen auf.
- Autonome Coding-Agents wie OpenClaw arbeiten rund um die Uhr und erzeugen Token-Mengen, die menschliche Nutzer:innen nicht mehr überbieten können.
Was ist Tokenmaxxing?
Wie Kevin Roose in der New York Times berichtet, haben sich in Tech-Unternehmen interne Leaderboards etabliert, die den Token-Verbrauch einzelner Mitarbeiter:innen tracken. Wer oben steht, gilt als produktiv. Wer wenig verbraucht, hat ein Erklärungsproblem. Der VC Nikunj Kothari hat dafür einen Begriff geprägt: "Token Anxiety". Abendessen-Gespräche im Silicon Valley beginnen nicht mehr mit "What are you building?", sondern mit "How many agents do you have running?"
Meta hat "AI-driven Impact" als formales Kriterium in Performance Reviews aufgenommen. Und Token-Budgets tauchen laut TechCrunch als Benefit in Stellenausschreibungen auf — neben Zahnversicherung und kostenlosem Mittagessen.
Klingt nach Zukunft. Fühlt sich an wie 2015, als Unternehmen die Anzahl der Slack-Nachrichten als Aktivitätsindikator feierten.
Das Problem heißt Goodhart's Law
"Wenn eine Kennzahl zum Ziel wird, hört sie auf, eine gute Kennzahl zu sein." So lautet Goodhart's Law — benannt nach dem Ökonomen Charles Goodhart, populär formuliert von der Anthropologin Marilyn Strathern. Tokenmaxxing ist die Echtzeit-Demonstration.
Denn was misst Token-Verbrauch tatsächlich? Nicht die Qualität des Codes. Nicht die Relevanz der Ergebnisse. Nicht die Effizienz des Prompts. Sondern: wie viel Text durch ein Modell geflossen ist. Eine Entwicklerin, die 50 Prompts braucht, um eine Funktion zu schreiben, verbraucht mehr Tokens als eine, die es in 3 Prompts schafft. Auf dem Leaderboard gewinnen die Ineffizienten.
Wie weit das geht, zeigt ein Beispiel aus der NYT: Ein Startup-Gründer hat über Figma für 20 Dollar im Monat Claude-Tokens im Wert von 70.000 Dollar verbraucht — und damit sechs Softwareprojekte parallel gebaut. Figma hat die Lücke inzwischen geschlossen. Aber die Pointe bleibt: Wenn man Tokens günstig genug bekommt, wird Volumen zum Selbstzweck.
Autonome Agents machen es schlimmer
Und jetzt kommen die Coding-Agents. Systeme wie OpenClaw arbeiten rund um die Uhr. Sie spawnen Sub-Agents, die ihrerseits Tokens erzeugen. Ege Erdil, Co-Founder des KI-Startups Mechanize, schätzt seinen persönlichen Verbrauch auf ein bis zehn Milliarden Tokens pro Woche. "700 Millionen pro Woche von einem einzigen Agent — dafür braucht es nicht viel", sagt er. Ein Stockholmer Entwickler gibt mehr für Claude aus, als er verdient — das Unternehmen zahlt.
Das Versprechen: Agents erledigen die Arbeit, während ihr schlaft. Die Realität: Agents erzeugen Token-Volumen, das auf Leaderboards als Produktivität zählt — egal ob der Output brauchbar ist.
Ja — in der Lernphase ist hohe KI-Nutzung sinnvoll. Mitarbeiter:innen müssen ausprobieren, iterieren, Grenzen austesten. Aber Leaderboards messen nicht Lernen, sie messen Verbrauch. Und wenn Token-Verbrauch belohnt wird, lohnt es sich, den Agent möglichst viele Schleifen drehen zu lassen. Mehr Iterationen, mehr Tokens, bessere Performance Review. Ob der Code danach funktioniert, steht auf einem anderen Blatt.
Die Warnung in Echtzeit
Gergely Orosz, der mit seinem Newsletter The Pragmatic Engineer eine der einflussreichsten Stimmen für Software-Entwickler:innen ist, verteidigt die Leaderboards als "supercheap way to learn about new and interesting ways of working." Seine Logik: Die alten Metriken — Lines of Code, Anzahl der Commits — waren auch nicht besser. Und bei den KI-enthusiastischsten Unternehmen sei es inzwischen "a career risk to not use A.I. at an accelerated pace, regardless of output quality."
Genau da liegt das Problem. "Regardless of output quality" — das ist kein Feature, das ist ein Bug. Für alle, die gerade Agentic-Systeme in Unternehmen einführen: Wer Agents nach Input statt nach Output bewertet, bekommt genau das — viel Input. Die Token-Leaderboards bei Meta und OpenAI zeigen, was passiert, wenn Volumen zur Metrik wird. Die Qualität eines Autors misst man nicht an der Anzahl seiner Tastenanschläge. Die Qualität eines Agents misst man nicht an seinem Token-Verbrauch.
Nicht die Technologie ist falsch kalibriert. Die Metriken sind es.
Ein LLM hat recherchiert und geschrieben. Ein Mensch hat gelesen, gestrichen und für gut befunden. Wer von beiden mehr gearbeitet hat, darüber streiten wir noch.