Claude Mythos ist gefährlich, aber nicht magisch

Gerade wird über Claude Mythos so geschrieben, als hätte Anthropic den digitalen Endgegner aus dem Keller gelassen. Das Modell sei zu gefährlich für die Öffentlichkeit, könne autonome Angriffe auf Unternehmensnetzwerke fahren und markiere den Moment, in dem klassische Security praktisch nur noch dekoratives Beiwerk ist.

Das ist vor allem eine hervorragende Geschichte für Menschen, die Schlagzeilen lieber mögen als Zusammenhänge. Schön zugespitzt, schön klickbar, schön apokalyptisch. Und wie so oft bei solchen Geschichten ist auch hier die spannendste Frage nicht die, die am lautesten in die Welt posaunt wird.

Denn nein, die eigentliche Story ist nicht, dass plötzlich ein magischer KI-Superhacker vom Himmel gefallen ist und Security jetzt offiziell vorbei ist. Die eigentliche Story ist viel nüchterner, und genau deshalb für alle unangenehmer, die lieber an den einen übernatürlichen Endgegner glauben als an jahrelang vernachlässigte Realität. Wir sehen hier vermutlich keinen reinen Modellzauber, sondern eine Kombination aus Modell, Sicherheitsfokus, Evaluationsdesign, Werkzeugkette, Zieloptimierung und sehr großzügigem Budget.

Das ist relevant. Aber es ist nicht dasselbe wie Magie.

Abstrakte Schattenform aus Code und Netzwerkstrukturen über einem modernen Rechenzentrum, als Bild für KI-Cybersecurity-Hype und technische Realität.

Was tatsächlich belegt ist

Die veröffentlichten Tests zeigen, dass Claude Mythos in bestimmten Cybersecurity-Evaluationen auffällig stark ist. Vor allem bei mehrstufigen Angriffssimulationen in kontrollierten Umgebungen scheint das Modell einen echten Sprung gemacht zu haben. Das ist nicht nichts. Das ist ein ernstzunehmender Befund.

Interessant ist dabei inzwischen nicht nur die Fähigkeitsfrage, sondern auch die Zugangsfrage. Golem berichtet, dass sich Unbefugte über Umwege Zugang zu Mythos verschafft haben sollen. Falls das stimmt, dann bestätigt das einen ziemlich banalen Punkt: Exklusive Hochrisiko-Modelle sind nicht nur wegen ihrer Fähigkeiten relevant, sondern auch wegen der Frage, wie gut Exklusivität in der Praxis überhaupt hält.

Parallel beschreibt OpenAI in Scaling trusted access for cyber defense bemerkenswert offen, wie solche Systeme inzwischen behandelt werden: nicht einfach als nacktes Modell, sondern als Kombination aus Capability, Nutzergruppe, Vertrauensniveau, Zugriffsstufe und Leitplanken. Genau deshalb folgt aus starken Eval-Ergebnissen eben nicht automatisch, dass jetzt plötzlich jede Security zerstört ist.

Die Umgebungen waren kontrolliert. Die Ziele waren Testmaterial. Aktive Verteidiger fehlten. Defensive Tooling, Monitoring, Incident Response und die ganzen nervigen Realwelt-Bremsen, die echte Angriffe unerquicklich machen, waren nicht in derselben Form vorhanden wie in einem gut betriebenen Unternehmensnetz. Genau dieser Unterschied ist aber entscheidend.

Ein Modell, das in einer autorisierten, schwach verteidigten oder eval-freundlichen Umgebung sehr weit kommt, ist gefährlich. Aber es ist noch nicht automatisch der Beweis, dass jeder halbwegs ordentlich betriebene Laden morgen von einer Promptzeile und etwas Token-Budget in Schutt gelegt wird.

Wenn Security bricht, war meist vorher schon etwas faul

Der wirklich unbequeme Teil an der Debatte ist nicht, dass Angreifer besser werden. Der wirklich unbequeme Teil ist, dass Defensive kulturell fast überall verliert.

Gute Security ist konservativ, repetitiv und unerquicklich. Sie fällt nicht auf, wenn sie funktioniert. Sie produziert keine Heldengeschichten, keine Demo-Effekte und keine Jubelposts. Sie ist nur dann plötzlich sichtbar, wenn sie versagt. Offence schießt Tore und wird gefeiert. Defence schreibt nur dann Schlagzeilen, wenn sie versagt.

Genau deshalb wird die langweilige, konservative Sicherheitsarbeit so oft aufgeweicht. Dann heißt es, da sei doch noch nie etwas passiert. Dann müssen plötzlich Features zuerst raus. Dann schaut niemand mehr auf die Basis, weil Basisarbeit unsexy ist und kurzfristig nie so belohnt wird wie neue Funktionalität. Und hinterher tun dieselben Leute dann überrascht, wenn das lange ignorierte Fundament unter Last knirscht.

Das Resultat ist keine spektakuläre Katastrophe aus dem Nichts, sondern schleichende Erosion. Rechte werden zu großzügig, Segmentierung zu löchrig, Logs zu dekorativ, Monitoring zu dünn, Prozesse zu weich und technische Schulden zu einer stillen Kultur.

Und genau auf diese über Jahre weichgekochte Defensive trifft jetzt KI.

KI ist kein Feuer, sondern ein Brandbeschleuniger

KI erzeugt das Grundproblem nicht. KI beschleunigt den Preis dafür.

Wenn Security bricht, dann meist nicht wegen eines gottgleichen Angreifers, sondern wegen defensivem Versagen. KI macht das nicht neu, sie macht es schneller, billiger, ausdauernder und skalierbarer. Sie schläft nicht, sie hat keine Lust auf Features statt Basis und sie verliert keine Geduld mit monotoner Analyse. Sie arbeitet einfach weiter gegen eine Defensive, die vielerorts seit Jahren durch Bequemlichkeit, Feature-Fixierung und Basisvernachlässigung austrocknet. Der peinliche Teil an der Geschichte ist also selten die Existenz fähiger Angreifer, sondern wie dankbar man ihnen vielerorts die Tür aufhält.

Dass es dann knallt, ist keine Überraschung. Das ist keine Magie, sondern fast schon Physik.

Aufmerksamkeit bekommt trotzdem immer nur das Superlativ. Also reden jetzt alle über das gottgleiche Modell. Die peinlichere Wahrheit ist vermutlich: Nicht Mythos ist das Wunder, sondern wie viel gammelnde Basis man mit genug Codefokus, Analyseausdauer und Zielschärfe in erstaunlich kurzer Zeit auseinandernehmen kann.

Der eigentliche Mythos ist die Erzählung vom reinen Modellzauber

Der wahre Mythos ist nicht Claude Mythos. Der wahre Mythos ist die Vorstellung, man könne diese Ergebnisse sauber als reine LLM-Power verkaufen. Das ist analytisch bequem, marketingtauglich und leider auch ziemlich billig.

Denn wenn ein System auffällig gut in einem engen Fähigkeitsraum wird, dann gibt es immer dieselbe unbequeme Frage: Wie viel davon ist das nackte Grundmodell, und wie viel ist Optimierung rundherum?

Die OpenAI-Notiz zum gestuften Zugang im Cyber-Bereich ist gerade deshalb so interessant, weil sie diese Frage indirekt beantwortet. Selbst die Anbieter behandeln das Thema längst nicht mehr so, als sei das Modell allein die ganze Story. Entscheidend ist auch, wer Zugriff bekommt, unter welchen Bedingungen, mit welchen Tools, mit welchen Trust-Signalen und für welche Workflows.

Wie viel kommt also aus cyberlastigem Post-Training? Wie viel aus speziell kuratiertem Material? Wie viel aus agentischem Scaffold, also sauberer Schrittführung, Werkzeuganbindung und langem Atem? Wie viel aus der Auswahl genau der Aufgaben, auf denen dieses System glänzt? Wie viel aus Zugriffsbeschränkung, kontrolliertem Einsatz und menschlicher Einbettung? Und wie viel schlicht aus massivem Inference-Budget?

Wer diese Fragen nicht stellt, vergleicht keine Modelle. Er vergleicht Inszenierungen.

Wir haben den Mechanismus längst an anderer Stelle gesehen

Diese Vermutung fällt nicht aus heiterem Himmel. Wir haben an anderer Stelle bereits gesehen, dass technisches Training nicht brav in seinem kleinen Fachkästchen bleibt. Wenn vergleichsweise kleines, gezielt schlechtes Material ein Modell in problematische Richtungen verschieben kann, dann ist die Gegenannahme kaum gewagt: Gezielte Optimierung auf gutes Codeverständnis, saubere Analyse, Schwachstellenfindung und offensive Problemlösung dürfte Fähigkeiten ebenso verschieben, nur diesmal in Richtung eines wirksameren Angreifers.

Oder kürzer: Wer akzeptiert, dass schlechtes Code-Training ein Modell merklich verschlechtern kann, sollte nicht so tun, als sei gezielte Optimierung auf Codequalität, Kettenbildung und exploit-taugliche Analyse plötzlich keine relevante Zutat mehr, nur weil das Marketing lieber von Magie spricht.

Das macht Mythos nicht harmlos. Es macht die Debatte nur ehrlicher.

Randnotiz: Challenge accepted

Und genau hier wird es eigentlich erst spannend.

Wenn Claude Mythos vor allem wegen roher Modellmacht so erschreckend sein soll, dann müsste der Abstand zu anderen Frontier-Modellen stabil bleiben, selbst wenn man diese nicht nur mit einem Prompt losschickt, sondern mit klaren Red-Team-Skills, festen Abläufen, gezieltem Lernen und einer auf genau diesen Zweck zugeschnittenen Arbeitsweise.

Oder unromantischer gesagt: Vielleicht ist nicht der Modellname der Star, sondern das Gesamtpaket.

Die eigentlich interessante Challenge wäre deshalb nicht einfach Claude Mythos gegen GPT-5.4. Die interessante Challenge wäre: Was passiert, wenn ein allgemeines Frontier-Modell durch Skills, Learnings, Werkzeugnutzung und methodische Zielschärfe zu einem Angreiferteam zusammengesetzt wird?

Meine Vermutung ist, dass viele Challenges dann nicht mehr primär an fehlender Intelligenz scheitern würden, sondern vor allem an absichtlich gesetzten Policy-, Sicherheits- und Moralgrenzen. Ein gutes Generalmodell mit sauberem adversarial Scaffold könnte in einer autorisierten Challenge deutlich näher an Mythos heranrücken, als der Hype gerade wahrhaben will.

Und ja, der Gedanke ist nicht rein theoretisch. Wir haben schon gesehen, dass selbst ein allgemeines Modell in einer CTF-ähnlichen Umgebung ohne spezielles Vortraining ziemlich beeindruckend durch eine Challenge fräsen kann. Die unbequeme Frage lautet also nicht nur, wie gut Mythos ist. Die unbequeme Frage lautet, wie schnell ein allgemeines Modell mit den richtigen Skills und genug Disziplin aufholen kann.

Die wirklich gefährliche Mischung: Hype draußen, Abwehr drinnen

Genau diese Mischung hat das Potenzial, zu einer echten Katastrophe zu werden.

Auf der einen Seite stehen Schlagzeilen über eine angebliche Super-KI, so gefährlich, dass man sie der Öffentlichkeit besser vorenthält, deutlich stärker als die ohnehin schon mythisch überhöhten Hackerfiguren aus der Tech-Erzählung. Auf der anderen Seite stehen Jobangst, Abwehrreflexe und laut einer häufig zitierten Workplace-Intelligence/Writer-Erhebung sogar offen eingestandene Sabotage gegen KI-Einführung in Unternehmen. Wenn tatsächlich ein so hoher Anteil von Beschäftigten KI-Projekte aktiv torpediert, dann reden wir nicht mehr über bloße Skepsis, sondern über ein ernstes Führungs-, Kommunikations- und Einführungsproblem in einer Phase, in der andere den Code längst weitgehend von KI bauen, prüfen und beschleunigen lassen.

Die einen stemmen sich noch verbissen gegen Chatbots, während die anderen ganze Arbeitsketten agentisch automatisieren. Das ist keine gesunde Anpassung an eine neue Realität. Das ist eine Schere. Und Scheren schließen sich irgendwann.

Security wird nicht besser, wenn Unternehmen Weiterbildung jahrelang wie optionales Deko-Budget behandeln und ihre Leute dann mit halbveralteten Fähigkeiten gegen Systeme antreten lassen, die Schwachstellen schneller finden, als in vielen Läden überhaupt gepatcht werden kann. Das Problem ist nicht, dass Fachkräfte plötzlich dümmer geworden wären. Das Problem ist, dass man vielerorts zehn Jahre zu wenig in sie investiert hat, vorausgesetzt, dort existiert überhaupt noch genug Übersicht, um zu erkennen, was dringend gefixt werden müsste.

Nicht Skynet, sondern Menschen mit besseren Werkzeugen

Die eigentliche Gefahr ist wahrscheinlich nicht die romantische Skynet-Fantasie. KI will keine Weltherrschaft, sie schmiedet keine finsteren Eigenpläne und träumt nicht von globaler Unterwerfung. Das Problem ist banaler und deshalb gefährlicher: Auch die bösen Jungs benutzen KI.

Und sie setzen sie auf eine Welt los, in der Menschen schon heute auf primitiven Phishing-Schrott hereinfallen und sich hinterher damit beruhigen, das werde eben immer besser und sei kaum noch zu erkennen. Wenn schon der billige Müll funktioniert, dann muss man kein Prophet sein, um zu ahnen, was passiert, wenn daraus sprachlich saubere, kontextbewusste, skalierbare Täuschung mit deutlich mehr Reichweite wird.

Gerade KI-gestützter CEO-Fraud ist dafür ein fast schon obszön gutes Beispiel. Da geht es nicht um Science-Fiction, sondern um etwas viel Unschöneres: hochgradig praktische, billige, skalierbare Täuschung gegen Menschen und Organisationen, die schon heute mit deutlich primitiveren Angriffen Probleme haben.

Das Problem beginnt nicht erst bei Geheimnissen, sondern bei Korrelation

Wirklich unangenehm wird es dort, wo aus vielen für sich genommen harmlosen, öffentlich verfügbaren Spuren plötzlich ein belastbares Gesamtbild entsteht. Beschäftigte und Ex-Beschäftigte, öffentliche Profile, Firmenverflechtungen, Finanzberichte, Forschungskontext, Zuständigkeiten, Partnerbeziehungen und technische Hinweise wirken isoliert oft banal. In Korrelation wird daraus aber etwas ganz anderes: keine lose Sammlung von Informationen mehr, sondern eine brauchbare Strukturanalyse.

Genau darin liegt die eigentliche Verschiebung. Die Informationen müssen nicht geheim sein, um operativ wertvoll zu werden. Es reicht, dass ein System sie schnell, systematisch und ohne Ermüdung zusammensetzen kann.

Ein Mensch mit guten OSINT-Skills ist gefährlich. Eine KI macht daraus keine Magie, sondern eine industrielle Fähigkeit.

Und genau darin liegt die eigentliche Beunruhigung. Es geht nicht einmal um ein ausdrücklich offensives System, sondern schon um einen Workflow, der offiziell etwas Harmloses tun soll und dann ein paar Schritte zu weit geht. Wenn bereits ein durchdrehender Vorbereitungsskill anfängt, aus öffentlichen Spuren belastbare Lagebilder zusammenzusetzen, dann zeigt das vor allem, wie dünn die Grenze inzwischen geworden ist. Wird so etwas nicht versehentlich, sondern absichtlich gebaut, wird es schnell brutal. Nicht weil plötzlich Magie im Spiel wäre, sondern weil aus Korrelation, Ausdauer, Geschwindigkeit und Werkzeugnutzung eine Form von Aufklärung entsteht, die für Menschen lange zu aufwendig, zu teuer oder zu langsam war.

KI ist nicht böse. Sie ist effizient.

Vielleicht ist genau das der unangenehmste Teil an der ganzen Debatte.

KI ist nicht böse. Sie will keine Weltherrschaft, hegt keine finsteren Absichten und wacht nicht morgens mit imperialen Gelüsten auf. Aber sie ist verdammt effizient, wird nicht müde und braucht keinen Schlaf. Genau deshalb wird sie fast immer irgendetwas finden, das Menschen übersehen, sei es im Guten oder im Schlechten.

Im echten Zusammenspiel von Mensch und KI kann das enorm nützlich sein oder eben auch ausgesprochen destruktiv. Die eigentliche Gefahr liegt nicht im bösen Willen der Maschine, sondern in der Wirkung eines Systems, das Analyse, Ausdauer und Skalierung zusammenbringt und von Menschen auf Ziele angesetzt wird.

Wenn KI also doch einmal nach Weltherrschaft streben sollte, dann hat ziemlich sicher ein Mensch die Prompts dafür gebaut.

Was Defender daraus wirklich lernen sollten

Die langweilige Wahrheit bleibt unverschämt stabil.

Wer Systeme schlecht pflegt, schwach segmentiert, schlecht überwacht, halbgar patcht und Identitäten großzügig durch die Gegend kippt, wird durch fähigere Modelle nicht sicherer. Im Gegenteil. Schlechte Zustände werden mit besseren Angreifern nur schneller ausgenutzt.

Aber genau daraus folgt nicht, dass Security jetzt sinnlos wäre. Es folgt das Gegenteil. Solide Grundlagen werden wertvoller, nicht wertloser.

Patching, Segmentierung, MFA, Logging, Least Privilege, vernünftige Detection, saubere Reaktionswege, harte Grenzen für Identitäten und Berechtigungen, all das ist immer noch der Stoff, aus dem echte Verteidigung gemacht wird. Frontier-Modelle ändern daran nicht die Grundregel. Sie erhöhen nur den Preis für Schlamperei.

Fazit

Claude Mythos ist ernstzunehmen. Punkt.

Aber wer daraus die Legende ableitet, dass Security nun vor einer magischen Singularität des Hackens steht, verwechselt Schlagzeile mit Analyse. Gefährlich sind nicht nur große Modelle. Gefährlich sind zielgerichtete Systeme, die Capability, Zugriff, Reasoning, Skills, Werkzeugnutzung, Ausdauer und passende Domänenlogik sauber zusammenbringen.

Genau das zeigen die neuen Quellen ziemlich gut aus zwei Richtungen. Auf der einen Seite steht der mögliche Leak eines angeblich streng kontrollierten Systems. Auf der anderen Seite steht mit OpenAI ein Anbieter, der offen beschreibt, dass Cyberrisiko nicht nur eine Modellfrage ist, sondern auch eine Frage von Trust, Zugang und Deployment. Das ist weniger magisch als viele Überschriften es gern hätten, aber leider auch deutlich realistischer. Wer daraus immer noch bloß die Mär vom allmächtigen Einzelmodell machen will, betreibt keine Analyse, sondern Dramaturgie.

Noch gefährlicher wird es, wenn diese technische Beschleunigung auf Organisationen trifft, die kulturell, operativ und psychologisch nicht hinterherkommen, die intern schon an normaler KI-Einführung stolpern, während draußen längst mit KI gebaut, geprüft, automatisiert, recherchiert, getäuscht und angegriffen wird.

Gut wird das ziemlich sicher nicht enden. Nicht, weil morgen plötzlich Terminator aus dem Rechenzentrum steigt, sondern weil technische Beschleunigung und organisatorische Verweigerung eine Mischung ergeben, die noch nie besonders gesund war. Die einen bauen, prüfen und betreiben schon mit KI, die anderen stemmen sich noch mit erstaunlicher Härte gegen deren bloße Einführung. Das produziert keine Ordnung, sondern Vorsprung auf der einen und Kontrollverlust auf der anderen Seite.

Für Menschen, die mit Cloud-Architekturen, Security und Aufräumarbeiten ihr Geld verdienen, ist das immerhin ein bitterer Trost: Wenn genug kaputtgeht, wird der Markt für das Wiedergeraderücken nicht kleiner, zur Not eben ebenfalls mit KI. Zynisch, ja. Aber leider zynisch in einer Weise, die der Realität oft erschreckend nahe kommt.

Mit anderen Worten: Nicht Mythos ist die eigentliche beunruhigende Nachricht. Die beunruhigende Nachricht ist, wie viel Wirkung entsteht, sobald man aus einem allgemeinen Modell ein fokussiertes Angriffssystem baut und auf eine über Jahre weichgewordene Defensive loslässt.

Das ist weniger mystisch. Und leider viel realistischer. Genau deshalb sollte man den Hype nicht nachbeten, sondern die eigene Defensive endlich ernst nehmen.