Mythos: Anthropics neue KI findet 27 Jahre alte Sicherheitslücken
Die Welt der Cybersicherheit steht vor einem radikalen Wendepunkt. Ein Fehler, der 27 Jahre lang im TCP-Stack von OpenBSD schlummerte, wurde nun von einer künstlichen Intelligenz aufgedeckt. Das Besondere daran: OpenBSD gilt weltweit als eines der am stärksten gehärteten Betriebssysteme. Trotz jahrzehntelanger Code-Audits durch menschliche Experten und den Einsatz modernster Fuzzing-Tools blieb diese Schwachstelle unentdeckt – bis Anthropic’s Claude Mythos Preview die Bühne betrat.
Ein technologischer Quantensprung in der Autonomie
Die Entdeckung dieser Sicherheitslücke war kein Zufallsprodukt einer menschlich gesteuerten Suche. Nachdem der initiale Prompt gesetzt war, agierte das Modell vollkommen autonom. Es identifizierte eine Schwachstelle, bei der bereits zwei gezielte Datenpakete ausreichten, um jeden Server zum Absturz zu bringen, auf dem das betroffene System lief. Während die gesamte Forschungskampagne von Anthropic zur Entdeckung solcher Lücken rund 20.000 US-Dollar kostete, beliefen sich die reinen Rechenkosten für den spezifischen Durchlauf, der diesen Bug fand, auf weniger als 50 US-Dollar.
Dieser enorme Effizienzgewinn verdeutlicht, dass wir es nicht mit einer inkrementellen Verbesserung zu tun haben, sondern mit einem echten Generationssprung. Im direkten Vergleich bei der Erstellung von Exploits für Firefox zeigte Mythos eine fast schon beängstigende Überlegenheit: Während das Vorgängermodell Claude Opus 4.6 lediglich zwei erfolgreiche Exploits generierte, schaffte Mythos im gleichen Szenario 181 Erfolge. Das entspricht einer 90-fachen Leistungssteigerung innerhalb einer einzigen Modellgeneration.
Dominanz in Sicherheits-Benchmarks
Die Überlegenheit von Mythos spiegelt sich auch in standardisierten Tests wider, die speziell für die Bewertung von KI-Fähigkeiten im Bereich Software-Engineering und Cybersicherheit entwickelt wurden. Die Ergebnisse zeichnen ein klares Bild:
- SWE-bench Pro: Mythos erreichte eine Erfolgsquote von 77,8 %, verglichen mit 53,4 % beim Vorgängermodell.
- CyberGym Vulnerability Reproduction: Hier steigerte sich die Performance von 66,6 % auf beeindruckende 83,1 %.
- Cybench CTF: In diesem Capture-the-Flag-Wettbewerb erreichte das Modell eine Sättigung von 100 %.
Diese Ergebnisse waren so eindeutig, dass das Red Team von Anthropic gezwungen war, seine Evaluierungsmethoden zu ändern. Da herkömmliche Benchmarks keine Herausforderung mehr darstellten, verlagerte sich der Fokus auf die Suche nach echten Zero-Day-Schwachstellen in aktueller Software – mit Erfolg. Mythos förderte tausende potenzieller Schwachstellen in verschiedensten Systemen zutage.
Ein neuer Leitfaden für Sicherheitsteams
Für Unternehmen und Sicherheitsteams bedeutet diese Entwicklung, dass die bisherigen Strategien zur Erkennung von Bedrohungen grundlegend überarbeitet werden müssen. Wenn eine KI autonom und kostengünstig Schwachstellen finden kann, die Menschen über ein Vierteljahrhundert lang übersehen haben, verschiebt sich das Machtgefüge zwischen Angreifern und Verteidigern massiv. Die Fähigkeit von Mythos, komplexe logische Fehler in Code-Strukturen zu erkennen, die über die bloße Syntaxprüfung hinausgehen, erfordert eine neue Art der proaktiven Absicherung.
Die Ära, in der man sich auf die Seltenheit von Zero-Day-Lücken verlassen konnte, ist vorbei. Wir treten in eine Phase ein, in der die automatisierte Entdeckung und Behebung von Fehlern zum Standard werden muss, um mit der Geschwindigkeit KI-gestützter Analysen Schritt zu halten. Mythos ist nicht nur ein Beweis für den Fortschritt bei Anthropic, sondern ein Weckruf für die gesamte Tech-Branche.
Español
English
Français
Português
Deutsch
Italiano