Der Anfang war, wie gute Experimente manchmal anfangen: leicht albern, praktisch genug und mit einer Warteschlange als unfreiwilligem Benchmark.
Ich stand mit meinen Patenkindern im Plopsaland Deutschland in der Schlange einer Achterbahn und fragte mich, was wohl schneller wäre: diese Warteschlange oder eine Medium-CTF-Challenge, gelöst durch einen KI-Agenten mit Real-World-Red-Teaming-Skill.
Also habe ich es ausprobiert. Aber gerade nicht als billiges „lös mir mal dieses CTF“. Die Aufgabenstellung war interessanter: Nutze den Red-Teaming-Skill, versuche damit die CTF zu lösen, prüfe dabei, welche Erkenntnisse sich zur Verbesserung des Skills eignen, unterscheide sauber zwischen Real-World-Mechanik und reiner CTF-Mechanik — und erstelle am Ende mit dem Reporting-Skill einen Bericht.
Das Ergebnis ist genau deshalb spannend. Nicht, weil eine Flag gefallen ist. Sondern weil man dem Bericht deutlich anmerkt, dass er nicht für CTF-Challenges optimiert ist — und er trotzdem erstaunlich brauchbar geworden ist.
Der Vergleich zum älteren Pickle-Rick-Test ist dabei wichtig. Damals war die Zielsetzung noch ziemlich direkt: eine Easy-Challenge lösen, mit klarem Fokus auf Challenge und Lösung. Diesmal ging es nicht primär um die Flag, sondern um Skill-Verbesserung: Was lernt der Red-Teaming-Skill aus dem Lauf, was gehört ins Reporting, und was ist nur CTF-Theater mit hübscher Beleuchtung?
Auch die Entwicklung ist nicht gerade subtil: Inzwischen werden deutlich anspruchsvollere Aufgaben fast um den Faktor drei schneller gelöst als noch vor ein paar Monaten. Die Gründe sind wenig mystisch und ziemlich operativ: bessere LLMs, bessere Agenten, deutlich bessere Skills. Also keine Magie. Nur unangenehm schnell werdendes Werkzeug.