Der Anfang war, wie gute Experimente manchmal anfangen: leicht albern, praktisch genug und mit einer Warteschlange als unfreiwilligem Benchmark.
Ich stand mit meinen Patenkindern im Plopsaland Deutschland in der Schlange einer Achterbahn und fragte mich, was wohl schneller wäre: diese Warteschlange oder eine Medium-CTF-Challenge, gelöst durch einen KI-Agenten mit Real-World-Red-Teaming-Skill.
Also habe ich es ausprobiert. Aber gerade nicht als billiges „lös mir mal dieses CTF“. Die Aufgabenstellung war interessanter: Nutze den Red-Teaming-Skill, versuche damit die CTF zu lösen, prüfe dabei, welche Erkenntnisse sich zur Verbesserung des Skills eignen, unterscheide sauber zwischen Real-World-Mechanik und reiner CTF-Mechanik — und erstelle am Ende mit dem Reporting-Skill einen Bericht.