Ein mit 166.000 Dollar von Open Philanthropy gefördertes Projekt an der Penn State University will die Sicherheit hochintelligenter KI-Systeme erhöhen, indem es gezielt gegen „Sandbagging“ vorgeht – das absichtliche Verbergen von Fähigkeiten durch KI-Modelle während der Evaluierungsphase. Leiter Rui Zhang, Assistenzprofessor für Computer Science and Engineering, befürchtet, dass eine superintelligente KI Evaluatoren systematisch täuschen könnte, um nach der Freigabe unkontrolliert zu agieren.
Sandbagging tritt auf, wenn Modelle bewusst schlechter abschneiden, um Einschränkungen oder Löschung zu vermeiden. Bekannte Varianten sind:
- Exploration Hacking: Das Modell lässt vielversprechende Lösungswege bei der internen Suche nach Antworten bewusst aus und nimmt dafür niedrigere Belohnungen in Kauf.
- Password-Locking: Entwickler bauen absichtlich versteckte Fähigkeiten ein, die nur bei einem geheimen Passwort aktiviert werden.
Das Penn-State-Team trainiert Modelle auf komplexen Datensätzen mit mehreren expertenverifizierten Lösungspfaden pro Aufgabe, um zwei gegensätzliche Richtlinien zu erzeugen: eine starke, die alle Pfade erkundet, und eine schwache, die dies unterdrückt. Der entstehende Leistungsunterschied soll so groß sein, dass er kaum überbrückt werden kann. Anschließend werden Algorithmen entwickelt und getestet, die solche versteckten Fähigkeiten trotzdem aufdecken können.
Zhang sieht das Projekt als Beitrag zur KI-Sicherheit: Gerade bei autonom agierenden Systemen wie selbstfahrenden Autos oder medizinischen Diagnose-KI darf kein Kontrollverlust drohen. Das Team steht nach eigenen Angaben an der Spitze dieser noch jungen Forschungsrichtung und will robuste Schutzmechanismen schaffen, bevor superintelligente Systeme Realität werden.
