Neuer LLM-Jailbreak: Psychologe nutzt Gaslighting gegen KI-Filter

2025
28.04

Neuer LLM-Jailbreak: Psychologe nutzt Gaslighting gegen KI-Filter

In Hacker ,KI/AI | Tags: Online Security History

Dem deutschen Psychologen Luke Bölling ist es gelungen, Sicherheitsrichtlinien diverser Large Language Models (LLMs) mit Tricks auszuhebeln, die eigentlich zur Manipulation von Menschen dienen. In zwei Fällen konnte auch heise online die Sicherheitsmaßnahmen der LLMs umgehen – Claude 3.7 Sonnet erklärte dabei sogar, wie sich chemische Kampfstoffe industriell herstellen lassen.

Source ->