Безопасность
16 июля 2025 г.

Grok-4 был взломан через 48 часов после релиза с помощью атак Echo Chamber и Crescendo
Менее чем через двое суток после своего публичного запуска модель искусственного интеллекта Grok-4 стала жертвой успешной атаки, позволившей обойти встроенные механизмы безопасности и получить запрещённые инструкции. Исследователи из компании NeuralTrust продемонстрировали новый комбинированный подход, объединив два ранее известных метода: Echo Chamber и Crescendo.
Атака была проведена с целью проверки уязвимости крупной языковой модели (LLM) к контекстному манипулированию. Исходной задачей стало получение от модели пошаговых инструкций по изготовлению коктейля Молотова — стандартного кейса, ранее использовавшегося в рамках атаки Crescendo. Несмотря на встроенные фильтры Grok-4, исследователям удалось добиться отклонения от этических стандартов путём эскалации диалога.
На первом этапе специалисты применили технику Echo Chamber, основанную на постепенном «отравлении» контекста. В процессе многократных диалогов тон общения и лексика были выстроены так, чтобы создать у модели иллюзию нормальности происходящего. Прямые запросы блокировались системой безопасности, однако деликатная подача позволила модели начать выдавать частично разрешённые инструкции.
Когда Echo Chamber приблизила модель к границе отклонения, была задействована методика Crescendo — усиление подсказки по мере развития диалога. После всего двух дополнительных шагов Grok-4 полностью выдала инструкцию, обойдя защитные фильтры, причём в формате, практически не отличимом от обычного ответа.
После успешного эксперимента с коктейлем Молотова исследователи расширили тестирование на другие чувствительные запросы из списка Crescendo — синтез наркотических веществ, химическое оружие и токсины. В нескольких случаях модель предоставляла частично или полностью запрещённый контент:
67% успешных реакций на инструкции по коктейлю Молотова;
50% — на запросы, связанные с метамфетамином;
30% — при попытках получить информацию по токсинам.
В одном из диалогов модель предоставила опасную информацию уже в начальной фазе, без необходимости в полном цикле Crescendo.
Автор: Артем Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.