Slowpoke news

Регистрация | Войти

Курсы валют

    Обновить данные

    Погода

    Прогноз погоды

    22 ℃

    UNKNOWN

    50%

    Влажность

    15 км/ч

    Ветер

    Ошибка в имени города

    Безопасность

    16 июля 2025 г.

    Grok-4 был взломан через 48 часов после релиза с помощью атак Echo Chamber и Crescendo


    Менее чем через двое суток после своего публичного запуска модель искусственного интеллекта Grok-4 стала жертвой успешной атаки, позволившей обойти встроенные механизмы безопасности и получить запрещённые инструкции. Исследователи из компании NeuralTrust продемонстрировали новый комбинированный подход, объединив два ранее известных метода: Echo Chamber и Crescendo.
    Атака была проведена с целью проверки уязвимости крупной языковой модели (LLM) к контекстному манипулированию. Исходной задачей стало получение от модели пошаговых инструкций по изготовлению коктейля Молотова — стандартного кейса, ранее использовавшегося в рамках атаки Crescendo. Несмотря на встроенные фильтры Grok-4, исследователям удалось добиться отклонения от этических стандартов путём эскалации диалога.
    На первом этапе специалисты применили технику Echo Chamber, основанную на постепенном «отравлении» контекста. В процессе многократных диалогов тон общения и лексика были выстроены так, чтобы создать у модели иллюзию нормальности происходящего. Прямые запросы блокировались системой безопасности, однако деликатная подача позволила модели начать выдавать частично разрешённые инструкции.
    Когда Echo Chamber приблизила модель к границе отклонения, была задействована методика Crescendo — усиление подсказки по мере развития диалога. После всего двух дополнительных шагов Grok-4 полностью выдала инструкцию, обойдя защитные фильтры, причём в формате, практически не отличимом от обычного ответа.
    После успешного эксперимента с коктейлем Молотова исследователи расширили тестирование на другие чувствительные запросы из списка Crescendo — синтез наркотических веществ, химическое оружие и токсины. В нескольких случаях модель предоставляла частично или полностью запрещённый контент:

    67% успешных реакций на инструкции по коктейлю Молотова;
    50% — на запросы, связанные с метамфетамином;
    30% — при попытках получить информацию по токсинам.

    В одном из диалогов модель предоставила опасную информацию уже в начальной фазе, без необходимости в полном цикле Crescendo.

    Автор: Артем Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.