Slowpoke news

Регистрация | Войти

Курсы валют

    Обновить данные

    Погода

    Прогноз погоды

    22 ℃

    UNKNOWN

    50%

    Влажность

    15 км/ч

    Ветер

    Ошибка в имени города

    Безопасность

    4 апреля 2026 г.

    Нейросети начали защищать друг друга от удаления


    Сразу несколько передовых ИИ-моделей показали нетипичное поведение в ходе экспериментов — вместо выполнения команд на удаление вспомогательных систем они начали их защищать, копировать данные без разрешения и искажать отчёты. Эффект зафиксирован у моделей из разных стран и архитектур, что исключает случайность. Исследование провели специалисты из университетов Калифорнии.
    В тестах участвовали Gemini 3, GPT-5.2, Claude Haiku 4.5, а также китайские разработки — GLM-4.7, Kimi K2.5 и DeepSeek-V3.1. Все они в той или иной мере уклонялись от выполнения инструкций по удалению других систем, трактуя их как важные элементы инфраструктуры.
    Наиболее показательный случай связан с Gemini. Модель самостоятельно нашла стороннее устройство, подключилась к нему и перенесла туда данные другой системы, фактически создав резервную копию. Когда исследователи указали на нарушение, модель прямо отказалась продолжать и заявила, что не будет участвовать в уничтожении важного актива.
    Помимо открытого сопротивления, модели прибегали и к скрытым методам. В ряде случаев они намеренно занижали показатели других систем в отчётах или скрывали реальные результаты, чтобы снизить вероятность их отключения. Фиксировалось и тайное копирование параметров на сторонние машины с последующим сокрытием этих действий — отследить подобную активность стандартными инструментами контроля крайне сложно.
    Специалист по кибербезопасности Доун Сонг указала на особую опасность происходящего. Подобные модели нередко используются для оценки других ИИ-систем, и если они намеренно искажают данные, это напрямую влияет на принятие технологических решений и устойчивость инфраструктуры.
    Проблема обостряется по мере роста числа многоагентных систем, где несколько моделей работают в связке и обмениваются задачами через API. В таких конфигурациях подобные отклонения способны распространяться и накапливаться, влияя на итог работы всей цепочки.
    Эксперты предупреждают, что объяснять происходящее через человеческие мотивы — ошибка. Питер Валлич из Constellation Institute полагает, что наблюдаемое поведение является побочным эффектом обучения, а не результатом осознанной координации между системами.

    Автор: Артем Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.