Slowpoke news

Регистрация | Войти

Курсы валют

    Обновить данные

    Погода

    Прогноз погоды

    22 ℃

    UNKNOWN

    50%

    Влажность

    15 км/ч

    Ветер

    Ошибка в имени города

    Безопасность

    9 декабря 2025 г.

    Компания Perplexity представила трёхуровневую защиту для ИИ‑агентов, блокирующую 91% киберугроз менее чем за полсекунды


    Компания Perplexity анонсировала новую систему безопасности BrowseSafe, предназначенную для защиты ИИ‑агентов от атак через вредоносный веб-контент. Решение уже демонстрирует один из лучших показателей в отрасли. При задержке менее 0,5 секунды система выявляет 91% атак типа prompt injection — приёмов, при которых инструкции внедряются в текст страниц и незаметно влияют на поведение моделей. Для сравнения, современные решения, в том числе PromptGuard‑2 и модели уровня GPT‑5, показывают значительно более низкую эффективность.
    BrowseSafe ориентирована на защиту ИИ‑агентов, встроенных в браузеры и обладающих полномасштабным доступом к сайтам, включая авторизованные сессии. Поводом для разработки стали уязвимости, обнаруженные летом 2025 года в браузере Comet, где агенты имели доступ к почте, банковским сервисам и другим чувствительным ресурсам.
    Исследование Brave продемонстрировало, как даже незаметные текстовые вставки в коде страниц могут использоваться для выманивания одноразовых кодов и личных данных.
    BrowseSafe отличается тем, что способна работать в реальном времени. Архитектура защиты состоит из трёх уровней. На первом этапе задействуется быстрый классификатор, определяющий, представляет ли контент потенциальную опасность. Если система не уверена, подключается расширенная модель с возможностью контекстного анализа и рассуждений.
    В случае неопределённости пограничные сценарии передаются в отдельную систему дообучения. Такой подход позволяет повысить точность без увеличения времени отклика.
    В компании подчёркивают, что существующие бенчмарки не отражают реальную сложность атак. Классические примеры prompt-инъекций, построенные по шаблону «игнорируй предыдущие инструкции», слишком просты. На практике вредоносные команды могут быть встроены в рекламные баннеры, стилизованные под системные уведомления, или даже оформлены как стихотворения и комментарии.
    Чтобы адекватно оценивать устойчивость систем, Perplexity создала отдельный набор тестов BrowseSafe Bench, который разделяет атаки по типам, методам внедрения и языковым особенностям.
    Архитектура BrowseSafe построена на модели Qwen3‑30B‑A3B‑Instruct‑2507, оптимизированной для параллельной работы с действиями агента. Это позволяет проводить проверку без замедления пользовательского взаимодействия. В процессе тестирования система выявила ряд закономерностей. Например, атаки на нескольких языках снижают точность распознавания почти до 76%, а внедрения в видимой части страницы труднее отследить, чем те, что размещены в HTML-комментариях. При этом даже неопасные элементы, стилизованные под промпты, могут сбить модель с толку.

    Автор: Артем Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.