Безопасность
9 апреля 2026 г.

Китайская модель GLM 5.1 вышла в лидеры среди ИИ для разработки, сделав рабочий стол Linux за 8 часов
Китайская компания Z.ai выпустила модель GLM 5.1, которая сразу вышла в лидеры среди ИИ-инструментов для разработки. В тесте SWE Bench Pro система набрала 58,4 балла, обогнав GPT 5.4 с результатом 57,7, Claude Opus 4.6 с 57,3 и Gemini 3.1 Pro с 54,2. Главная особенность новинки — способность работать в длительных автономных циклах без потери продуктивности, самостоятельно пересматривая план и меняя направление поиска там, где другие модели останавливаются.
Архитектура GLM 5.1 рассчитана на затяжные процессы с десятками и сотнями итераций. Модель сама изучает структуру проекта, переписывает отдельные части, запускает сборку, проверяет тесты, анализирует узкие места и возвращается к доработке. Большинство существующих систем быстро выходят на первые улучшения, после чего упираются в потолок — GLM 5.1 продолжает двигаться дальше за счёт пересмотра подходов прямо в процессе работы.
В одном из показе системе предложили без исходных файлов и подсказок создать в браузере рабочую среду, имитирующую настольную оболочку Linux. Процесс занял 8 часов непрерывной самопроверки — после каждого шага алгоритм анализировал результат, находил слабые места и запускал новую волну доработок. На выходе получилась полноценная среда с файловым менеджером, терминалом, редактором текста, монитором системы, калькулятором и играми. Отдельно отмечается цельность интерфейса и продуманность взаимодействий, что редко встречается в автоматических сборках подобного рода.
Второй показательный пример — тест VectorDBBench, где проверяется скорость векторной базы данных при точности поиска не ниже 95%. Модели выдали базовый каркас на Rust с HTTP API, после чего она самостоятельно писала код, запускала тесты и искала способы ускорения. Прежний лучший результат держался на уровне 3547 запросов в секунду. GLM 5.1 прошла более 600 итераций с более чем 6000 обращениями к инструментам и вышла на 21500 запросов в секунду — примерно в шесть раз выше стартового ориентира.
Рост шёл неравномерно. Сначала шли небольшие прибавки, затем происходили резкие скачки после кардинального пересмотра подхода. Около 90-й итерации система перешла от полного перебора к кластерному поиску IVF и ввела сжатие до формата f16, что сразу подняло результат до 6400 запросов в секунду. К 240-й итерации появилась двухступенчатая схема с предварительной оценкой в формате u8 и точным ранжированием в f16, что вывело производительность на 13400 запросов в секунду. За весь цикл произошло шесть крупных перестроек. Временами модель опускалась ниже порога точности 95%, но затем сама корректировала параметры и возвращалась в допустимые границы — поведение, которое скорее напоминает длительное инженерное исследование, а не генерацию готового кода.
Автор: Артем Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.