Slowpoke news

Регистрация | Войти

Курсы валют

    Обновить данные

    Погода

    Прогноз погоды

    22 ℃

    UNKNOWN

    50%

    Влажность

    15 км/ч

    Ветер

    Ошибка в имени города

    Безопасность

    14 марта 2026 г.

    Grok 4.20 уступает Gemini и ChatGPT по мощности, но почти лишена галлюцинаций


    Новая версия языковой модели Grok 4.20 от компании xAI показала неоднозначные результаты в независимых тестах. По уровню интеллектуальной производительности система уступает самым сильным моделям на рынке. При этом она показывает высокий уровень точности ответов.
    По данным аналитической платформы Artificial Analysis, версия Grok 4.20 Beta получила 48 баллов в индексе интеллектуальных возможностей в активированном режиме логических рассуждений. Этот показатель ниже результатов лидеров рынка. Для сравнения, модели Gemini 3.1 Pro и GPT‑5.4 в аналогичном тесте набрали около 57 баллов.
    Новая версия при этом показывает улучшение по сравнению с прошлым поколением. В тех же испытаниях она опережает предыдущую версию Grok 4 примерно на 6 баллов.
    Разработчики выпустили несколько режимов работы системы. Один режим использует логические рассуждения при формировании ответа. Другой работает без такого механизма. Отдельный вариант предназначен для сложных задач, где несколько моделей взаимодействуют друг с другом.
    Технические характеристики выглядят заметно сильнее, чем у многих систем. Модель поддерживает контекстное окно до 2 млн токенов. Это позволяет обрабатывать очень длинные документы и большие массивы данных без потери связности.
    Стоимость использования также остаётся сравнительно невысокой. Обработка данных стоит примерно 2 или 6 долларов за 1 млн токенов в зависимости от режима работы. Такой уровень цен ниже, чем у предыдущей версии Grok, и сопоставим с предложениями других крупных моделей.
    Самым заметным результатом испытаний стала точность ответов. В тесте AA Omniscience, который проводит Artificial Analysis, Grok 4.20 показал один из лучших результатов среди протестированных систем. Модель получила показатель 78% по уровню отсутствия вымышленных ответов.
    Методика теста проверяет, как часто модель придумывает информацию вместо признания отсутствия данных. Также оценивается способность корректно передавать факты и не искажать известные сведения.
    Во время проверки выяснилось, что Grok 4.20 ошибается примерно в одном случае из пяти, когда у системы нет достоверной информации. Для современных языковых моделей такой показатель считается высоким уровнем точности.

    Автор: Артем Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.