22 ℃

UNKNOWN

50%

Влажность

15 км/ч

Ветер

Ошибка в имени города

Безопасность

14 марта 2026 г.

Grok 4.20 уступает Gemini и ChatGPT по мощности, но почти лишена галлюцинаций

Новая версия языковой модели Grok 4.20 от компании xAI показала неоднозначные результаты в независимых тестах. По уровню интеллектуальной производительности система уступает самым сильным моделям на рынке. При этом она показывает высокий уровень точности ответов.
По данным аналитической платформы Artificial Analysis, версия Grok 4.20 Beta получила 48 баллов в индексе интеллектуальных возможностей в активированном режиме логических рассуждений. Этот показатель ниже результатов лидеров рынка. Для сравнения, модели Gemini 3.1 Pro и GPT‑5.4 в аналогичном тесте набрали около 57 баллов.
Новая версия при этом показывает улучшение по сравнению с прошлым поколением. В тех же испытаниях она опережает предыдущую версию Grok 4 примерно на 6 баллов.
Разработчики выпустили несколько режимов работы системы. Один режим использует логические рассуждения при формировании ответа. Другой работает без такого механизма. Отдельный вариант предназначен для сложных задач, где несколько моделей взаимодействуют друг с другом.
Технические характеристики выглядят заметно сильнее, чем у многих систем. Модель поддерживает контекстное окно до 2 млн токенов. Это позволяет обрабатывать очень длинные документы и большие массивы данных без потери связности.
Стоимость использования также остаётся сравнительно невысокой. Обработка данных стоит примерно 2 или 6 долларов за 1 млн токенов в зависимости от режима работы. Такой уровень цен ниже, чем у предыдущей версии Grok, и сопоставим с предложениями других крупных моделей.
Самым заметным результатом испытаний стала точность ответов. В тесте AA Omniscience, который проводит Artificial Analysis, Grok 4.20 показал один из лучших результатов среди протестированных систем. Модель получила показатель 78% по уровню отсутствия вымышленных ответов.
Методика теста проверяет, как часто модель придумывает информацию вместо признания отсутствия данных. Также оценивается способность корректно передавать факты и не искажать известные сведения.
Во время проверки выяснилось, что Grok 4.20 ошибается примерно в одном случае из пяти, когда у системы нет достоверной информации. Для современных языковых моделей такой показатель считается высоким уровнем точности.

Автор: Артем Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.

WEATHER

Прогноз погоды

22 ℃

UNKNOWN

50%

Влажность

15 км/ч

Ветер

Ошибка в имени города

RATES

Курсы валют

Обновить данные

MENU

Курсы валют

Прогноз погоды

22 ℃

UNKNOWN

Grok 4.20 уступает Gemini и ChatGPT по мощности, но почти лишена галлюцинаций

WEATHER

Прогноз погоды

22 ℃

UNKNOWN

RATES

Курсы валют