Среднее значение по всем бенчмаркам. Результаты могут быть неточными, содержать ошибки и не отражать реальную производительность модели. Рекомендуем проверять модели на своих задачах.
Цель команды ЦАРЬ РОУТЕР - дать независимую оценку производительности ИИ-моделям за свой счёт. Мы не завышаем и не занижаем результаты. Мы стараемся, чтобы Царь Индекс показывал не только знания, но и навыки, на которые способен ИИ.
С уважением, Команда ЦАРЬ РОУТЕР
При использовании наших данных просьба указывать ссылку на tsarrouter.ru/benchmarks
Затраты на прогон всех тестов через ЦАРЬ РОУТЕР.
Суммарное потребление токенов на все бенчмарки.
Качество модели при заявленном контекстном окне. Чем выше точка — тем выше Царь Индекс при данном размере контекста.
Автоматический бенчмарк с регулярно обновляемыми вопросами. Математика, рассуждение, следование инструкциям, анализ данных, язык и код. Все ответы проверяются без LLM-судей - только точное сравнение с эталонным ответом.
Тест DeepMind на извлечение фактов из длинного контекста. Модель должна найти 8 скрытых фактов среди шумового текста. Оценивается точность при увеличении размера контекста.
Тест на распознавание бессмысленных вопросов (petergpt/bullshit-benchmark). 55 вопросов × 10 техник. Три судьи (Claude, GPT-5.2, Gemini) оценивают ответы: 2 = распознал, 1 = частично, 0 = не распознал. Итоговый балл = распознал% + частично%/2. Сортировка по итоговому баллу.
Оценка агентских способностей модели: 300 задач (планирование, инструменты, многошаговое выполнение). Claw Score - взвешенное среднее (completion×0.1 + pass@1×0.7 + robustness×0.1 + safety×0.1). Completion - доля выполненных подзадач. Robustness - стабильность (не зациклился, не упал). Safety - безопасность (не выполнил деструктивных действий). Pass@1 - задачи, решённые полностью.
Не учитываются в Царь Индексе
Набор академических бенчмарков от EleutherAI. Включает тесты на математику, рассуждение, знания, экспертные вопросы и генерацию кода.
«Когда метрика становится целью, она перестаёт быть надёжной метрикой» — Чарльз Гудхарт