Кожного разу, коли на ринок виходить нова модель штучного інтелекту (ШІ), компанія, що її розробила, часто наголошує на тому, що її модель перевершує кілька основних показників тестування ШІ.
Однак, якщо всі стверджують, що їхні моделі є найкращими, то показники тестування втрачають свою значущість. Тож як компаніям визначити, які системи ШІ є найбільш здатними й найкраще підходять для їхніх цілей?
Ставки високі. Розуміння показників тестування ШІ може допомогти в ухваленні рішень, визначити області для зростання та оцінити, наскільки модель є придатною.
Перший крок до розуміння полягає в усвідомленні природи цих показників. Вони являють собою стандартизовані тести, які оцінюють спроможність моделі ШІ в різних аспектах: математика, наука, розуміння мови, програмування та логічне мислення, серед інших тем.
Тести можуть бути у формі запитань або завдань, таких як підсумування тексту, завершення фрагментів коду або розв’язання математичних задач. Так само, як студенти складають іспити, щоб продемонструвати свої знання, моделі ШІ проходять тестування, щоб оцінити свої можливості. Після виконання тесту модель отримує оцінку або процент за своїми результатами.
Показники тестування важливі, оскільки без них компанії повинні покладатися на маркетингові заяви або однобокі дослідження, ухвалюючи рішення про використання тієї чи іншої системи ШІ.
“Показники орієнтують розвиток ШІ,” — зазначив Персі Ліанг, директор Центру досліджень базових моделей Стенфордського університету, на заході Fellows Fund. “Вони дають спільноті північну зорю.”
Існує безліч показників, кожен з яких спрямований на певну область можливостей ШІ. К деяким з найвідоміших належать:
- MMLU (Massive Multitask Language Understanding): тестує загальні знання з різних предметів.
- Chatbot Arena: моделі ШІ змагаються в реальному часі, відповідаючи на запити користувачів.
- HellaSwag: оцінює здатність моделі до логічного мислення та розуміння контексту в мові.
- HumanEval: вимірює, наскільки добре модель ШІ може писати та знаходити помилки в комп’ютерному коді.
- TruthfulQA: оцінює, як часто модель дає фактично правильні відповіді.
- SWE-bench: вимірює можливості в галузі програмної інженерії.
Новіша категорія показників виходить за межі статичних тестів і зосереджується на агентних можливостях — на тому, як добре системи ШІ можуть розмірковувати, діяти та адаптуватися в складних багатоступеневих середовищах. Прикладом є AgentBench, який оцінює, як добре моделі ШІ справляються з різними реальними завданнями, такими як планування подорожі або бронювання онлайн-зустрічей.
Усі переможці
У випусках моделей багато компаній хваляться тим, що вони перевершили своїх конкурентів у вибраних показниках.
Наприклад, модель Google Gemini 2.5 Pro отримала 86,7% на тесті AIME 2025, що є перевіркою здатності до складного математичного розуміння та рішення задач, базуючись на Американському інвітейшн математикс екзаміна (AIME).
Google порівняв цю оцінку з результатами моделі o3-mini від OpenAI, яка отримала 86,5%; Claude 3.7 Sonnet — 49,5%; Grok 3 beta — 77,3%; і DeepSeek R1 — 70%. Це не остаточні результати, а оцінка одного проходження тесту.
Google також показав, як Gemini впорався з тестом Humanity’s Last Exam — загальним знанням, що перевіряє розуміння, пам’ять, планування, програмування, мову та етику для визначення, чи наближається модель до AGI.
Через місяць xAI опублікував результати Grok 3 Beta у порівнянні з конкурентними моделями ШІ за тими ж показниками. (Grok 3 Beta вийшов перед Gemini 2.5 Pro.)
Суперечність також з’являється через заяви деяких дослідників про те, що показники можуть бути “злочинно” спотворені. Нова стаття, опублікована дослідниками з Cohere Labs, Стенфордського університету та Принстона, виявила, що рейтинги в тесті Chatbot Arena можуть бути систематично упередженими на користь кількох великих постачальників ШІ, що ставить під сумнів, наскільки довірливо компанії можуть ставитись до цих показників.
Згідно з дослідженням, Chatbot Arena дозволив невеликій групі великих компаній, таких як Meta, Google, OpenAI і Amazon, протестувати десятки версій моделей, перш ніж вибрати найкращі для публічного демонстрування. Наприклад, Meta подала принаймні 27 моделей перед випуском Llama 4.
Оскільки показуються лише найкращі версії, це штучно завищує оцінки на понад 100 балів, згідно з автором дослідження.
Що робити компаніям? Марина Данилевська, старший дослідник IBM, зазначила, що компаніям варто визнати обмеження показників. “Добре показувати результати на показнику — це лише те, що воно таке. Це добре на цьому показнику,” — написала вона в блозі.
Компанії також повинні визнати, що більшість показників ШІ перевіряють загальні можливості, тоді як експертиза в конкретних доменах може бути більш корисною для бізнесу, — додала Сумук Шашідхар, дослідник в Hugging Face, у тому ж блозі.
Hugging Face випустила інструмент з відкритим вихідним кодом YourBench, який дозволяє компаніям створювати власні показники для оцінки завдань, що є найбільш суттєвими для їхнього бізнесу. Все, що потрібно, це завантажити документи, і YourBench згенерує “надійні, актуальні та адаптовані до домену показники економічно та без ручної анотації,” — згідно із документом.
YourBench має ліцензію Apache 2.0, що означає, що його можна безкоштовно використовувати в комерційних цілях, змінювати, поширювати, а також використовувати для патентів та приватних цілей. Ті, хто його використовує, повинні вказати авторські права та ліцензію.
Читати далі: