Перемога штучного інтелекту в бізнесі вже не залежить лише від технологічного прогресу, а й від його здатності виконувати завдання на рівні висококваліфікованих спеціалістів. Фінансові директори компаній сьогодні детально аналізують кожен вклад у інтелектуальні системи, шукаючи справжні економічні вигоди від впровадження AI-технологій. В цьому контексті нова методологія, відома як GDPval, розроблена OpenAI, обіцяє стати важливим індикатором, що свідчить про перехід від експериментів до реального економічного ефекту.
GDPval, що є безпрецедентною спробою оцінити, наскільки сучасні AI-моделі здатні виконувати професійні завдання, базується на аналізі 1,320 реальних завдань, які охоплюють 44 професії у дев’яти галузях, що разом формують $3 трильйони зарплат у США. Йдеться не про теоретичні задачі; це реальні проекти, такі як фінансові прогнози, медичні експертизи, юридичні документи та презентації з продажу. В середньому, людині для виконання такого завдання знадобилося б сім годин, а його вартість оцінюється майже у $400.
Результати оцінок
Коли результати AI-проектів були порівняні з роботами експертів, найбільш успішні моделі продемонстрували результати, що близькі до людських. Наприклад, Claude Opus 4.1 у 47.6% випадків виявився на рівні або перевершував людську роботу, особливо в плані естетики, зокрема в оформленні слайдів. GPT-5 продемонстрував найвищу точність і стабільність у виконанні інструкцій.
Примітно, що співпраця штучного інтелекту з людською перевіркою приносила помітні переваги: у випадках, коли професіонали редагували результати AI, завдання виконувалися в 1.1 – 1.6 рази швидше та дешевше, ніж без допомоги штучного інтелекту. Незважаючи на те, що результати, отримані без людського втручання, все ще відставали від ідеального рівня професіоналів, в умовах гібридної роботи якість виконання покращувалася більш ніж на 30% у порівнянні з самостійним AI.
Також важливою стала відмінність продуктивності між галузями: найкращі результати були зафіксовані у фінансах та професійних послугах, де процеси є більш структурованими, в той час як в медицині та освіті, де важливе значення мають нюанси та контекстуальний аналіз, показники були нижчими.
Фінансові вигоди для керівництв
Дані, отримані в результаті оцінок, підтверджують дані попередніх досліджень, які свідчать, що компанії починають оптимізувати свої робочі процеси. Як показує нещодавнє опитування, 98% керівників вважають, що генеруючий AI спростить робочі процеси, що стало зрістом в порівнянні з 70% минулого року. Крім того, 95% опитаних очікують покращення процесу прийняття рішень.
Аналогічні висновки роблять і в медицині, де ранні впровадження штучного інтелекту в обробку рахунків і кодування вже демонструють вимірювану рентабельність, хоча керівники часто згадують про проблеми точності та відповідальності. Дослідження також показують, що наявність генеруючого AI підвищила продуктивність співробітників на 14% в середньому, з найбільшими прибутками у молодших спеціалістів, які досягли приросту в 34%.
Недоліки, які потрібно врахувати
Однак GDPval також відкриває очі на те, де AI ще має значні прогалини. Найпоширенішою проблемою залишається недотримання інструкцій. Хоча GPT-5 показує помилки на косметичному рівні, є й серйозні недоліки, які можуть призвести до негативних наслідків, такі як неправильні медичні рекомендації чи невідповідне спілкування з клієнтами. Це є істотним обмеженням, навіть попри те, що моделі наближаються до професійного рівня виконання багатьох завдань.
На тлі цих викликів простежується тенденція до стабільного покращення, де кожне нове покоління AI показує зменшення прогалин, які раніше здавалися непереборними.
