Ефективність штучного інтелекту (ШІ) має вирішальне значення для підприємств, які інвестують у цю технологію та використовують її. Однак існують суперечки щодо того, чи не сповільнилися успіхи в розвитку великих мовних моделей. Ці дискусії зосереджені навколо законів масштабування ШІ.
Масштабування ШІ
Популяризовані компанією OpenAI, закони масштабування ШІ базуються на простій концепції: більші моделі, навчені на потужніших обчислювальних ресурсах, демонструють кращі результати. У своїй статті 2020 року “Закони масштабування для нейронних мовних моделей” OpenAI вперше проілюструвала ці закони.
Дослідження Google DeepMind 2022 року “Навчання оптимальних великих мовних моделей” додало важливе відкриття: дані, а не тільки розмір моделі та обчислювальні потужності, є двома ключовими чинниками, що впливають на продуктивність моделей. Наприклад, їхня модель Chinchilla, яка мала менший розмір, ніж GPT-3, але була навчена на вчетверо більшій кількості даних, продемонструвала кращі результати, ніж GPT-3.
Однак з’являються ознаки того, що початкові стрибки у продуктивності починають сповільнюватися.
Чому процес сповільнився
Головні джерела масштабування – дані та обчислювальні потужності – стають дедалі дорожчими та менш доступними, зауважив Аднан Масуд, головний архітектор ШІ та машинного навчання в UST, у своєму блозі.
Наприклад, у знаннях у тестах, математичних завданнях і тестах на програмування, покращення показників почали “вирівнюватися”, зазначив Масуд. Він зазначив, що на бенчмарку MMLU в тестах на знання GPT-3 показав 43,9%, а GPT-4 у 2023 році досяг 86,4%, проте згодом його продуктивність залишилася на рівні 90% у 2024 році.
Відповідь і Тан, і Масуд полягає в тому, що закони масштабування змінюються. Продуктивність ШІ моделей все ще зростає, але тепер це пов’язано з новими підходами, а не лише зі збільшенням обсягів даних і обчислювальної потужності.