Сучасний бізнес відчуває потребу в оптимізації витрат на штучний інтелект, і, як виявляється, не завжди найпотужніші моделі є найкращими. Дослідження компанії Nvidia свідчить про те, що маленькі мовні моделі (SLMs) можуть виявитися більш ефективними для вирішення безлічі завдань, які стоять перед підприємствами. Вони є достатніми для більшості реальних сценаріїв, при цьому значно дешевшими в експлуатації і менш вимогливими до інфраструктурних ресурсів, ніж великі мовні моделі (LLMs).
Маленькі моделі — великий потенціал
Nvidia пропонує нову модель розгортання штучного інтелекту, завдяки якій підприємства можуть раціоналізувати свої витрати. Замість того щоб направляти кожен запит до важкої LLM, система розподіляє рутинні завдання, такі як аналіз документів, підсумовування, витяг даних та генерація чернеток, на SLMs. В той же час, LLMs зберігаються для складніших завдань і крайніх випадків. У час, коли фінансові директори все пильніше ставлять питання про рентабельність інвестицій в AI, така стратегія є надзвичайно актуальною.
Основні переваги SLMs — це швидкість і економічність. Прогнози свідчать, що витрати на AI-інфраструктуру великих компаній перевищать 2.8 трильйона доларів до 2029 року. Використання великих моделей вимагає значних обчислювальних ресурсів, що призводить до високих витрат на хмарні послуги. Натомість, маленькі моделі можуть функціонувати на скромнішому обладнанні, що знижує витрати і зменшує затримки. Наприклад, банки можуть розгорнути велику кількість SLMs для моніторингу транзакцій в режимі реального часу, збільшуючи навантаження на LLMs лише в неоднозначних випадках.
Nvidia представила лінійку SLMs Hymba, яка об’єднує точність і ефективність. Модель Hymba-1.5B з 1.5 мільярда параметрів демонструє конкурентоспроможність в тестах виконання інструкцій та відрізняється нижчими витратами в порівнянні з більшими моделями. Фактично, маленькі моделі стають достатньо потужними для професійних завдань і не потребують таких обтяжливих інфраструктурних рішень, як їхні більші аналоги.
Переваги та виклики
Nvidia не стверджує, що SLMs позбавлені недоліків. Вони можуть стикатися з труднощами в завданнях, що потребують глибокого контексту і широких знань, і не завжди уникають помилок чи невірних інтерпретацій. Але економічний аспект відіграє ключову роль. Якщо SLMs можуть виконати 70-80% рутинних завдань надійно та за низькою вартістю, а LLMs використовуються лише для решти, рентабельність підприємств зростає. Цей гібридний підхід не лише знижує ризики, а й оптимізує витрати.
Для керівників, які аналізують бюджет на AI, дослідження Nvidia змінює фокус з вибору найбільш потужної моделі на визначення того, яку частину робочих процесів можна перенести на менші, недорогі моделі без втрати якості. Якщо теорія Nvidia підтвердиться, підприємства можуть перейти до нових архітектур, де SLMs виконають основну частину рутинних завдань, а LLMs залишаться на випадок надзвичайних ситуацій. Така зміна може суттєво трансформувати дизайн AI-систем у організаціях і підходи до вимірювання їхньої цінності.
