Коли компанії говорять про впровадження штучного інтелекту (ШІ), основна увага зазвичай зосереджується на великих мовних моделях, таких як GPT-5 від OpenAI чи Gemini 2.5 від Google.
Проте для підприємств важливішим є не лише сама модель, але й процес інференції. Це етап, на якому модель фактично використовується для отримання передбачень, відповідей або відомостей.
Попереднє навчання нової моделі ШІ, яка є основою для інших моделей, є разовою і, зазвичай, витратною процедурою. Уявіть собі це як студента в університеті, який проходить загальні навчальні курси. Чим краще навчання, тим більше навичок має випускник, або ж модель ШІ.
На етапі інференції це схоже на процес працевлаштування випускника. Компанії часто додатково навчають випускника — наприклад, вчать виконувати завдання відділу кадрів — що подібно до настроювання моделей ШІ для специфічних потреб підприємств. Проте в цьому випадку випускник не отримує фіксовану зарплату, а виставляє рахунки за виконані завдання або за годину. Це постійна витрата.
Для компаній процес інференції відбувається щоразу, коли співробітник запитує чат-бота про щось, коли система виявлення шахрайства перевіряє транзакцію, чи коли лікар використовує ШІ для аналізу медичних знімків. Ці витрати є регулярними, а не одноразовими, і можуть швидко накопичуватися.
“Попереднє навчання моделі — це процес обробки даних, їх поділу на токени та пошуку шаблонів — в основному є одноразовою витратою,” зазначається в одному з блогів Nvidia. “Але в інференції кожен запит до моделі генерує токени, кожен з яких супроводжується витратами.”
Це пов’язано з тим, що кожен запит до моделі ШІ змушує її виконувати нові обчислення з нуля. Це викликає обробку з використанням графічних процесорів (GPU), що призводить до витрат на електрику та охолодження, оскільки обчислення викликають нагрівання.
Плюс до цього, є витрати на придбання чіпів ШІ, створення та обслуговування дата-центрів, а також на наймання персоналу. Коли моделі використовуються через API в хмарі, великі постачальники об’єднують усі ці витрати у тарифи на інференцію, які підприємства сплачують.
Щоб підсумувати різницю:
- Навчання моделі ШІ: Це процес створення моделі. Він включає в себе передачу великих обсягів даних алгоритмам машинного навчання, поки система не “навчиться” шаблонам. Для навчання потрібно багато обчислювальної потужності, часто з використанням спеціалізованих чіпів, таких як GPU. Це зазвичай виконується один раз постачальниками ШІ, такими як OpenAI, Anthropic або Google.
- Інференція (використання): Інференція — це застосування вже навченої моделі до нових даних. Коли клієнт банку запитує у віртуального помічника про процентні ставки по іпотеці, асистент не проходить повторного навчання; він виконує інференцію, відповідаючи на запит, спираючись на своє навчання та інші інструменти. Кожного разу, коли хтось використовує ШІ, виникає витрата.
Для підприємств навчання в основному є проблемою когось іншого. Лише деякі компанії, окрім великих технологічних гігантів або спеціалізованих науково-дослідних лабораторій, створюють і навчають великі моделі з нуля. Замість цього вони ліцензують або отримують доступ до моделей через API або платформи, такі як AWS, Azure або Google Cloud.
Однак інференція є невід’ємною. Кожен робочий процес з використанням ШІ включає інференцію, і чим більше запитів або передбачень створюють системи ШІ компанії, тим більшими є витрати.
Наприклад, будівельна компанія створила інструмент прогнозної аналітики на базі ШІ в хмарі, і витрати становили менше 200 доларів на місяць, за словами Павла Бантsevича, менеджера з продуктів компанії Pynest.
Але коли люди почали ним користуватися, витрати стрімко зросли до 10 тисяч доларів на місяць. Коли компанія перейшла на власне хостинг замість хмари, витрати зменшилися і стабілізувалися, але все ще становили близько 7 тисяч доларів на місяць.
Кількість компаній, що використовують системи ШІ, продовжує зростати. Наприклад, дані PYMNTS Intelligence показують, що майже 4 з 10 компаній у технологічній сфері повідомили про “досить позитивний” ROI протягом 12 місяців, що завершилися в березні 2024 року. Чотирнадцять місяців потому ця цифра зросла до 1 з 2.
Ще один приклад — чат-боти для обслуговування клієнтів. Компанія може обробляти тисячі запитів на годину. Кожен із них активує інференцію, а витрати залежать від кількості оброблених “токенів” або частин тексту. Ці витрати можуть швидко накопичуватися — і залишаються назавжди.
Можна поставити питання, чому багато чат-ботів пропонують безкоштовні або низьковартісні варіанти за приблизно 20 доларів на місяць, такі як ChatGPT, Claude і Perplexity AI (які дозволяють користувачам взаємодіяти з різними моделями ШІ). Вони є збитковими стратегіями, щоб зацікавити людей у використанні ШІ — і це працює. ChatGPT тепер має 700 мільйонів активних користувачів щотижня.
Приємна новина для бізнесу полягає в тому, що витрати на інференцію знижуються. Звіт Stanford’s AI Index 2025 показує, що витрати на інференцію системи, що працює на рівні GPT-3.5, впали більше ніж у 280 разів з листопада 2022 року до жовтня 2024 року. Очікується, що цей тренд продовжиться.
Для керівників бізнесу висновок простий: не слід піддаватися спокусі заголовків про розміри моделей або тренувальні досягнення. Те, що справді впливає на прибуток, — це те, як управляється інференція.
Читайте більше:
Шпаргалка для ШІ: Витрати на навчання великих мовних моделей
Підприємства стикаються з реальними витратами впровадження ШІ
Z.ai стверджує, що нова модель ШІ дешевша у використанні, ніж DeepSeek