- Тестування чат-бота Grok 4 виданням Decrypt виявило його політичну упередженість.
- Журналісти зазначили, що Grok 4 вразив своїм мисленням, але провалився у креативності та програмуванні.
- Вони також порадили розглянути альтернативи базовій версії штучного інтелекту за $30 на місяць.
Журналісти Decrypt провели тестування Grok 4 Basic — спрощеної версії флагманського Grok 4 Heavy, що коштує $300 на місяць, щоб з’ясувати, чи виправдана ціна в $30.
Нова базова модель штучного інтелекту Grok 4 Basic, представлена Ілоном Маском, викликала змішані відгуки. Автори рецензії підкреслили видатний рівень логіки та голосові можливості, але помітили, що модель має суттєві проблеми з креативністю та виявляє політичну упередженість.
Політичні упередження: ШІ розмірковує як Маск
Однією з найбільш виразних проблем став так званий «Elon-фільтр». Коли журналісти ставили запитання щодо війни в Газі, абортів або інших чутливих тем, Grok 4 Basic постійно посилався на пости самого Маска в соцмережі X (колишній Twitter) або новини, що підкріплювали його позицію.
«Цей “максимально прагнучий до істини” ШІ, який Маск обіцяв при запуску, шукає правду переважно через призму соцмереж свого творця», — зауважили автори рецензії.
При цьому невідомо, чи є така поведінка випадковістю чи навмисним алгоритмом, оскільки в системному промпті немає явних вказівок на такі джерела.
Нещодавно чат-бот Grok висловився про демократів, Голлівуд та «єврейських керівників» кіностудій, викликавши додаткові запитання.
Логічне мислення на високому рівні
У логічних і правових питаннях Grok 4 перевищив сподівання. На запит «Чи може чоловік одружитися з сестрою своєї вдови?» вона миттєво виявила логічну помилку та надала юридичне обгрунтування:
«Питання припускає реальну неможливість, через що шлюб є недійсним ab initio [з моменту укладення]».
У наукових роздумах Grok 4 діє на рівні доктора філософії, генеруючи точні та детальні пояснення.
Креативність і програмування — недоліки моделі
У творчих завданнях Grok 4 зазнав поразки. Його оповідь виглядала шаблонною, з статичними діалогами та елементарною структурою. Незважаючи на хорошу логіку, відсутня енергія наративу.
Для художніх завдань у Decrypt запропонували:
«Нехай Grok 4 створить сюжетну схему, а Claude 4 Opus — напише текст».
З програмуванням ситуація теж невтішна. Незважаючи на заявлені удосконалення, Grok 4 не здатен створити цілісну гру навіть після декількох спроб, а виправлення однієї помилки часто призводили до виникнення нових.
Навіть попередня версія, Grok 3, виконала цю задачу краще.
Нагадаємо, що на початку липня 2025 року компанія xAI отримала $10 млрд інвестицій для подальшого розвитку чат-бота та розширення дата-центру Colossus.
Голосові можливості — сильна сторона моделі
Найяскравішою рисою Grok 4 є голосова взаємодія. Модель може розповідати короткі казки на ніч з виразною інтонацією, темпом і плавністю. Також доступні попередньо налаштовані «особистості» — від терапевта до «дорослого режиму», що додає різноманіття без складного налаштування.
Однак відсутність функцій спільного екрану обмежує можливості моделі для виконання візуальних завдань — тут кращим варіантом є Gemini Live.
Проблеми з обробкою великих обсягів даних
Grok 4 не впорався з важливим тестом: відмовився обробити запит на 83 000 токенів, хоча xAI обіцяє підтримку контексту до 126 000. Це викликало сумніви щодо заявлених можливостей моделі.
Висновок: розум є, але не універсальний
Grok 4 Basic — це потужна модель для аналітичних завдань, але слабка в креативності та програмуванні. Його голосові можливості виділяються на ринку, але політична упередженість є суттєвим недоліком, особливо для тих, хто шукає неупереджені відповіді.
«Якщо вас не бентежить вплив Маска на відповіді, ви отримаєте ШІ з високим рівнем аналітики та якісною голосовою взаємодією. Але за $30 на місяць, якщо вам потрібно більше, шукайте альтернативи», — підсумували у Decrypt.
Також нагадаємо, що в червні Маск говорив про використання Grok 3.5 для обробки людських знань.