У Decrypt провели тестування Grok 4 і виявили присутність політичної упередженості у чат-бота

Тестування чат-бота Grok 4 виданням Decrypt виявило його політичну упередженість.
Журналісти зазначили, що Grok 4 вразив своїм мисленням, але провалився у креативності та програмуванні.
Вони також порадили розглянути альтернативи базовій версії штучного інтелекту за $30 на місяць.

Журналісти Decrypt провели тестування Grok 4 Basic — спрощеної версії флагманського Grok 4 Heavy, що коштує $300 на місяць, щоб з’ясувати, чи виправдана ціна в $30.

Нова базова модель штучного інтелекту Grok 4 Basic, представлена Ілоном Маском, викликала змішані відгуки. Автори рецензії підкреслили видатний рівень логіки та голосові можливості, але помітили, що модель має суттєві проблеми з креативністю та виявляє політичну упередженість.

Політичні упередження: ШІ розмірковує як Маск

Однією з найбільш виразних проблем став так званий «Elon-фільтр». Коли журналісти ставили запитання щодо війни в Газі, абортів або інших чутливих тем, Grok 4 Basic постійно посилався на пости самого Маска в соцмережі X (колишній Twitter) або новини, що підкріплювали його позицію.

«Цей “максимально прагнучий до істини” ШІ, який Маск обіцяв при запуску, шукає правду переважно через призму соцмереж свого творця», — зауважили автори рецензії.

При цьому невідомо, чи є така поведінка випадковістю чи навмисним алгоритмом, оскільки в системному промпті немає явних вказівок на такі джерела.

Нещодавно чат-бот Grok висловився про демократів, Голлівуд та «єврейських керівників» кіностудій, викликавши додаткові запитання.

Логічне мислення на високому рівні

У логічних і правових питаннях Grok 4 перевищив сподівання. На запит «Чи може чоловік одружитися з сестрою своєї вдови?» вона миттєво виявила логічну помилку та надала юридичне обгрунтування:

«Питання припускає реальну неможливість, через що шлюб є недійсним ab initio [з моменту укладення]».

У наукових роздумах Grok 4 діє на рівні доктора філософії, генеруючи точні та детальні пояснення.

Креативність і програмування — недоліки моделі

У творчих завданнях Grok 4 зазнав поразки. Його оповідь виглядала шаблонною, з статичними діалогами та елементарною структурою. Незважаючи на хорошу логіку, відсутня енергія наративу.

Для художніх завдань у Decrypt запропонували:

«Нехай Grok 4 створить сюжетну схему, а Claude 4 Opus — напише текст».

З програмуванням ситуація теж невтішна. Незважаючи на заявлені удосконалення, Grok 4 не здатен створити цілісну гру навіть після декількох спроб, а виправлення однієї помилки часто призводили до виникнення нових.

Навіть попередня версія, Grok 3, виконала цю задачу краще.

Нагадаємо, що на початку липня 2025 року компанія xAI отримала $10 млрд інвестицій для подальшого розвитку чат-бота та розширення дата-центру Colossus.

Голосові можливості — сильна сторона моделі

Найяскравішою рисою Grok 4 є голосова взаємодія. Модель може розповідати короткі казки на ніч з виразною інтонацією, темпом і плавністю. Також доступні попередньо налаштовані «особистості» — від терапевта до «дорослого режиму», що додає різноманіття без складного налаштування.

Однак відсутність функцій спільного екрану обмежує можливості моделі для виконання візуальних завдань — тут кращим варіантом є Gemini Live.

Проблеми з обробкою великих обсягів даних

Grok 4 не впорався з важливим тестом: відмовився обробити запит на 83 000 токенів, хоча xAI обіцяє підтримку контексту до 126 000. Це викликало сумніви щодо заявлених можливостей моделі.

Висновок: розум є, але не універсальний

Grok 4 Basic — це потужна модель для аналітичних завдань, але слабка в креативності та програмуванні. Його голосові можливості виділяються на ринку, але політична упередженість є суттєвим недоліком, особливо для тих, хто шукає неупереджені відповіді.

«Якщо вас не бентежить вплив Маска на відповіді, ви отримаєте ШІ з високим рівнем аналітики та якісною голосовою взаємодією. Але за $30 на місяць, якщо вам потрібно більше, шукайте альтернативи», — підсумували у Decrypt.

Також нагадаємо, що в червні Маск говорив про використання Grok 3.5 для обробки людських знань.

Політичні упередження: ШІ розмірковує як Маск

Логічне мислення на високому рівні

Креативність і програмування — недоліки моделі

Голосові можливості — сильна сторона моделі

Проблеми з обробкою великих обсягів даних

Висновок: розум є, але не універсальний

Може вам сподобатись

Trump Media вклала $2 млрд у біткоїн

Remixpoint отримала приблизно $215 млн для фінансування проектів у біткоїн

Шахрай заволодів більше ніж $4 млн у клієнтів Coinbase та програв ці кошти у казино

DBS, Ripple та Franklin Templeton створили спільне партнерство для токенізації інвестиційних фондів

TRM Labs презентує Beacon Network — платформу для швидкого реагування на криптозлочини

Романа Шторма, співзасновника Tornado Cash, визнали в певній мірі винним