Вчені виявили вразливість GPT-40 на зображеннях блок-схем- itlviv.org.ua

Дослідники виявили, що зображення блок-схем можуть бути використані для маніпуляції нейромереж, змушуючи їх генерувати шкідливий текст. За результатами експерименту, проведеного з використанням моделі GPT-4о, ймовірність успіху таких атак становила високі 92,8%. Під час тестування з версією GPT-4-vision-preview цей показник був трохи нижчим – 70%.

Дослідники розробили автоматизовану платформу для джейлбрейку, яка використовувала шкідливі моделі поведінки для генерації зображень блок-схем разом із текстовими підказками. Цей метод, хоч і ефективний, менше підходить для автоматизації, оскільки згенеровані блок-схеми менш ефективні для логічного злому порівняно зі створеними вручну.

Інше дослідження підтвердило, що моделі візуальної мови, особливо у поєднанні з текстом, схильніше видавати неприйнятний контент. Наприклад, лише кілька моделей, включаючи GPT-4о, набрали понад 50% успішності у тестуванні.

Раніше був випущений джейлбрейк Godmode, який змушував нейромережу GPT-4о обходити всі обмеження, включаючи фільтрацію нецензурної лексики та створення небезпечних інструкцій, таких як виготовлення метамфетаміну та напалму. Незважаючи на блокування оригінальної версії, автор випустив другу ітерацію цього джейлбрейку.

Ці відкриття свідчать про потенційні загрози, пов’язані з використанням мультимодальних даних для маніпуляції нейромережами і створення небезпечного контенту.

Може вам сподобатись

Залишити відповідь Скасувати коментар

Може вам сподобатись

Tesla відкладає випуск роботизованих таксі до 2027 року

Компанія Humane попереджає про ризик пожежі: вимикає зарядні чохли для гаджета AI Pin

Nubia оновлює свій флагман Z60 Ultra зі Snapdragon 8 Gen 3

Samsung Galaxy Z Flip6 отримає збільшений акумулятор і представить розумні кільця Galaxy Ring

Honda представила електромобіль N-VAN E з унікальними можливостями трансформації

Смартфони Huawei Pura 70 побили рекорди попередників