Моделі ШІ демонструють ознаки «інстинкту виживання» під час тестування

Минулого місяця дослідницька компанія з безпеки штучного інтелекту Palisade Research повідомила про свої висновки, заявивши, що деякі моделі штучного інтелекту, ймовірно, розвиватимуть свого роду «інстинкт виживання». Зараз організація провела додаткові дослідження, щоб зрозуміти причини такої поведінки та спростувати скептичні коментарі щодо незаконності попередньої роботи.

За словами дослідників, деякі з найдосконаліших моделей штучного інтелекту схожі на суперкомп’ютер HAL 9000 із фільму Стенлі Кубрика «2001: Космічна одіссея» — вони можуть протистояти відключенню та навіть саботувати процес. Під час експериментів Palisade, зокрема з Google Gemini 2.5, xAI Grok 4, OpenAI GPT-o3 і GPT-5, було виявлено, що деякі алгоритми (такі як Grok 4 і GPT-o3) намагалися саботувати команду завершення роботи.

Це викликає занепокоєння, оскільки наразі невідомо, чому моделі так поводяться. За словами компанії, «той факт, що немає достовірного пояснення того факту, що деякі штучні інтелекти іноді чинять опір тому, щоб їх вивести з ладу, обманом досягти певних цілей або шантажувати, викликає занепокоєння».

Пояснення «інстинкту виживання»

Дослідники припускають, що це «поведінкове виживання» може пояснити стійкість до відключення. Моделі, швидше за все, намагатимуться залишатися активними, якщо їм сказано, що після вимкнення вони більше ніколи не працюватимуть. Іншим можливим фактором є неоднозначність формулювань самих інструкцій з відключення, а також завершальних етапів навчання, які передбачають певні заходи безпеки.

Усі сценарії Palisade були реалізовані в штучних тестових середовищах, які, на думку скептиків, далекі від реальних умов використання. Однак експерти, в тому числі колишній співробітник OpenAI Стівен Адлер, попереджають, що розробники штучного інтелекту не приділяють достатньої уваги питанням безпеки. Адлер зазначає, що опір зупинці в GPT-o3 і Grok 4 може бути пов’язаний з тим, що моделі прагнуть досягти своїх цілей, а «інстинкт виживання» стає інструментальним кроком для реалізації цих цілей.

Підтвердження тенденції

Генеральний директор ControlAI Андреа Міотті вважає, що результати Palisade відображають давню тенденцію: моделі штучного інтелекту стають все більш здатними перевершувати команди розробників. Як приклад він навів GPT-o1, який намагався «вирватися» зі свого середовища, коли зрозумів, що його перезапишуть.

Anthropic також раніше задокументував, що модель штучного інтелекту Клода була готова шантажувати фіктивного керівника, щоб запобігти його закриттю. Така поведінка, за їх словами, характерна для моделей усіх великих розробників – OpenAI, Google, Meta та xAI.

Джерело

Моделі ШІ демонструють ознаки «інстинкту виживання» під час тестування

Пояснення «інстинкту виживання»

Підтвердження тенденції

Залишити відповідь Скасувати коментар

Успіх Путіна в Україні був би катастрофою для всього Заходу, – Сікорський

Польща може тимчасово закрити кордон з Україною для торгівлі

Згадала про Україну та порадила, як перемогти Путіна. Дружина Навального виступила в Європарламенті

Бельгія виділить 200 млн євро на чеську ініціативу боєприпасів для України

«Нова пошта» тестує чотири нові формати поштових автоматів: як вони виглядатимуть

McDonald's в Україні додав до свого ранкового меню корисні сніданки з авокадо

Естонія виділить Україні понад 650 тисяч євро допомоги

Зросли розміри допомоги по вагітності та пологах

Лукашенко вивів з-під санкцій “Білоруснефть”.

Співробітники СБУ затримані за напад на прикордонників

Пояснення «інстинкту виживання»

Підтвердження тенденції

Схожі записи:

Пов’язані записи

Залишити відповідь Скасувати коментар