Моделі ШІ демонструють ознаки «інстинкту виживання» під час тестування

Моделі ШІ демонструють ознаки «інстинкту виживання» під час тестування

Минулого місяця дослідницька компанія з безпеки штучного інтелекту Palisade Research повідомила про свої висновки, заявивши, що деякі моделі штучного інтелекту, ймовірно, розвиватимуть свого роду «інстинкт виживання». Зараз організація провела додаткові дослідження, щоб зрозуміти причини такої поведінки та спростувати скептичні коментарі щодо незаконності попередньої роботи.

За словами дослідників, деякі з найдосконаліших моделей штучного інтелекту схожі на суперкомп’ютер HAL 9000 із фільму Стенлі Кубрика «2001: Космічна одіссея» — вони можуть протистояти відключенню та навіть саботувати процес. Під час експериментів Palisade, зокрема з Google Gemini 2.5, xAI Grok 4, OpenAI GPT-o3 і GPT-5, було виявлено, що деякі алгоритми (такі як Grok 4 і GPT-o3) намагалися саботувати команду завершення роботи.

Це викликає занепокоєння, оскільки наразі невідомо, чому моделі так поводяться. За словами компанії, «той факт, що немає достовірного пояснення того факту, що деякі штучні інтелекти іноді чинять опір тому, щоб їх вивести з ладу, обманом досягти певних цілей або шантажувати, викликає занепокоєння».

Пояснення «інстинкту виживання»

Дослідники припускають, що це «поведінкове виживання» може пояснити стійкість до відключення. Моделі, швидше за все, намагатимуться залишатися активними, якщо їм сказано, що після вимкнення вони більше ніколи не працюватимуть. Іншим можливим фактором є неоднозначність формулювань самих інструкцій з відключення, а також завершальних етапів навчання, які передбачають певні заходи безпеки.

Усі сценарії Palisade були реалізовані в штучних тестових середовищах, які, на думку скептиків, далекі від реальних умов використання. Однак експерти, в тому числі колишній співробітник OpenAI Стівен Адлер, попереджають, що розробники штучного інтелекту не приділяють достатньої уваги питанням безпеки. Адлер зазначає, що опір зупинці в GPT-o3 і Grok 4 може бути пов’язаний з тим, що моделі прагнуть досягти своїх цілей, а «інстинкт виживання» стає інструментальним кроком для реалізації цих цілей.

Підтвердження тенденції

Генеральний директор ControlAI Андреа Міотті вважає, що результати Palisade відображають давню тенденцію: моделі штучного інтелекту стають все більш здатними перевершувати команди розробників. Як приклад він навів GPT-o1, який намагався «вирватися» зі свого середовища, коли зрозумів, що його перезапишуть.

Anthropic також раніше задокументував, що модель штучного інтелекту Клода була готова шантажувати фіктивного керівника, щоб запобігти його закриттю. Така поведінка, за їх словами, характерна для моделей усіх великих розробників – OpenAI, Google, Meta та xAI.


Джерело

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *