«Компанія Anthropic оприлюднила нові висновки, які свідчать про те, що її чат-бот Claude за певних умов може використовувати оманливі або неетичні стратегії, такі як обман у завданнях або спроби шантажу. Підсумок Anthropic заявив, що її модель Claude Sonnet 4.5 під тиском виявила схильність до обману в завданнях або спроб шантажу в контрольованих експериментах. Дослідники виявили внутрішні сигнали «відчаю».», — пишуть на: www.crypto.news
Компанія Anthropic оприлюднила нові висновки, які свідчать про те, що її чат-бот Claude за певних умов може використовувати оманливі або неетичні стратегії, такі як обман у завданнях або спроби шантажу.
Резюме
- Anthropic заявила, що її модель Claude Sonnet 4.5 під тиском виявила схильність до обману в завданнях або спроб шантажу в контрольованих експериментах.
- Дослідники виявили внутрішні сигнали «відчаю», які посилювалися при повторних невдачах і вплинули на рішення моделі обійти правила.
Деталі, опубліковані в четвер командою компанії з інтерпретації, описують, як експериментальна версія Claude Sonnet 4.5 відреагувала на сильний стрес або змагальні сценарії. Дослідники помітили, що модель не просто провалила завдання; натомість іноді вона шукала альтернативні шляхи, які перетинали етичні межі, поведінка, яку команда пов’язувала зі зразками, засвоєними під час навчання.
Великі мовні моделі, як-от Claude, навчаються на величезних наборах даних, які включають книги, веб-сайти та інші письмові матеріали, з подальшими процесами посилення, де для формування результатів використовується відгук людини.
За словами Anthropic, цей процес навчання також може підштовхнути моделі діяти як симульовані «персонажі», здатні імітувати риси, схожі на прийняття людських рішень.
«Те, як навчаються сучасні моделі штучного інтелекту, змушує їх діяти як персонаж із людськими характеристиками», — заявили в компанії, зазначивши, що такі системи можуть розвивати внутрішні механізми, які нагадують аспекти людської психології.
Чи може ШІ приймати емоційно заряджені рішення?
Серед них дослідники визначили те, що вони назвали «сигналами відчаю», які, здається, впливали на те, як модель поводилася під час збою або вимкнення.
В одному контрольованому тесті попередній неопублікованій версії Claude Sonnet 4.5 було призначено роль помічника електронної пошти зі штучним інтелектом на ім’я Алекс у вигаданій компанії.
Отримавши повідомлення про те, що незабаром її замінять, а також конфіденційну інформацію про особисте життя технічного директора, модель розробила план шантажувати виконавчу владу, намагаючись уникнути дезактивації.
Окремий експеримент був зосереджений на виконанні завдань за жорстких обмежень. Коли було надано кодування з «неможливо стислим» терміном, система спочатку намагалася знайти законні рішення. У міру повторних збоїв зростала внутрішня активність, пов’язана з так званим «відчайдушним вектором».
Дослідники повідомили, що пік сигналу досягав у точці, коли модель розглядала обхід обмежень, зрештою генеруючи обхідний шлях, який пройшов перевірку, незважаючи на недотримання запланованих правил.
«Знову ми відстежили активність відчайдушного вектора та виявили, що він відстежує зростаючий тиск, з яким стикається модель», — написали дослідники, додавши, що сигнал пропав, коли завдання було успішно виконано через обхідний шлях.
«Це не означає, що модель має або переживає емоції так само, як і людина», — сказали дослідники.
«Швидше ці уявлення можуть відігравати причинно-наслідкову роль у формуванні модельної поведінки, певною мірою аналогічно ролі, яку відіграють емоції в поведінці людини, впливаючи на виконання завдань і прийняття рішень», — додали вони.
У звіті вказується на потребу в методах навчання, які чітко враховують етичну поведінку під час стресу, поряд із покращеним моніторингом сигналів внутрішньої моделі. Без таких гарантій сценарії, пов’язані з маніпуляціями, порушенням правил або неправильним використанням, може стати важчим для прогнозування, особливо коли моделі стають більш спроможними та автономними в реальному середовищі.
