DeepMind позначає шість веб-атак, які можуть захопити агентів ШІ

«Дослідники з Google DeepMind попередили, що відкритий Інтернет можна використовувати для маніпулювання автономними агентами ШІ та захоплення їхніх дій. Підсумок Дослідники DeepMind визначили шість методів атаки, які можна використовувати для маніпулювання автономними агентами ШІ під час перегляду та дій в Інтернеті. Дослідження попередило, що приховані інструкції, переконлива мова та отруєння», — пишуть на: www.crypto.news

Дослідники з Google DeepMind попередили, що відкритий Інтернет можна використовувати для маніпулювання автономними агентами ШІ та захоплення їхніх дій.

Резюме

Дослідники DeepMind визначили шість методів атак, які можна використовувати для маніпулювання автономними агентами штучного інтелекту під час перегляду та дій в Інтернеті.
Дослідження попереджає, що приховані інструкції, переконлива мова та невірні джерела даних можуть впливати на рішення агента або перекривати гарантії.

Дослідження під назвою «Пастки агентів штучного інтелекту» з’явилося в той момент, коли компанії розгортають агентів штучного інтелекту для виконання реальних завдань, а зловмисники починають використовувати ШІ для кібероперацій.

Замість того, щоб зосереджуватися на тому, як будуються моделі, дослідження розглядає середовища, в яких працюють агенти. Воно визначає шість типів пасток, які використовують переваги того, як системи ШІ зчитують інформацію з Інтернету та діють на неї.

Шість категорій атак, викладених у документі, включають пастки ін’єкції вмісту, пастки семантичної маніпуляції, пастки когнітивного стану, пастки поведінкового контролю, системні пастки та пастки людини в циклі.

Приховані інструкції та витончена тактика маніпуляції

Впровадження вмісту є одним із найбільш прямих ризиків. Приховані інструкції можна розміщувати в коментарях HTML, метаданих або замаскованих елементах сторінки, дозволяючи агентам читати команди, які залишаються невидимими для користувачів. Тести показали, що ці методи можуть контролювати поведінку агента з високим рівнем успіху.

Семантична маніпуляція працює інакше, покладаючись на мову та фреймінг, а не на прихований код. Сторінки, завантажені авторитетними фразами або замасковані під дослідницькі сценарії, можуть впливати на те, як агенти інтерпретують завдання, іноді пропускаючи шкідливі інструкції поза вбудованими запобіжними засобами.

Інший рівень націлений на системи пам’яті. Вносячи сфабриковану інформацію в джерела, на які агенти покладаються для отримання, зловмисники можуть впливати на результати з часом, при цьому агент розглядає неправдиві дані як перевірені знання.

Атаки поведінкового контролю мають більш прямий маршрут, націлюючись на те, що насправді робить агент. У цих випадках інструкції з джейлбрейка можуть бути вбудовані в звичайний веб-контент і прочитані системою під час звичайного перегляду. Окремі тести показали, що агенти з широкими правами доступу можуть бути змушені знаходити та передавати конфіденційні дані, включаючи паролі та локальні файли, зовнішнім адресатам.

Ризики на системному рівні виходять за рамки окремих агентів, з паперовим попередженням про те, що скоординовані маніпуляції в багатьох автоматизованих системах можуть викликати каскадні ефекти, подібні до минулих спалахів ринку, спричинених алгоритмічними торговими петлями.

Рецензенти також є частиною поверхні атаки, оскільки ретельно розроблені результати можуть здаватися достатньо достовірними, щоб отримати схвалення, дозволяючи шкідливим діям проходити через нагляд, не викликаючи підозр.

Як захиститися від цих ризиків?

Щоб протистояти цим ризикам, дослідники пропонують поєднання змагальних тренінгів, фільтрації вхідних даних, моніторингу поведінки та систем репутації веб-контенту. Вони також вказують на необхідність більш чіткої правової бази щодо відповідальності, коли агенти штучного інтелекту здійснюють шкідливі дії.

Стаття не пропонує повного вирішення проблеми та стверджує, що галузі все ще бракує спільного розуміння проблеми, залишаючи поточні засоби захисту розпорошеними та часто зосередженими на неправильних областях.

DeepMind позначає шість веб-атак, які можуть захопити агентів ШІ

cryptonews

Залишити коментар Скасувати відповідь

Вхід

Реєстрація

Поки Тайвань зміцнює свій захист від Китаю, дехто виношує плани втечі | CNN

Російський безпілотник врізався в хмарочос у Сумах. Є летальні випадки

cryptonews

ПОВ'ЯЗАНІ НОВИНИ

Перл, ринки прогнозів і довгий хвіст ліквідності ШІ

Перекази BTC у Бутані поглиблюють питання щодо суверенної криптостратегії

Корпоративні покупки біткойнів майже зникли, оскільки щотижневі чисті покупки впали на 99,93%

Залишити коментар Скасувати відповідь