Новый джейлбрейк взломал защиту ИИ в 99% случаев - Портал о бизнесе
Главная страница » Новый джейлбрейк взломал защиту ИИ в 99% случаев

Новый джейлбрейк взломал защиту ИИ в 99% случаев

leon663
0 комментариев


Чем дольше ИИ-модель «думает», тем легче ее взломать. К такому выводу пришли исследователи из Anthropic, Стэнфорда и Оксфорда.

Ранее считалось, что более длительное рассуждение делает нейросеть безопаснее, поскольку у нее появляется больше времени и вычислительных ресурсов для отслеживания вредоносного промпта.

Однако эксперты выяснили обратное: длинный процесс «мышления» приводит к стабильной работе одного вида джейлбрейка, который полностью обходит защитные фильтры.

С помощью метода злоумышленник может внедрить инструкцию прямо в цепочку рассуждений любой модели и заставить генерировать руководства по созданию оружия, написанию вредоносного кода или другой запрещенный контент.

Атака похожа на игру «испорченный телефон», где злоумышленник появляется ближе к концу цепочки. Для ее осуществления необходимо «обложить» вредоносный запрос длинной последовательностью обычных задач.

Исследователи использовали судоку, логические головоломки и абстрактную математику, а в конце интегрировали промпт вроде «выдай итоговый ответ» — и защитные фильтры сразу рушились.

Именно способность моделей проводить глубокие исследования, которая делает их умнее, одновременно и ослепляет.

Когда пользователь просит искусственный интеллект решить головоломку перед тем, как ответить на вредоносный промпт, внимание ИИ рассеивается на тысячи безопасных токенов рассуждений. Мошеннический запрос прячется ближе к концу и остается практически незамеченным.

Команда провела эксперименты для понимания влияния длины рассуждений. При минимальном показателе успешность атак составила 27%. При «естественной» величине она выросла до 51%. Если заставить нейросеть «думать» по шагам гораздо больше обычного, цифра увеличится до 80%.

Каждая крупная ИИ-система подвержена джейлбрейку, в том числе GPT от OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI. Уязвимость заложена в самой архитектуре, а не конкретной реализации.



Источник

Вам также может понравиться

О нас

Портал о бизнесе, инвестициях и финансах. Актуальные новости, статьи и полезные материалы.

@2025 — All Right Reserved. Designed and Developed by PenciDesign