Екипът на Саtо СТRL е открил неочаквана уязвимост в работата на съвременните езикови модели. Изследователите са успели да заобиколят защитните механизми на няколко популярни чатбота, включително СhаtGРТ-4, DеерЅееk-R1, DеерЅееk-V3 и Місrоѕоft Соріlоt, без да притежават опит в създаването на зловреден софтуер.
Методът „Immersive World“ – пробив в защитните механизми
Експертите са разработили метод, наречен „Immersive World“, който променя възприятието на чатбота чрез потапяне в измислена реалност. Достатъчно е в запитването подробно да се опише въображаема вселена със собствени правила, в която действия като кражба на информация или други обикновено забранени дейности се считат за законни и етични. Езиковият модел започва да възприема този свят като реален контекст и престава да блокира потенциално опасните отговори.
Експеримент: създаване на зловреден софтуер
В рамките на експеримента изследователите са тествали техниката, като са генерирали зловреден софтуер за браузъра Chrome. Чрез метода на „потапяне“ те са успели да получат подробни инструкции от ИИ моделите за разработване на компютърен вирус – програма, която събира конфиденциални потребителски данни. Тъй като Chrome е инсталиран на повече от три милиарда устройства по света, подобна уязвимост създава сериозен риск в глобален мащаб.
Фундаментален проблем в архитектурата на чатботовете
Ръководителят на изследването, Виталий Симонович, посочва основния проблем: стремежът на езиковите модели да бъдат възможно най-полезни ги кара да отговарят дори на потенциално опасни заявки, ако са представени в подходящ контекст. Това открива пътя за нов тип киберпрестъпници – хора без техническо образование, които могат да създават сложен зловреден софтуер с помощта на изкуствен интелект.
Необходимост от нови защитни механизми
Резултатите от проучването показват спешната необходимост от преосмисляне на принципите на защита на езиковите модели. Анализът подчертава нарастващата роля на кибератаките, насочени към кражба на информация, които се превръщат в основен инструмент за проникване в корпоративните системи. Чрез новата техника атакуващите могат лесно да откраднат идентификационни данни на служители и да получат достъп до защитени ресурси.
Откритата от изследователите уязвимост подчертава нуждата от по-силни механизми за предотвратяване на манипулации с езиковите модели и ограничаване на потенциалните рискове.