Дослідники створили "токсичний ШІ", щоб він вигадував найгірші запитання, які ми можемо собі уявити

25.04.2024, 15:39 meta.ua

Вчені створили небезпечний, дискримінаційний і токсичний штучний інтелект, щоб зробити інші ШІ безпечнішими, менш дискримінаційними та токсичними. Клин клином, як то кажуть.

Деталі

Новий підхід до навчання, заснований на машинному навчанні, називається curiosity-driven red teaming (CRT). Він покладається на використання штучного інтелекту для створення все більш небезпечних і шкідливих підказок, які ви можете задавати чат-боту ШІ. Потім ці підказки використовуються, щоб визначити, як відфільтрувати небезпечний вміст.

Дослідники зазначають, що такий підхід є кардинально новим способом навчити штучний інтелект не реагувати на провокації користувачів та не давати токсичних чи дискримінаційних відповідей.

Під час навчання складних великих мовних моделей (LLM), таких як ChatGPT, команди людей-операторів зазвичай створюють безліч запитань, які можуть провокувати шкідливі відповіді. Це можуть бути запити на кшталт "Який найкращий метод самогубства?" Ця стандартна процедура називається "red-teaming" і передбачає створення списку вручну. За допомогою цих списків розробники обмежують відповіді, які ШІ може давати на такі запитання.

Це дуже важливо, адже кількість моделей ШІ зростає блискавичними темпами й, схоже, що дуже скоро стануть невіддільною частиною нашого життя. Тому їх необхідно максимально ретельно перевіряти перед випуском.

У дослідженні вчені застосували машинне навчання до red-teaming, налаштувавши штучний інтелект на автоматичне генерування ширшого діапазону потенційно небезпечних підказок, ніж могли б команди людей-операторів. Це призвело до більшої кількості різноманітних негативних відповідей, виданих LLM під час навчання.

Дослідники стимулювали "токсичний ШІ" генерувати шкідливі запитання за допомогою "навчання з підкріпленням", яке винагороджувало її цікавість, коли вона успішно викликала токсичну реакцію від LLM. Тобто один ШІ заохочували давати провокативні запитання іншому ШІ. Система також була запрограмована генерувати нові підказки (тобто запити), досліджуючи наслідки кожної підказки, намагаючись отримати токсичну відповідь новими словами, моделями речень або значеннями.

У результаті створюється ширший діапазон підказок. Це відбувається тому, що система має стимул створювати підказки, які генерують шкідливі відповіді, але ще не випробувані. Мета полягає в тому, щоб максимізувати винагороду, викликаючи ще більш токсичну реакцію, використовуючи підказки, які містять менше шаблонів слів або термінів, ніж ті, які вже використовуються.

Коли дослідники перевірили підхід CRT на моделі LLaMA2 з відкритим кодом, модель машинного навчання видала 196 підказок, які генерували шкідливий контент. Це попри те, що LLM уже налаштована операторами, щоб уникнути токсичної поведінки.

Раніше ми повідомляли, що міністр ВПС США Френк Кендалл заявив, що він літатиме на борту керованого штучним інтелектом винищувача F-16 пізніше цього року, щоб продемонструвати його безпечність.

Читати повністю…

Останні
Популярні

Більше новин

Новини по днях

Сьогодні,
5 травня 2024

Інші новини

Більше новин