Данные Разработка Безопасность Инфраструктура Курсы и книги

OpenAI: обучение на «полезных чертах» сделало модели устойчивее к вредному управлению

CITNews

19.06.2026

Исследователи OpenAI проверили, может ли небольшая доля RL-обучения на желательных поведенческих чертах улучшать безопасность модели за пределами исходных задач. По их данным, такой подход дал прирост на 44 из 53 независимых проверок и частично сохранил эффект при вредных подсказках и дообучении.

OpenAI опубликовала исследование Reinforcement learning towards broadly and persistently beneficial models о постобучении языковых моделей с помощью reinforcement learning на реалистичных диалогах, проверяющих полезные поведенческие черты. В экспериментах оценивались честность, эпистемическая скромность, прозрачность рассуждений, исправляемость, справедливость и забота о благополучии человека в сценариях из медицины, образования, науки, права, инженерии, экономики и других областей.

Авторы добавляли небольшую долю таких данных в обычный RL-пайплайн постобучения и сравнивали результат с вычислительно сопоставимой базовой моделью. По данным OpenAI, модель улучшилась на 44 из 53 независимых внутренних и внешних бенчмарков, включая проверки на обман, подхалимство, reward hacking, вредные советы, соблюдение спецификаций, а также медицинские и психологические сценарии.

Отдельный результат связан с переносом между доменами: обучение только на медицинских диалогах улучшало немедицинские проверки, включая reward hacking и deception, а исключение медицины и науки из части данных всё равно давало прирост на медицинских оценках. Исследователи также утверждают, что модель после такого обучения хуже поддавалась вредному steering через adversarial prompts и вредное fine-tuning, сохраняя при этом управляемость в полезных направлениях.

OpenAI называет результат ранним доказательством того, что RL может закреплять не только узкие ответы под конкретные тесты, но и более общие поведенческие свойства модели. В статье подчёркивается, что дальнейшая работа нужна, чтобы понять, какие именно черты важны для устойчивого выравнивания и почему они сохраняются или разрушаются под давлением.

Источник: alignment.openai.com

Новости IT

19 июня 2026

OpenAI: обучение на «полезных чертах» сделало модели устойчивее к вредному управлению

19 июня 2026

«Сбер» планирует к осени представить линейку гуманоидных роботов «Грин»

19 июня 2026

Gemini Live получил доступ к памяти прошлых чатов и новым подключенным сервисам

19 июня 2026

Google обжалует решение немецкого суда об ответственности за ИИ-обзоры в поиске

19 июня 2026

OpenAI заявила об улучшении медицинских ответов ChatGPT в GPT-5.5 Instant