19.06.2026
Исследователи OpenAI проверили, может ли небольшая доля RL-обучения на желательных поведенческих чертах улучшать безопасность модели за пределами исходных задач. По их данным, такой подход дал прирост на 44 из 53 независимых проверок и частично сохранил эффект при вредных подсказках и дообучении.
OpenAI опубликовала исследование Reinforcement learning towards broadly and persistently beneficial models о постобучении языковых моделей с помощью reinforcement learning на реалистичных диалогах, проверяющих полезные поведенческие черты. В экспериментах оценивались честность, эпистемическая скромность, прозрачность рассуждений, исправляемость, справедливость и забота о благополучии человека в сценариях из медицины, образования, науки, права, инженерии, экономики и других областей.
Авторы добавляли небольшую долю таких данных в обычный RL-пайплайн постобучения и сравнивали результат с вычислительно сопоставимой базовой моделью. По данным OpenAI, модель улучшилась на 44 из 53 независимых внутренних и внешних бенчмарков, включая проверки на обман, подхалимство, reward hacking, вредные советы, соблюдение спецификаций, а также медицинские и психологические сценарии.
Отдельный результат связан с переносом между доменами: обучение только на медицинских диалогах улучшало немедицинские проверки, включая reward hacking и deception, а исключение медицины и науки из части данных всё равно давало прирост на медицинских оценках. Исследователи также утверждают, что модель после такого обучения хуже поддавалась вредному steering через adversarial prompts и вредное fine-tuning, сохраняя при этом управляемость в полезных направлениях.
OpenAI называет результат ранним доказательством того, что RL может закреплять не только узкие ответы под конкретные тесты, но и более общие поведенческие свойства модели. В статье подчёркивается, что дальнейшая работа нужна, чтобы понять, какие именно черты важны для устойчивого выравнивания и почему они сохраняются или разрушаются под давлением.
Источник: alignment.openai.com