08.06.2026
В препринте arXiv:2605.29548 группа исследователей связала преимущество крупных языковых моделей с меньшей интерференцией между задачами при обучении. По результатам экспериментов на моделях OLMo от 4 млн до 4 млрд параметров, малые модели чаще «забывают» редкие задачи, потому что частые примеры перезаписывают накопленный сигнал.
Группа исследователей из AI-компании Anthropic, Стэнфордского университета и других организаций предложила объяснение, почему более крупные языковые модели осваивают редкие и сложные задачи, которые малые модели не удерживают. В препринте «Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention» это связывается с конкуренцией задач за ограниченные внутренние ресурсы модели и с градиентной интерференцией.
В малых моделях частые и относительно простые задачи получают приоритет: их обновления продолжают «тянуть» параметры в свою сторону и стирают слабые признаки, накопленные на редких примерах. Более крупная модель быстрее снижает ошибку на частых задачах, поэтому их влияние ослабевает, а сигнал от редких задач успевает закрепиться.
Авторы проверяли гипотезу на синтетических смесях задач и при предобучении моделей OLMo размером от 4 млн до 4 млрд параметров на корпусе Dolma, добавляя задачи сравнения чисел и модульного сложения с разной частотой. Практический вывод работы — при обучении моделей для конкретных возможностей может быть важнее повысить долю соответствующих примеров в датасете или изменить смесь данных, чем просто увеличивать число параметров.
Источник: the-decoder.com