Данные Разработка Безопасность Инфраструктура Курсы и книги

Исследование объясняет, почему крупные языковые модели лучше осваивают редкие задачи

CITNews

08.06.2026

В препринте arXiv:2605.29548 группа исследователей связала преимущество крупных языковых моделей с меньшей интерференцией между задачами при обучении. По результатам экспериментов на моделях OLMo от 4 млн до 4 млрд параметров, малые модели чаще «забывают» редкие задачи, потому что частые примеры перезаписывают накопленный сигнал.

Группа исследователей из AI-компании Anthropic, Стэнфордского университета и других организаций предложила объяснение, почему более крупные языковые модели осваивают редкие и сложные задачи, которые малые модели не удерживают. В препринте «Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention» это связывается с конкуренцией задач за ограниченные внутренние ресурсы модели и с градиентной интерференцией.

В малых моделях частые и относительно простые задачи получают приоритет: их обновления продолжают «тянуть» параметры в свою сторону и стирают слабые признаки, накопленные на редких примерах. Более крупная модель быстрее снижает ошибку на частых задачах, поэтому их влияние ослабевает, а сигнал от редких задач успевает закрепиться.

Авторы проверяли гипотезу на синтетических смесях задач и при предобучении моделей OLMo размером от 4 млн до 4 млрд параметров на корпусе Dolma, добавляя задачи сравнения чисел и модульного сложения с разной частотой. Практический вывод работы — при обучении моделей для конкретных возможностей может быть важнее повысить долю соответствующих примеров в датасете или изменить смесь данных, чем просто увеличивать число параметров.

Источник: the-decoder.com

Новости IT

24 июля 2026

AlphaFold 3 помог повысить точность базовых редакторов генома

24 июля 2026

Выручка Intel выросла на 25% — максимальными темпами более чем за 15 лет

24 июля 2026

Meta, Microsoft и Nvidia выступили против широких ограничений на модели с открытыми весами

24 июля 2026

NVIDIA ускорила развёртывание LLM с помощью передачи весов между GPU

24 июля 2026

Sakana AI обновила оркестратор моделей Fugu Ultra и добавила интерфейс для Claude Code