30.06.2026
Китайская AI-лаборатория DeepSeek представила DSpark — фреймворк спекулятивного декодирования, который, по данным компании, ускоряет генерацию ответов её моделей DeepSeek-V4 на 60–85% без потери качества. Код и контрольные точки опубликованы под лицензией MIT.
Китайская AI-лаборатория DeepSeek 27 июня выпустила DSpark — фреймворк спекулятивного декодирования (speculative decoding), который, по данным компании, ускоряет генерацию текста её моделей DeepSeek-V4 в продакшене. Прирост скорости ответа на пользователя заявлен на уровне 60–85% для варианта V4-Flash и 57–78% для V4-Pro по сравнению с прежним базовым подходом MTP-1, при этом вывод модели остаётся неизменным по качеству.
Идея спекулятивного декодирования состоит в разделении генерации на две роли: компактная «черновая» модель предлагает сразу блок из нескольких токенов-кандидатов, а более крупная основная модель проверяет их пакетно за один проход. Это позволяет выдавать несколько токенов за итерацию вместо одного и эффективнее использовать вычислительные ресурсы.
Вместе с DSpark DeepSeek открыла исходный код DeepSpec — кодовой базы для обучения и оценки «черновых» моделей спекулятивного декодирования. Технический документ, контрольные точки моделей и код опубликованы на GitHub и Hugging Face под разрешительной лицензией MIT, что делает технику доступной разработчикам и компаниям.
Более эффективное использование чипов имеет для китайских AI-компаний и стратегическое значение на фоне ужесточения экспортного контроля США на высокопроизводительное оборудование: оптимизация инференса позволяет получать больше производительности с меньшего числа ускорителей. Подробности — в материале The Decoder.
Источник: the-decoder.com