14.06.2026
Mirage хранит 3D-контекст сцены не в RGB-точечном облаке, а прямо в латентном пространстве диффузионной модели. В экспериментах авторов это дало до 10,57-кратного ускорения сквозной генерации и до 55-кратного сокращения объема 3D-кэша, но метод пока в основном рассчитан на статическое содержимое сцены.
Исследователи из Чжэцзянского университета, Microsoft Research — исследовательского подразделения Microsoft, Университета Аделаиды и Университета Монаша опубликовали 8 июня 2026 года препринт Latent Spatial Memory for Video World Models и проектную страницу Mirage. Работа относится к видео-моделям мира: таким генеративным системам нужно продолжать сцену по исходному кадру и траектории камеры, не теряя пространственную согласованность при длинных перемещениях и возвратах камеры.
Вместо явной памяти в виде RGB-точечного облака Mirage хранит статическое содержимое сцены как 3D-токены в латентном пространстве диффузионной модели. Кэш строится через обратную проекцию по глубине, а новые виды читаются прямым переносом в латентном пространстве, без повторного рендеринга RGB-кэша и кодирования через вариационный автоэнкодер (VAE).
Авторы заявляют до 10,57× ускорения сквозной генерации и до 55× меньший объем 3D-кэша по сравнению с базовыми методами с явным 3D-представлением, а также лучший результат на бенчмарке WorldScore и сильное качество реконструкции на наборе RealEstate10K. Ограничение остается существенным: долговременная память Mirage предназначена главным образом для стабильной геометрии, поэтому движущиеся объекты фильтруются при записи в кэш и задача их устойчивого сохранения между сегментами еще не решена.
Источник: microsoft.github.io