Google выпустила мультимодальную модель Gemma 4 12B для локального запуска на ноутбуках с 16 Гбайт памяти

Google представила Gemma 4 12B — 12-миллиардную мультимодальную модель семейства Gemma с открытыми весами. Компания заявляет, что модель можно запускать локально на системах с 16 Гбайт VRAM или унифицированной памяти; веса доступны под лицензией Apache 2.0.

Google представила Gemma 4 12B, новую модель с открытыми весами в семействе Gemma. Она занимает промежуточное место между компактными edge-моделями E2B/E4B и более крупной Gemma 4 26B Mixture-of-Experts.

Gemma 4 12B рассчитана на локальный запуск: Google указывает, что для работы достаточно 16 Гбайт VRAM или унифицированной памяти. По утверждению компании, на стандартных бенчмарках модель приближается к 26B MoE, но требует менее половины ее объема памяти.

Главное архитектурное отличие — отказ от отдельных мультимодальных энкодеров. В техническом описании Google поясняет, что изображение и аудио напрямую проецируются в пространство входов LLM: для визуальных данных используется легкий embedding-модуль, а аудиосигнал подается через линейную проекцию. Такой подход должен снизить задержки и упростить настройку мультимодальных приложений.

Модель поддерживает текст, изображения, видео и аудио, а также поставляется с Multi-Token Prediction (MTP) drafters для снижения задержки генерации. Предобученные и instruction-tuned чекпойнты опубликованы на Hugging Face и Kaggle; запуск поддерживается через LM Studio, Ollama, Google AI Edge Gallery, LiteRT-LM, Hugging Face Transformers, llama.cpp, MLX, SGLang и vLLM.

Источник: blog.google

Связь с редакцией