Неделя, когда ИИ взорвался: GPT-5.1, Gemini 3, Claude Opus 4.5 и ещё 5 бомб за 7 дней

CITnews

01.12.2025

За одну неделю 24–30 ноября сразу все крупные лаборатории и несколько опенсорс-команд синхронно выкатили новые флагманы. Получился мини-релиз-сезон, какого ещё не было.

То, что обычно растягивается на месяцы, на этот раз уместилось в несколько дней: OpenAI доработала линейку GPT-5, Google выпустила новое поколение Gemini, Anthropic подняла планку кода и агентов с Claude Opus 4.5, а параллельно вышли мощные открытые модели, новые генераторы картинок и видео и даже «мозг» для роботов.

Ниже — восемь событий, которые вместе хорошо описывают, куда именно двигается индустрия прямо сейчас.

1. Anthropic. Claude Opus 4.5: новый король кода и агентов

Anthropic постепенно выстраивает свою линейку Claude вокруг сценариев «долгой» работы: сложный код, большие документы, таблички, презентации, аналитика. Opus 4.5 — очередной шаг в эту сторону.

Главные акценты:

Код и инструменты. Opus 4.5 серьёзно улучшен на SWE-bench Verified и других бенчмарках программирования: лучше понимает чужой код, увереннее рефакторит и предлагает более устойчивые многошаговые правки.
Агенты и «работа за компьютером». Anthropic явно видит модель как мозг для ассистентов, которые бегают по файловой системе, крутят таблицы, пишут документацию и чинят скрипты, а не просто отвечают в чате.
Экономия токенов. Важный нюанс для продакшена: Opus 4.5 научили аккуратнее расходовать контекст и лучше держать длинные цепочки команд.

По сути, Anthropic закрепляется в нише «самый надёжный и аккуратный корпоративный мозг», где важны не столько красивые демки, сколько предсказуемость и качество многошаговой работы.

2. OpenAI. GPT-5.1 (Instant + Thinking): динамическое «время на размышление»

OpenAI сделала шаг, который давно напрашивался концептуально: GPT-5.1 в варианте Thinking умеет сам подстраивать глубину рассуждений под задачу, а не мыслить всегда на полную катушку.

Линейка теперь выглядит так:

GPT-5.1 Instant. Быстрая, отзывчивая модель для повседневного чата, интерфейсов и простых задач. Главный фокус — скорость реакции и послушность интерактивным инструкциям.
GPT-5.1 Thinking. Модель, которая «сама решает, сколько думать»: на простых задачах отвечает почти как Instant, но если видит сложную структуру (код, многошаговое планирование, аналитика), включает более глубокий режим рассуждения.

Параллельно OpenAI подтянула инфраструктурные вещи:

новые tool-calls вроде apply_patch и shell, которые позволяют агентам менять файлы и выполнять команды более осмысленно;
улучшенный prompt-cache, чтобы экономить токены на повторяющихся частях запросов;
апгрейд пайплайна для кода и интеграций с «агентными» сценариями.

В сумме GPT-5.1 — это не просто ещё одна цифра в названии, а шаг к более разумной трате вычислений: когда модель не «пережёвывает» одинаково долго любую задачу.

3. Google. Gemini 3: ставка на длинные цепочки и вездесущесть

Google продолжает продвигать идею Gemini как «Android для ИИ» — базового слоя, который живёт во всех сервисах и устройствах.

В выпуске Gemini 3 фокус смещён на:

длинные цепочки рассуждений (включая планирование, анализ сложных документов, многошаговые инструкции);
мультимодальность — работу одновременно с текстом, изображениями, иногда видео и структурированными данными;
тесную интеграцию в экосистему: Gemini 3 Pro сразу появляется в приложении Gemini, в AI Studio и в Vertex AI.

По ряду бенчмарков на планирование и сложные reasoning-задачи Gemini 3 выходит вперёд других фронтирных моделей. Для Google это способ сказать: «Мы умеем не только генерировать текст, но и строить сложные цепочки действий поверх данных».

4. DeepSeek. V3.2 / V3.2-Speciale и Math V2: открытые конкуренты западным гигантам

Китайская DeepSeek изначально заявляла свои модели как альтернативу системам OpenAI и Google. В этой волне релизов компания только усиливает свои позиции: у неё сразу два важных направления — универсальные модели V3.2 / V3.2-Speciale и специализированная математическая Math V2.

DeepSeek-V3.2 и V3.2-Speciale. Это универсальные модели для рассуждений, кода и сложной математики, которые по собственным и независимым тестам выходят на уровень GPT-5-High и Gemini-3.0-Pro или местами приближаются к нему. Они работают с контекстом до 128 000 токенов, используют новую архитектуру DeepSeek Sparse Attention (DSA), которая заметно удешевляет длинные запросы, и распространяются под лицензией MIT — их можно свободно использовать и в коммерческих проектах.

DeepSeek Math V2. Отдельная специализированная модель для олимпиадной и университетской математики со встроенной самопроверкой. Math V2 ориентирована не просто на выдачу ответа, а на пошаговые доказательства и верификацию решения и на крупных бенчмарках вроде IMO-2025 и Putnam-2024 выходит на «золотой» уровень.

Это важный сдвиг: математика — область, где «сойдёт и так» не работает. Модель обязывают играть по правилам строгого доказательства, а не угадывать шаблоны.

Вместе эти модели хорошо показывают стратегию DeepSeek: сначала отточить строго проверяемую математику, а затем перенести те же принципы в широкий стек общих моделей, который способен конкурировать с закрытыми системами вроде GPT-5 и Gemini — и при этом остаётся полностью открытым и доступным по лицензии MIT.

5. Black Forest Labs. FLUX.2: генерация картинок продакшн-класса

Black Forest Labs с FLUX-линейкой изначально делали ставку на визуальное качество и управление стилем. FLUX.2 закрепляет их как одного из главных игроков в генерации изображений.

Что важно в этой версии:

Разрешение до 4 Мп. Картинка не выглядит «ИИ-мыльной» даже в крупных интерфейсах и печати.
Удержание персонажей и бренда. Можно задавать персонажа, продукт или визуальный стиль и держать его кадр за кадром — это критично для коммерческих проектов, где нельзя каждый раз «перерисовывать» героя.
Точный текст и цвета. FLUX.2 гораздо аккуратнее работает с текстом на изображениях и цветами бренда, что открывает двери в маркетинг, UI, презентации и не только в арт.

Вместо игрушки «для красивых картинок» получается инструмент уровня «можно строить вокруг этого дизайн-процессы и рекламные кампании».

6. Allen AI. OLMo 3: полностью открытый стек как альтернатива гигантам

Если закрытый фронтир — это OpenAI, Google и Anthropic, то в открытом лагере важен другой вопрос: насколько прозрачен весь цикл обучения модели.

Здесь на сцену выходит OLMo 3 от Allen Institute for AI.

Чем он отличается:

это по-настоящему открытый стек: доступны не только веса и код модели, но и датасеты, рецепты обучения, логика дообучения и оценки;
линейка покрывает средние и крупные размеры (7B и 32B-варианты), включая версии, заточенные под reasoning;
модель подаётся как референс для исследователей и компаний, которые хотят не просто использовать чёрный ящик, а понимать, на чём и как он обучен и как его воспроизвести.

На фоне доминирования закрытых гигантов OLMo 3 выглядит как ставка на «инфраструктуру доверия»: прозрачность важнее абсолютного лидерства в каждом бенчмарке.

7. GigaAI. GigaBrain-0: foundation-модель для роботов

Пока большинство релизов недели вращаются вокруг текста и картинок, GigaBrain-0 тихо напоминает: важнейший фронтир — это роботы.

GigaBrain-0 — это vision-language-action-модель (VLA), которая учится сразу на трёх типах сигналов:

визуальные данные (видео и изображения),
текстовые описания задач,
действия робота в окружающем мире.

Ключевой приём — масштабное использование синтетики: миллиарды видео и сценариев, сгенерированных world-models. Реальные демонстрации человека-оператора дополняют эту базу, а не являются единственным источником правды.

За счёт этого:

модель меньше зависит от дорогих и ограниченных по объёму экспериментов на физических роботах;
лучше обобщает на новые сцены и задачи, устойчивее к изменению освещения, конфигураций объектов и окружения.

Если текстовые модели позволяют автоматизировать офис, то такие VLA-системы — попытка автоматизировать физический мир.

8. Runway. Gen-4.5: гонка за «идеальное» видео

Runway давно позиционирует себя как студию для создателей видео на базе ИИ. Gen-4.5 — их заявка на лидерство в классе текст-в-видео-моделей.

Главные акценты:

Кинематографичность. Видео выглядит ближе к привычной киносъёмке: естественные движения камеры, свет, глубина сцены.
Точное следование промпту. Модель лучше удерживает объекты, стили и динамику, не скатываясь в «визуальный шум» на длинных отрезках.
Управляемость. Авторам дают больше рычагов управления — от композиции до движения камеры и ритма.

Runway прямо заявляет, что в слепых тестах Gen-4.5 обходит сопоставимые закрытые модели конкурентов. Даже если маркетинговые формулировки слегка завышены, факт остаётся: планка качества видео-генерации снова поднялась.

Итоги: поднялись сразу все слои

Если попробовать свести эту неделю в одну картинку, получится примерно так:

Чат / код / агенты. Закрытые флагманы (GPT-5.1, Gemini 3, Claude Opus 4.5) сделали ещё один шаг вперёд в качестве, особенно в сложных многошаговых задачах.
Математика и открытый reasoning. DeepSeek Math V2 и OLMo 3 подтянули открытый лагерь: от строго проверяемой математики до полного стека с прозрачным обучением.
Изображения и видео. FLUX.2 и Runway Gen-4.5 задают новый уровень для продакшн-картинок и видео, с которыми можно строить реальные продукты, а не только демо.
Роботы. GigaBrain-0 показывает, как могут выглядеть foundation-модели для физического мира.

На таком фоне главный вопрос действительно перестаёт звучать как «кто сильнее в среднем по больнице».

Гораздо интереснее другое: насколько быстро всё это начнут склеивать в живые цепочки и продукты