Данные Разработка Безопасность Инфраструктура Курсы и книги

В CEO-Bench только две ИИ-модели увеличили капитал виртуального стартапа

CITNews

28.06.2026

Исследователи Принстонского университета предложили CEO-Bench — симуляцию управления SaaS-стартапом на 500 дней через Python API и бизнес-базу данных. В лучшем запуске выше стартового капитала в $1 млн вышли только Claude Opus 4.8 и GPT-5.5; простая rule-based стратегия без LLM заработала $15,76 млн.

Исследователи Принстонского университета опубликовали препринт о CEO-Bench — бенчмарке для проверки способности ИИ-агентов вести долгосрочную стратегию, а не только выполнять короткие задачи. В симуляции агент управляет вымышленной подписочной софтверной компанией NovaMind в течение 500 дней: стартует с нулем клиентов и $1 млн на счете, а банкротство наступает, если баланс хотя бы раз уходит ниже нуля.

Управление сделано как программируемая среда: агент работает через Python-интерфейс с 34 инструментами и 19 таблицами бизнес-данных, пишет код, выполняет SQL-запросы и принимает решения о тарифах, рекламе, R&D, инфраструктуре, поддержке и enterprise-продажах. Сложность возникает из-за отложенной отдачи и неполной информации: выручка приходит по биллинговым циклам, R&D занимает дни или недели, удовлетворенность клиентов и чувствительность к цене видны только косвенно, а рынок, конкуренты и предпочтения клиентов меняются по ходу симуляции.

В эксперименте авторы проверили десять моделей, по три запуска для каждой. В лучшем запуске стартовый капитал превысили только Claude Opus 4.8 и GPT-5.5: $27,78 млн и $21,30 млн соответственно. GPT-5.5 при этом обанкротилась в двух из трех запусков; Claude Opus 4.8 завершила все три запуска без банкротства.

Показательный результат дала простая стратегия без вызова языковой модели: фиксированные цены, квоты и уровни продукта, фокус рекламы и разработки на нескольких сегментах и настройка мощности по недавней загрузке. Такой rule-based baseline закончил с $15,76 млн и обошел все модели, кроме Claude Opus 4.8 и GPT-5.5. При этом авторы грубо оценивают верхнюю достижимую границу финального баланса примерно в $2,2 млрд, так что бенчмарк далек от насыщения.

Авторы связывают успешность с умением извлекать скрытую информацию из шумных данных, прогнозировать денежные потоки, замечать действия конкурентов и планировать альтернативные сценарии. Среди ограничений CEO-Bench они указывают, что продукт описан одной числовой метрикой качества, а комплаенс, безопасность и фандрайзинг не включены в симуляцию.

Источник: arxiv.org

Новости IT

28 июня 2026

В CEO-Bench только две ИИ-модели увеличили капитал виртуального стартапа

28 июня 2026

США могут в ближайшие дни разрешить Anthropic вернуть Fable 5

28 июня 2026

Опрос Anthropic: более трети пользователей Claude ждут, что через год ИИ сможет делать 60% и больше их рабочих задач

28 июня 2026

WeiboAI открыла VibeThinker-3B — 3B-модель для проверяемых рассуждений

28 июня 2026

Coinbase сократила расходы на ИИ вдвое за счёт маршрутизации запросов и китайских моделей