28.06.2026
Исследователи Принстонского университета предложили CEO-Bench — симуляцию управления SaaS-стартапом на 500 дней через Python API и бизнес-базу данных. В лучшем запуске выше стартового капитала в $1 млн вышли только Claude Opus 4.8 и GPT-5.5; простая rule-based стратегия без LLM заработала $15,76 млн.
Исследователи Принстонского университета опубликовали препринт о CEO-Bench — бенчмарке для проверки способности ИИ-агентов вести долгосрочную стратегию, а не только выполнять короткие задачи. В симуляции агент управляет вымышленной подписочной софтверной компанией NovaMind в течение 500 дней: стартует с нулем клиентов и $1 млн на счете, а банкротство наступает, если баланс хотя бы раз уходит ниже нуля.
Управление сделано как программируемая среда: агент работает через Python-интерфейс с 34 инструментами и 19 таблицами бизнес-данных, пишет код, выполняет SQL-запросы и принимает решения о тарифах, рекламе, R&D, инфраструктуре, поддержке и enterprise-продажах. Сложность возникает из-за отложенной отдачи и неполной информации: выручка приходит по биллинговым циклам, R&D занимает дни или недели, удовлетворенность клиентов и чувствительность к цене видны только косвенно, а рынок, конкуренты и предпочтения клиентов меняются по ходу симуляции.
В эксперименте авторы проверили десять моделей, по три запуска для каждой. В лучшем запуске стартовый капитал превысили только Claude Opus 4.8 и GPT-5.5: $27,78 млн и $21,30 млн соответственно. GPT-5.5 при этом обанкротилась в двух из трех запусков; Claude Opus 4.8 завершила все три запуска без банкротства.
Показательный результат дала простая стратегия без вызова языковой модели: фиксированные цены, квоты и уровни продукта, фокус рекламы и разработки на нескольких сегментах и настройка мощности по недавней загрузке. Такой rule-based baseline закончил с $15,76 млн и обошел все модели, кроме Claude Opus 4.8 и GPT-5.5. При этом авторы грубо оценивают верхнюю достижимую границу финального баланса примерно в $2,2 млрд, так что бенчмарк далек от насыщения.
Авторы связывают успешность с умением извлекать скрытую информацию из шумных данных, прогнозировать денежные потоки, замечать действия конкурентов и планировать альтернативные сценарии. Среди ограничений CEO-Bench они указывают, что продукт описан одной числовой метрикой качества, а комплаенс, безопасность и фандрайзинг не включены в симуляцию.
Источник: arxiv.org