Artificial Analysis опубликовала первые результаты AgentPerf для инфраструктуры AI-агентов

Artificial Analysis запустила AA-AgentPerf — бенчмарк для оценки аппаратных систем, обслуживающих многошаговые AI-агенты. В первом наборе результатов для DeepSeek V4 Pro (Max) система NVIDIA GB300 NVL72 показала наибольшую емкость; NVIDIA заявляет о преимуществе до 20 раз по числу одновременных агентов на мегаватт по сравнению с H200.

Artificial Analysis опубликовала первые результаты AA-AgentPerf — бенчмарка для оценки аппаратной инфраструктуры, на которой работают AI-агенты. В тесте для модели DeepSeek V4 Pro (Max) стойка NVIDIA GB300 NVL72 заняла верхнюю позицию по числу одновременных агентов, обслуживаемых при заданных ограничениях по скорости генерации и времени до первого токена.

В технической публикации NVIDIA говорится, что GB300 NVL72 обеспечивает до 20 раз больше одновременных агентов на мегаватт мощности ускорителей, чем система на NVIDIA H200. Для уровня SLO с 30 токенами в секунду NVIDIA приводит значения 61,4 тыс. одновременных агентов на мегаватт для GB300 NVL72 и 2,6 тыс. для H200.

AgentPerf ориентирован не на одиночные запросы к LLM, а на многошаговые агентные сценарии: чтение и изменение кода, выполнение команд, использование инструментов и рост контекста по мере выполнения задачи. Тест использует записанные траектории задач из публичных репозиториев на более чем 12 языках программирования; вызовы инструментов при этом не выполняются реально, а моделируются с заданной задержкой, чтобы сравнивать именно производительность ускорителей.

Важное ограничение методики — нормализация «на мегаватт» учитывает измеренную мощность GPU и HBM, но не включает CPU, сеть и охлаждение. Поэтому результаты стоит рассматривать как сравнение эффективности ускорителей в агентных нагрузках, а не как полный расчет энергопотребления дата-центра.

Источник: artificialanalysis.ai

Связь с редакцией