14.06.2026
Исследователи опубликовали бенчмарк SWE-Explore, который отделяет поиск релевантного кода в репозитории от генерации патча. На 848 задачах из 203 открытых репозиториев современные кодовые агенты хорошо находят нужные файлы, но заметно хуже выделяют конкретные строки, без которых исправление часто не проходит.
В arXiv опубликован препринт SWE-Explore: Benchmarking How Coding Agents Explore Repositories — бенчмарк для оценки того, как ИИ-агенты для программирования исследуют репозиторий до генерации исправления. В отличие от SWE-bench-подобных тестов с итоговым ответом «исправлено/не исправлено», SWE-Explore просит систему вернуть ранжированный список релевантных фрагментов кода при заданном лимите строк.
Набор включает 848 задач из 203 открытых репозиториев на 10 языках программирования. Эталонные строки авторы извлекали из независимых траекторий агентов, которые уже успешно решили ту же задачу: такие траектории показывают, какие участки кода фактически были прочитаны перед рабочим патчем.
Главный результат: агентные поисковые методы заметно лучше классического BM25/TF-IDF и простых retrieval-подходов, но разрыв между уровнем файла и уровнем строк остается большим. По оценке авторов, современные агенты часто быстро попадают в «правильный район» репозитория, однако у универсальных кодовых агентов полнота на уровне строк остается примерно 14–19%, то есть значительная часть нужного контекста не попадает в окно исправления.
Контрольный эксперимент с ограниченным контекстом показал, что нехватка ключевых фрагментов важнее лишнего шума: на более простых задачах доля успешно сгенерированных исправлений резко росла только после того, как модели становилось доступно больше половины ключевых областей. Код и данные проекта опубликованы в репозитории SWE-Explore-Bench.
Источник: arxiv.org