Данные Разработка Безопасность Инфраструктура Курсы и книги

SWE-Explore показал слабое место ИИ-агентов для программирования: поиск нужных строк

CITNews

14.06.2026

Исследователи опубликовали бенчмарк SWE-Explore, который отделяет поиск релевантного кода в репозитории от генерации патча. На 848 задачах из 203 открытых репозиториев современные кодовые агенты хорошо находят нужные файлы, но заметно хуже выделяют конкретные строки, без которых исправление часто не проходит.

В arXiv опубликован препринт SWE-Explore: Benchmarking How Coding Agents Explore Repositories — бенчмарк для оценки того, как ИИ-агенты для программирования исследуют репозиторий до генерации исправления. В отличие от SWE-bench-подобных тестов с итоговым ответом «исправлено/не исправлено», SWE-Explore просит систему вернуть ранжированный список релевантных фрагментов кода при заданном лимите строк.

Набор включает 848 задач из 203 открытых репозиториев на 10 языках программирования. Эталонные строки авторы извлекали из независимых траекторий агентов, которые уже успешно решили ту же задачу: такие траектории показывают, какие участки кода фактически были прочитаны перед рабочим патчем.

Главный результат: агентные поисковые методы заметно лучше классического BM25/TF-IDF и простых retrieval-подходов, но разрыв между уровнем файла и уровнем строк остается большим. По оценке авторов, современные агенты часто быстро попадают в «правильный район» репозитория, однако у универсальных кодовых агентов полнота на уровне строк остается примерно 14–19%, то есть значительная часть нужного контекста не попадает в окно исправления.

Контрольный эксперимент с ограниченным контекстом показал, что нехватка ключевых фрагментов важнее лишнего шума: на более простых задачах доля успешно сгенерированных исправлений резко росла только после того, как модели становилось доступно больше половины ключевых областей. Код и данные проекта опубликованы в репозитории SWE-Explore-Bench.

Источник: arxiv.org

Новости IT

26 июля 2026

На Apple подали в суд из-за поддельного Sparrow Wallet в App Store и потери $1,8 млн

26 июля 2026

Рой ИИ-агентов Cursor написал реализацию SQLite на Rust по одной документации

26 июля 2026

США могут ограничить отдельные китайские ИИ-модели вместо общего запрета

26 июля 2026

Синтезированы первые лантаноидные MXene с полупроводниковыми и ферромагнитными свойствами

26 июля 2026

Claude Opus 5 с Auto Mode отразил все промпт-инъекции в браузерном тесте Anthropic