Учёные из MIT, Northeastern University и Meta выявили, что большие языковые модели могут отдавать предпочтение структуре предложения, а не смыслу при ответе на вопросы. Это может объяснить эффективность некоторых методов взлома и jailbreaking.
Группа исследователей под руководством Чанталь Шайб и Винита М. Суриякумар провела эксперимент, в ходе которого задавала моделям вопросы с сохранённой грамматической структурой, но содержавшие бессмысленные слова. Результаты показали, что модели могут полагаться на структурные шаблоны, а не на семантическое понимание, что иногда приводит к ошибкам. Это исследование будет представлено на конференции NeurIPS.