В 2025 году, когда большие языковые модели (LLM) активно интегрируются в критически важные бизнес-процессы и государственные структуры, вопросы их безопасности выходят на первый план. Новое исследование, проведенное компанией Anthropic (разработчиком ИИ-модели Claude), показало, что так называемое «отравление» (poisoning) LLM может происходить значительно легче, чем предполагалось ранее. Это открывает новый вектор рисков для кибератак.
Хрупкость обучающих данных и минимальный барьер
Процесс «отравления» заключается во внедрении вредоносных обучающих данных в тренировочный набор модели с целью создания уязвимости типа «черного хода» (backdoor vulnerability). При предъявлении определенной фразы-триггера такая модель начинает выдавать бессмыслицу, дезинформацию или вредоносный код.
ㅤ
Anthropic, известная своим осторожным подходом к безопасности, отмечает, что для успешного внедрения подобной уязвимости может быть достаточно порядка 250 специально сконструированных примеров. Это число существенно снижает порог атаки: подобные действия становятся доступными не только крупным группировкам, но и менее ресурсным злоумышленникам.
Размер модели не гарантирует защиту
Исследование также уточняет выводы ранних теоретических работ, в которых предполагалось, что по мере роста масштаба модели стойкость к «отравлению» должна увеличиваться. Однако результаты Anthropic показали, что более крупные модели не демонстрируют повышенной устойчивости к небольшим целевым внедрениям вредоносных данных. Уязвимость обусловлена особенностями архитектуры LLM и зависимостью от огромных объёмов неоднородных обучающих данных.
Новые требования к аудиту и обороне
Полученные результаты формируют новые требования к контролю качества обучающих выборок. Если ранее проверке подвергались крупные массивы данных, то теперь необходим постоянный мониторинг и анализ даже небольших фрагментов на наличие скрытых паттернов и триггерных последовательностей.
ㅤ
В контексте развития отечественных LLM и их интеграции в критическую информационную инфраструктуру (КИИ), этот вектор угроз требует разработки собственных стандартов безопасности, инструментов аудита и процедур для обнаружения и нейтрализации отравленных выборок. Уязвимость такого типа ставит под сомнение устойчивость моделей и требует своевременного реагирования со стороны всей индустрии.