В 2025 году, когда большие языковые модели (LLM) активно интегрируются в критически важные бизнес-процессы и государственные структуры, вопросы их безопасности выходят на первый план. Новое исследование, проведенное компанией Anthropic (разработчиком ИИ-модели Claude), показало, что так называемое «отравление» (poisoning) LLM может происходить значительно легче, чем предполагалось ранее. Это открывает новый вектор рисков для кибератак.
Хрупкость обучающих данных и минимальный барьер
Процесс «отравления» заключается во внедрении вредоносных обучающих данных в тренировочный набор модели с целью создания уязвимости типа «черного хода» (backdoor vulnerability). При предъявлении определенной фразы-триггера такая модель начинает выдавать бессмыслицу, дезинформацию или вредоносный код.
ㅤ
Anthropic, известная своим осторожным подходом к безопасности, отмечает, что для успешного внедрения подобной уязвимости может быть достаточно порядка 250 специально сконструированных примеров. Это число существенно снижает порог атаки: подобные действия становятся доступными не только крупным группировкам, но и менее ресурсным злоумышленникам.
Размер модели не гарантирует защиту
Исследование также уточняет выводы ранних теоретических работ, в которых предполагалось, что по мере роста масштаба модели стойкость к «отравлению» должна увеличиваться. Однако результаты Anthropic показали, что более крупные модели не демонстрируют повышенной устойчивости к небольшим целевым внедрениям вредоносных данных. Уязвимость обусловлена особенностями архитектуры LLM и зависимостью от огромных объёмов неоднородных обучающих данных.
Новые требования к аудиту и обороне
Полученные результаты формируют новые требования к контролю качества обучающих выборок. Если ранее проверке подвергались крупные массивы данных, то теперь необходим постоянный мониторинг и анализ даже небольших фрагментов на наличие скрытых паттернов и триггерных последовательностей.
ㅤ
В контексте развития отечественных LLM и их интеграции в критическую информационную инфраструктуру (КИИ), этот вектор угроз требует разработки собственных стандартов безопасности, инструментов аудита и процедур для обнаружения и нейтрализации отравленных выборок. Уязвимость такого типа ставит под сомнение устойчивость моделей и требует своевременного реагирования со стороны всей индустрии.
technologies
Инвестиционный ландшафт: российские AI и Big Data стартапы в 2025 году
- Ноя 29, 10:20
-
Максим К.
Российский венчурный рынок ИТ смещается от общего финансирования к сфокусированным инвестициям в глубокие, B2B-ориентированные AI-решения, которые минимизируют геополитические риски и закрывают острейший кадровый дефицит.
Генеративные нейросети и медиа: новая эпоха инструментов, фейков и ответственности
- Ноя 12, 10:36
-
Максим К.
Генеративный искусственный интеллект перестал быть экзотикой. Всего за два года он стал повседневным инструментом редакций, PR-агентств и злоумышленников.
Киберустойчивость в эпоху ИИ: как российский финтех защищается от дипфейк-атак и агентных взломов в 2025 году
- Ноя 7, 17:48
-
Максим К.
В 2025 году российская финансовая индустрия столкнулась с переломным моментом: развитие генеративного искусственного интеллекта (ИИ) и агентных систем, которые финтех активно внедряет для роста, одновременно стало источником самых сложных и масштабируемых киберугроз.
DevEx 2025: революция LLM-инструментов в разработке
- Ноя 6, 14:00
-
Максим К.
2024 и 2025 годы зафиксировали необратимый сдвиг в индустрии разработки: инструменты на базе Large Language Models (LLM), встроенные в среды разработки (IDE) и пайплайны, окончательно перевели фокус с количества написанного кода на качество процесса и скорость поставки.