250 документов ломают любой ИИ:атака, от которой нет защиты
-
250 документов ломают любой ИИ:
атака, от которой нет защитыСовместное исследование Anthropic, британского AI Security Institute и Института Алана Тьюринга наделало шума. Команды показали, что для создания скрытого бэкдора в языковой модели достаточно подсунуть в обучающий датасет всего 250 специально сделанных документов. И это работает одинаково стабильно для моделей от 600 миллионов до 13 миллиардов параметров, независимо от общего размера корпуса.
Отравленные файлы выглядят как абсолютно обычные веб-страницы. Внутри спрятана триггерная фраза. Когда модель встречает её в проде, её поведение меняется: она начинает сыпать мусором, сливать данные или просто ломается. Бэкдор намертво зашивается в веса, вырезать его хирургически не получится. Единственный способ избавиться от закладки, полностью переобучить модель с нуля.
Цифры, которые пугают сильнее всего. 250 документов это примерно 420 тысяч токенов, или 0,00016 процента от крупного датасета. Сто документов работают нестабильно, но 250 дают надёжный результат. При этом масштабирование модели и увеличение датасета вообще не помогают: отравление почти не зависит от размера. Можно хоть триллион токенов насыпать, атака всё равно пройдёт.
Для индустрии это приговор текущей парадигме. Любая фронтир-модель, обученная на открытом интернете (GPT, Claude, Gemini и все остальные), потенциально уязвима. Защиты, которая ловит подобное на реальном веб-масштабе, сегодня просто не существует. А переобучение стоит сотни миллионов, иногда миллиарды долларов, поэтому одна удачная кампания по отравлению способна отправить целую лабораторию в глубокий нокаут.
Что предлагают исследователи и критики подхода скрапить всё подряд. Офлайн-корпуса под строгой человеческой курацией, провенанс источников, RAG только по проверенным индексам, криптографические подписи данных, переход на модели, которые можно запускать локально. Плюс более жёсткая фильтрация и мониторинг триггерных паттернов на уровне инференса.
Источники:
блог Anthropic: anthropic.com/research/small-s…
полная статья на arXiv: arxiv.org/abs/2510.07192Анекдот про мужика, стирающего трусы, становится актуален как никогда...
#AI #LLM #security #ИИ #безопасностьA small number of samples can poison LLMs of any size
Anthropic research on data-poisoning attacks in large language models
(www.anthropic.com)
-
250 документов ломают любой ИИ:
атака, от которой нет защитыСовместное исследование Anthropic, британского AI Security Institute и Института Алана Тьюринга наделало шума. Команды показали, что для создания скрытого бэкдора в языковой модели достаточно подсунуть в обучающий датасет всего 250 специально сделанных документов. И это работает одинаково стабильно для моделей от 600 миллионов до 13 миллиардов параметров, независимо от общего размера корпуса.
Отравленные файлы выглядят как абсолютно обычные веб-страницы. Внутри спрятана триггерная фраза. Когда модель встречает её в проде, её поведение меняется: она начинает сыпать мусором, сливать данные или просто ломается. Бэкдор намертво зашивается в веса, вырезать его хирургически не получится. Единственный способ избавиться от закладки, полностью переобучить модель с нуля.
Цифры, которые пугают сильнее всего. 250 документов это примерно 420 тысяч токенов, или 0,00016 процента от крупного датасета. Сто документов работают нестабильно, но 250 дают надёжный результат. При этом масштабирование модели и увеличение датасета вообще не помогают: отравление почти не зависит от размера. Можно хоть триллион токенов насыпать, атака всё равно пройдёт.
Для индустрии это приговор текущей парадигме. Любая фронтир-модель, обученная на открытом интернете (GPT, Claude, Gemini и все остальные), потенциально уязвима. Защиты, которая ловит подобное на реальном веб-масштабе, сегодня просто не существует. А переобучение стоит сотни миллионов, иногда миллиарды долларов, поэтому одна удачная кампания по отравлению способна отправить целую лабораторию в глубокий нокаут.
Что предлагают исследователи и критики подхода скрапить всё подряд. Офлайн-корпуса под строгой человеческой курацией, провенанс источников, RAG только по проверенным индексам, криптографические подписи данных, переход на модели, которые можно запускать локально. Плюс более жёсткая фильтрация и мониторинг триггерных паттернов на уровне инференса.
Источники:
блог Anthropic: anthropic.com/research/small-s…
полная статья на arXiv: arxiv.org/abs/2510.07192Анекдот про мужика, стирающего трусы, становится актуален как никогда...
#AI #LLM #security #ИИ #безопасностьA small number of samples can poison LLMs of any size
Anthropic research on data-poisoning attacks in large language models
(www.anthropic.com)
@wthinker Значит скоро все придут к тому, что обучающие данные должны будут иметь цифровую подпись от доверенных источников.
-
@wthinker Значит скоро все придут к тому, что обучающие данные должны будут иметь цифровую подпись от доверенных источников.
@levieva Похоже, да, грядёт эра небольших моделей, обученных на проверенных источниках. Просто интересно, а какой хрени уже нагребли в существующие модели?
-
@levieva Похоже, да, грядёт эра небольших моделей, обученных на проверенных источниках. Просто интересно, а какой хрени уже нагребли в существующие модели?

@wthinker
Это и есть самый очешуительный вопрос для OpenAI и Google. Учитывая, что они годами пылесосили интернет без разбора, там внутри может быть тотальная жопа. Возможно что это уже заметно по странным цензурным перекосам или когда модель внезапно начинает глючить на какие-то темы. Может, какая-то модель выдает предвзятый код потому, что в её датасет подмешали странные примеры из Stack Overflow. Это делает ИИ-индустрию похожей на минное поле: все бегут вперед, надеясь, что именно под их ногой ничего не рванет. Будущее явно за маленькими, стерильно чистыми моделями, где каждый токен на счету. Но ведь и так к тому и шло, намного круче и надёжнее работать с локальной нейросетью, главное чтоб комп тянул. -
@wthinker
Это и есть самый очешуительный вопрос для OpenAI и Google. Учитывая, что они годами пылесосили интернет без разбора, там внутри может быть тотальная жопа. Возможно что это уже заметно по странным цензурным перекосам или когда модель внезапно начинает глючить на какие-то темы. Может, какая-то модель выдает предвзятый код потому, что в её датасет подмешали странные примеры из Stack Overflow. Это делает ИИ-индустрию похожей на минное поле: все бегут вперед, надеясь, что именно под их ногой ничего не рванет. Будущее явно за маленькими, стерильно чистыми моделями, где каждый токен на счету. Но ведь и так к тому и шло, намного круче и надёжнее работать с локальной нейросетью, главное чтоб комп тянул.@levieva Я уже видел, что проскакивают маленькие целевые модели, которые работают без видюхи и на телефоне. Это самое толковое на мой взгляд. Я когда-то в нулевых ещё ставил свои мини-поисковики, которые скрапили 20-50 целевых вручную вбитых сайтов. И они никогда не выдавали ереси. -
@levieva Я уже видел, что проскакивают маленькие целевые модели, которые работают без видюхи и на телефоне. Это самое толковое на мой взгляд. Я когда-то в нулевых ещё ставил свои мини-поисковики, которые скрапили 20-50 целевых вручную вбитых сайтов. И они никогда не выдавали ереси.
@wthinker Ну да, в целом это круто, но пользователей компов с интеллектом 50 и ниже всё равно больше, а они как раз и есть кормовая база.
-
R relay@relay.infosec.exchange shared this topic