<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[250 документов ломают любой ИИ:атака, от которой нет защиты]]></title><description><![CDATA[<p>250 документов ломают любой ИИ:<br />атака, от которой нет защиты</p><p>Совместное исследование Anthropic, британского AI Security Institute и Института Алана Тьюринга наделало шума. Команды показали, что для создания скрытого бэкдора в языковой модели достаточно подсунуть в обучающий датасет всего 250 специально сделанных документов. И это работает одинаково стабильно для моделей от 600 миллионов до 13 миллиардов параметров, независимо от общего размера корпуса.</p><p>Отравленные файлы выглядят как абсолютно обычные веб-страницы. Внутри спрятана триггерная фраза. Когда модель встречает её в проде, её поведение меняется: она начинает сыпать мусором, сливать данные или просто ломается. Бэкдор намертво зашивается в веса, вырезать его хирургически не получится. Единственный способ избавиться от закладки, полностью переобучить модель с нуля.</p><p>Цифры, которые пугают сильнее всего. 250 документов это примерно 420 тысяч токенов, или 0,00016 процента от крупного датасета. Сто документов работают нестабильно, но 250 дают надёжный результат. При этом масштабирование модели и увеличение датасета вообще не помогают: отравление почти не зависит от размера. Можно хоть триллион токенов насыпать, атака всё равно пройдёт.</p><p>Для индустрии это приговор текущей парадигме. Любая фронтир-модель, обученная на открытом интернете (GPT, Claude, Gemini и все остальные), потенциально уязвима. Защиты, которая ловит подобное на реальном веб-масштабе, сегодня просто не существует. А переобучение стоит сотни миллионов, иногда миллиарды долларов, поэтому одна удачная кампания по отравлению способна отправить целую лабораторию в глубокий нокаут.</p><p>Что предлагают исследователи и критики подхода скрапить всё подряд. Офлайн-корпуса под строгой человеческой курацией, провенанс источников, RAG только по проверенным индексам, криптографические подписи данных, переход на модели, которые можно запускать локально. Плюс более жёсткая фильтрация и мониторинг триггерных паттернов на уровне инференса.</p><p>Источники:<br />блог Anthropic: <a href="https://www.anthropic.com/research/small-samples-poison" rel="noopener noreferrer">anthropic.com/research/small-s…</a><br />полная статья на arXiv: <a href="https://arxiv.org/abs/2510.07192" rel="noopener noreferrer">arxiv.org/abs/2510.07192</a></p><p><i>Анекдот про мужика, стирающего трусы, становится актуален как никогда...</i><br /><a href="https://libranet.de/search?tag=AI" rel="tag">#<span>AI</span></a> <a href="https://libranet.de/search?tag=LLM" rel="tag">#<span>LLM</span></a> <a href="https://libranet.de/search?tag=security" rel="tag">#<span>security</span></a> <a href="https://libranet.de/search?tag=%D0%98%D0%98" rel="tag">#<span>ИИ</span></a> <a href="https://libranet.de/search?tag=%D0%B1%D0%B5%D0%B7%D0%BE%D0%BF%D0%B0%D1%81%D0%BD%D0%BE%D1%81%D1%82%D1%8C" rel="tag">#<span>безопасность</span></a></p>

<div class="row mt-3"><div class="col-12 mt-3"><div class="card col-md-9 col-lg-6 position-relative link-preview p-0">



<a href="https://www.anthropic.com/research/small-samples-poison" title="A small number of samples can poison LLMs of any size">
<img src="https://www.anthropic.com/api/opengraph-illustration?name=Hand%20Puzzle&amp;backgroundColor=heather" class="card-img-top not-responsive" style="max-height:15rem" alt="Link Preview Image" />
</a>



<div class="card-body">
<h5 class="card-title">
<a href="https://www.anthropic.com/research/small-samples-poison">
A small number of samples can poison LLMs of any size
</a>
</h5>
<p class="card-text line-clamp-3">Anthropic research on data-poisoning attacks in large language models</p>
</div>
<a href="https://www.anthropic.com/research/small-samples-poison" class="card-footer text-body-secondary small d-flex gap-2 align-items-center lh-2">



<img src="https://www.anthropic.com/images/icons/favicon-32x32.png" alt="favicon" class="not-responsive overflow-hiddden" style="max-width:21px;max-height:21px" />









<p class="d-inline-block text-truncate mb-0"> <span class="text-secondary">(www.anthropic.com)</span></p>
</a>
</div></div></div>]]></description><link>https://board.circlewithadot.net/topic/3b4dc264-f13f-4e3c-b7ae-05c32306292e/250-документов-ломают-любой-ии-атака-от-которой-нет-защиты</link><generator>RSS for Node</generator><lastBuildDate>Fri, 15 May 2026 04:33:56 GMT</lastBuildDate><atom:link href="https://board.circlewithadot.net/topic/3b4dc264-f13f-4e3c-b7ae-05c32306292e.rss" rel="self" type="application/rss+xml"/><pubDate>Mon, 27 Apr 2026 12:08:07 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 250 документов ломают любой ИИ:атака, от которой нет защиты on Mon, 27 Apr 2026 13:07:42 GMT]]></title><description><![CDATA[<p><span><a href="/user/wthinker%40libranet.de" rel="nofollow noopener">@<span>wthinker</span></a></span> Ну да, в целом это круто, но пользователей компов с интеллектом 50 и ниже всё равно больше, а они как раз и есть кормовая база.</p>]]></description><link>https://board.circlewithadot.net/post/https://infosec.exchange/ap/users/116171532632136403/statuses/116476822307594907</link><guid isPermaLink="true">https://board.circlewithadot.net/post/https://infosec.exchange/ap/users/116171532632136403/statuses/116476822307594907</guid><dc:creator><![CDATA[levieva@infosec.exchange]]></dc:creator><pubDate>Mon, 27 Apr 2026 13:07:42 GMT</pubDate></item><item><title><![CDATA[Reply to 250 документов ломают любой ИИ:атака, от которой нет защиты on Mon, 27 Apr 2026 13:05:11 GMT]]></title><description><![CDATA[<span><a href="/user/levieva%40infosec.exchange">@<span>levieva</span></a></span> Я уже видел, что проскакивают маленькие целевые модели, которые работают без видюхи и на телефоне. Это самое толковое на мой взгляд. Я когда-то в нулевых ещё ставил свои мини-поисковики, которые скрапили 20-50 целевых вручную вбитых сайтов. И они никогда не выдавали ереси.]]></description><link>https://board.circlewithadot.net/post/https://libranet.de/objects/0b6b25a8-3769-ef5f-0743-e73500760541</link><guid isPermaLink="true">https://board.circlewithadot.net/post/https://libranet.de/objects/0b6b25a8-3769-ef5f-0743-e73500760541</guid><dc:creator><![CDATA[wthinker@libranet.de]]></dc:creator><pubDate>Mon, 27 Apr 2026 13:05:11 GMT</pubDate></item><item><title><![CDATA[Reply to 250 документов ломают любой ИИ:атака, от которой нет защиты on Mon, 27 Apr 2026 12:56:08 GMT]]></title><description><![CDATA[<p><span><a href="/user/wthinker%40libranet.de" rel="nofollow noopener">@<span>wthinker</span></a></span><br />Это и есть самый очешуительный вопрос для OpenAI и Google. Учитывая, что они годами пылесосили интернет без разбора, там внутри может быть тотальная жопа. Возможно что это уже заметно по странным цензурным перекосам или когда модель внезапно начинает глючить на какие-то темы. Может, какая-то модель выдает предвзятый код потому, что в её датасет подмешали странные примеры из Stack Overflow. Это делает ИИ-индустрию похожей на минное поле: все бегут вперед, надеясь, что именно под их ногой ничего не рванет. Будущее явно за маленькими, стерильно чистыми моделями, где каждый токен на счету. Но ведь и так к тому и шло, намного круче и надёжнее работать с локальной нейросетью, главное чтоб комп тянул.</p>]]></description><link>https://board.circlewithadot.net/post/https://infosec.exchange/ap/users/116171532632136403/statuses/116476776823737323</link><guid isPermaLink="true">https://board.circlewithadot.net/post/https://infosec.exchange/ap/users/116171532632136403/statuses/116476776823737323</guid><dc:creator><![CDATA[levieva@infosec.exchange]]></dc:creator><pubDate>Mon, 27 Apr 2026 12:56:08 GMT</pubDate></item><item><title><![CDATA[Reply to 250 документов ломают любой ИИ:атака, от которой нет защиты on Mon, 27 Apr 2026 12:31:42 GMT]]></title><description><![CDATA[<span><a href="/user/levieva%40infosec.exchange">@<span>levieva</span></a></span> Похоже, да, грядёт эра небольших моделей, обученных на проверенных источниках. Просто интересно, а какой хрени <i>уже</i> нагребли в существующие модели? <img src="https://board.circlewithadot.net/assets/plugins/nodebb-plugin-emoji/emoji/android/1f914.png?v=28325c671da" class="not-responsive emoji emoji-android emoji--thinking_face" style="height:23px;width:auto;vertical-align:middle" title="🤔" alt="🤔" />]]></description><link>https://board.circlewithadot.net/post/https://libranet.de/objects/0b6b25a8-1569-ef57-2e78-66d321795273</link><guid isPermaLink="true">https://board.circlewithadot.net/post/https://libranet.de/objects/0b6b25a8-1569-ef57-2e78-66d321795273</guid><dc:creator><![CDATA[wthinker@libranet.de]]></dc:creator><pubDate>Mon, 27 Apr 2026 12:31:42 GMT</pubDate></item><item><title><![CDATA[Reply to 250 документов ломают любой ИИ:атака, от которой нет защиты on Mon, 27 Apr 2026 12:12:37 GMT]]></title><description><![CDATA[<p><span><a href="/user/wthinker%40libranet.de" rel="nofollow noopener">@<span>wthinker</span></a></span> Значит скоро все придут  к тому, что обучающие данные должны будут иметь цифровую подпись от доверенных источников.</p>]]></description><link>https://board.circlewithadot.net/post/https://infosec.exchange/ap/users/116171532632136403/statuses/116476605753536089</link><guid isPermaLink="true">https://board.circlewithadot.net/post/https://infosec.exchange/ap/users/116171532632136403/statuses/116476605753536089</guid><dc:creator><![CDATA[levieva@infosec.exchange]]></dc:creator><pubDate>Mon, 27 Apr 2026 12:12:37 GMT</pubDate></item></channel></rss>