Skip to content
  • Categories
  • Recent
  • Tags
  • Popular
  • World
  • Users
  • Groups
Skins
  • Light
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • Default (Cyborg)
  • No Skin
Collapse
Brand Logo

CIRCLE WITH A DOT

  1. Home
  2. Uncategorized
  3. 250 документов ломают любой ИИ:атака, от которой нет защиты

250 документов ломают любой ИИ:атака, от которой нет защиты

Scheduled Pinned Locked Moved Uncategorized
securityбезопасностьllm
6 Posts 2 Posters 9 Views
  • Oldest to Newest
  • Newest to Oldest
  • Most Votes
Reply
  • Reply as topic
Log in to reply
This topic has been deleted. Only users with topic management privileges can see it.
  • wthinker@libranet.deW This user is from outside of this forum
    wthinker@libranet.deW This user is from outside of this forum
    wthinker@libranet.de
    wrote last edited by
    #1

    250 документов ломают любой ИИ:
    атака, от которой нет защиты

    Совместное исследование Anthropic, британского AI Security Institute и Института Алана Тьюринга наделало шума. Команды показали, что для создания скрытого бэкдора в языковой модели достаточно подсунуть в обучающий датасет всего 250 специально сделанных документов. И это работает одинаково стабильно для моделей от 600 миллионов до 13 миллиардов параметров, независимо от общего размера корпуса.

    Отравленные файлы выглядят как абсолютно обычные веб-страницы. Внутри спрятана триггерная фраза. Когда модель встречает её в проде, её поведение меняется: она начинает сыпать мусором, сливать данные или просто ломается. Бэкдор намертво зашивается в веса, вырезать его хирургически не получится. Единственный способ избавиться от закладки, полностью переобучить модель с нуля.

    Цифры, которые пугают сильнее всего. 250 документов это примерно 420 тысяч токенов, или 0,00016 процента от крупного датасета. Сто документов работают нестабильно, но 250 дают надёжный результат. При этом масштабирование модели и увеличение датасета вообще не помогают: отравление почти не зависит от размера. Можно хоть триллион токенов насыпать, атака всё равно пройдёт.

    Для индустрии это приговор текущей парадигме. Любая фронтир-модель, обученная на открытом интернете (GPT, Claude, Gemini и все остальные), потенциально уязвима. Защиты, которая ловит подобное на реальном веб-масштабе, сегодня просто не существует. А переобучение стоит сотни миллионов, иногда миллиарды долларов, поэтому одна удачная кампания по отравлению способна отправить целую лабораторию в глубокий нокаут.

    Что предлагают исследователи и критики подхода скрапить всё подряд. Офлайн-корпуса под строгой человеческой курацией, провенанс источников, RAG только по проверенным индексам, криптографические подписи данных, переход на модели, которые можно запускать локально. Плюс более жёсткая фильтрация и мониторинг триггерных паттернов на уровне инференса.

    Источники:
    блог Anthropic: anthropic.com/research/small-s…
    полная статья на arXiv: arxiv.org/abs/2510.07192

    Анекдот про мужика, стирающего трусы, становится актуален как никогда...
    #AI #LLM #security #ИИ #безопасность

    Link Preview Image
    A small number of samples can poison LLMs of any size

    Anthropic research on data-poisoning attacks in large language models

    favicon

    (www.anthropic.com)

    levieva@infosec.exchangeL 1 Reply Last reply
    0
    • wthinker@libranet.deW wthinker@libranet.de

      250 документов ломают любой ИИ:
      атака, от которой нет защиты

      Совместное исследование Anthropic, британского AI Security Institute и Института Алана Тьюринга наделало шума. Команды показали, что для создания скрытого бэкдора в языковой модели достаточно подсунуть в обучающий датасет всего 250 специально сделанных документов. И это работает одинаково стабильно для моделей от 600 миллионов до 13 миллиардов параметров, независимо от общего размера корпуса.

      Отравленные файлы выглядят как абсолютно обычные веб-страницы. Внутри спрятана триггерная фраза. Когда модель встречает её в проде, её поведение меняется: она начинает сыпать мусором, сливать данные или просто ломается. Бэкдор намертво зашивается в веса, вырезать его хирургически не получится. Единственный способ избавиться от закладки, полностью переобучить модель с нуля.

      Цифры, которые пугают сильнее всего. 250 документов это примерно 420 тысяч токенов, или 0,00016 процента от крупного датасета. Сто документов работают нестабильно, но 250 дают надёжный результат. При этом масштабирование модели и увеличение датасета вообще не помогают: отравление почти не зависит от размера. Можно хоть триллион токенов насыпать, атака всё равно пройдёт.

      Для индустрии это приговор текущей парадигме. Любая фронтир-модель, обученная на открытом интернете (GPT, Claude, Gemini и все остальные), потенциально уязвима. Защиты, которая ловит подобное на реальном веб-масштабе, сегодня просто не существует. А переобучение стоит сотни миллионов, иногда миллиарды долларов, поэтому одна удачная кампания по отравлению способна отправить целую лабораторию в глубокий нокаут.

      Что предлагают исследователи и критики подхода скрапить всё подряд. Офлайн-корпуса под строгой человеческой курацией, провенанс источников, RAG только по проверенным индексам, криптографические подписи данных, переход на модели, которые можно запускать локально. Плюс более жёсткая фильтрация и мониторинг триггерных паттернов на уровне инференса.

      Источники:
      блог Anthropic: anthropic.com/research/small-s…
      полная статья на arXiv: arxiv.org/abs/2510.07192

      Анекдот про мужика, стирающего трусы, становится актуален как никогда...
      #AI #LLM #security #ИИ #безопасность

      Link Preview Image
      A small number of samples can poison LLMs of any size

      Anthropic research on data-poisoning attacks in large language models

      favicon

      (www.anthropic.com)

      levieva@infosec.exchangeL This user is from outside of this forum
      levieva@infosec.exchangeL This user is from outside of this forum
      levieva@infosec.exchange
      wrote last edited by
      #2

      @wthinker Значит скоро все придут к тому, что обучающие данные должны будут иметь цифровую подпись от доверенных источников.

      wthinker@libranet.deW 1 Reply Last reply
      0
      • levieva@infosec.exchangeL levieva@infosec.exchange

        @wthinker Значит скоро все придут к тому, что обучающие данные должны будут иметь цифровую подпись от доверенных источников.

        wthinker@libranet.deW This user is from outside of this forum
        wthinker@libranet.deW This user is from outside of this forum
        wthinker@libranet.de
        wrote last edited by
        #3
        @levieva Похоже, да, грядёт эра небольших моделей, обученных на проверенных источниках. Просто интересно, а какой хрени уже нагребли в существующие модели? 🤔
        levieva@infosec.exchangeL 1 Reply Last reply
        0
        • wthinker@libranet.deW wthinker@libranet.de
          @levieva Похоже, да, грядёт эра небольших моделей, обученных на проверенных источниках. Просто интересно, а какой хрени уже нагребли в существующие модели? 🤔
          levieva@infosec.exchangeL This user is from outside of this forum
          levieva@infosec.exchangeL This user is from outside of this forum
          levieva@infosec.exchange
          wrote last edited by
          #4

          @wthinker
          Это и есть самый очешуительный вопрос для OpenAI и Google. Учитывая, что они годами пылесосили интернет без разбора, там внутри может быть тотальная жопа. Возможно что это уже заметно по странным цензурным перекосам или когда модель внезапно начинает глючить на какие-то темы. Может, какая-то модель выдает предвзятый код потому, что в её датасет подмешали странные примеры из Stack Overflow. Это делает ИИ-индустрию похожей на минное поле: все бегут вперед, надеясь, что именно под их ногой ничего не рванет. Будущее явно за маленькими, стерильно чистыми моделями, где каждый токен на счету. Но ведь и так к тому и шло, намного круче и надёжнее работать с локальной нейросетью, главное чтоб комп тянул.

          wthinker@libranet.deW 1 Reply Last reply
          0
          • levieva@infosec.exchangeL levieva@infosec.exchange

            @wthinker
            Это и есть самый очешуительный вопрос для OpenAI и Google. Учитывая, что они годами пылесосили интернет без разбора, там внутри может быть тотальная жопа. Возможно что это уже заметно по странным цензурным перекосам или когда модель внезапно начинает глючить на какие-то темы. Может, какая-то модель выдает предвзятый код потому, что в её датасет подмешали странные примеры из Stack Overflow. Это делает ИИ-индустрию похожей на минное поле: все бегут вперед, надеясь, что именно под их ногой ничего не рванет. Будущее явно за маленькими, стерильно чистыми моделями, где каждый токен на счету. Но ведь и так к тому и шло, намного круче и надёжнее работать с локальной нейросетью, главное чтоб комп тянул.

            wthinker@libranet.deW This user is from outside of this forum
            wthinker@libranet.deW This user is from outside of this forum
            wthinker@libranet.de
            wrote last edited by
            #5
            @levieva Я уже видел, что проскакивают маленькие целевые модели, которые работают без видюхи и на телефоне. Это самое толковое на мой взгляд. Я когда-то в нулевых ещё ставил свои мини-поисковики, которые скрапили 20-50 целевых вручную вбитых сайтов. И они никогда не выдавали ереси.
            levieva@infosec.exchangeL 1 Reply Last reply
            0
            • wthinker@libranet.deW wthinker@libranet.de
              @levieva Я уже видел, что проскакивают маленькие целевые модели, которые работают без видюхи и на телефоне. Это самое толковое на мой взгляд. Я когда-то в нулевых ещё ставил свои мини-поисковики, которые скрапили 20-50 целевых вручную вбитых сайтов. И они никогда не выдавали ереси.
              levieva@infosec.exchangeL This user is from outside of this forum
              levieva@infosec.exchangeL This user is from outside of this forum
              levieva@infosec.exchange
              wrote last edited by
              #6

              @wthinker Ну да, в целом это круто, но пользователей компов с интеллектом 50 и ниже всё равно больше, а они как раз и есть кормовая база.

              1 Reply Last reply
              1
              0
              • R relay@relay.infosec.exchange shared this topic
              Reply
              • Reply as topic
              Log in to reply
              • Oldest to Newest
              • Newest to Oldest
              • Most Votes


              • Login

              • Login or register to search.
              • First post
                Last post
              0
              • Categories
              • Recent
              • Tags
              • Popular
              • World
              • Users
              • Groups