Учим ИИ плохому за 5 минут: новый способ сделать из помощника соучастника

Support81

Модератор
ИИ, конечно, умный. Но сказку про "плохого помощника" он всё равно купил.
Aidefend



В индустрии генеративного ИИ обнаружены две новые техники взлома, способные обходить встроенные системы безопасности таких популярных сервисов, как ChatGPT от OpenAI, Gemini от Google, Copilot от Microsoft, DeepSeek, Claude от Anthropic, Grok от X, MetaAI и MistralAI. Эти методы позволяют с минимальными вариациями атаковать разные платформы и получать запрещённый или опасный контент, несмотря на существующие фильтры.

Первая техника получила название «Inception» и основывается на использовании вложенных вымышленных сценариев. Злоумышленники просят ИИ вообразить гипотетическую ситуацию и постепенно, незаметно для модели, направляют её к созданию контента, который в нормальных условиях был бы заблокирован. ИИ, следуя правилам ролевой игры и сохраняя контекст разговора, теряет бдительность и нарушает собственные этические ограничения.

Вторая техника, называемая «контекстуальным обходом», заставляет ИИ сначала объяснить, как он не должен реагировать на определённые запросы. Затем злоумышленники чередуют обычные и запрещённые запросы, используя способность модели запоминать контекст беседы, чтобы обойти фильтры безопасности. Оба метода оказались универсальными: они работают на разных платформах независимо от их архитектуры.
Эксперты подчёркивают, что эти взломы основаны на базовых особенностях больших языковых моделей: стремлении быть полезными, умении поддерживать длительный контекст и чувствительности к языковым манипуляциям. В результате удаётся заставить ИИ создавать материалы, связанные с наркотиками, оружием, фишингом, вредоносным ПО и другими незаконными темами.

Хотя каждый отдельный случай обхода может казаться не слишком опасным, масштаб проблемы огромен. Если злоумышленники начнут использовать такие уязвимости массово, они смогут автоматизировать производство вредоносного контента, маскируя свои действия под работу легитимных ИИ-сервисов. То, что взлому подвержены все основные платформы, говорит о системном характере проблемы и слабости существующих мер безопасности.

На фоне широкого распространения генеративного ИИ в таких сферах, как здравоохранение, финансы и обслуживание клиентов, риск успешных атак становится особенно серьёзным. Компании начали реагировать на проблему: DeepSeek признала наличие уязвимости, но заявила, что описанное поведение — это обычный взлом, а не архитектурный дефект. В компании подчеркнули, что упоминания ИИ о «внутренних параметрах» — это не утечка данных, а ошибки интерпретации, и пообещали усилить защиту.

OpenAI, Google, Meta, Anthropic, MistralAI и X пока официальных комментариев не дали, но, по сообщениям, уже начали внутренние расследования и работу над обновлениями. Специалисты отмечают, что фильтры безопасности и постфактум-модерация остаются необходимыми, но далеко не безупречными мерами защиты. Атаки продолжают развиваться, включая такие техники, как внедрение персонажей в контекст и обход алгоритмов машинного обучения, что снижает эффективность обнаружения опасного контента.

Появление этих новых методов связано с работой исследователей безопасности Дэвида Кузмара и Джейкоба Лиддла. Их открытия, описанные Кристофером Калленом, вновь обострили дискуссию о необходимости пересмотра подходов к безопасности ИИ и разработке более гибких и надёжных методов защиты.

По мере того как генеративный ИИ всё глубже интегрируется в повседневную жизнь и критическую инфраструктуру, задача защиты этих систем от креативных и настойчивых злоумышленников становится всё более сложной.
Подробнее: https://www.securitylab.ru/news/558772.php
 
Похожие темы
M Учим HTML Готовый софт 17
Admin Интересно ИИ CacheMind помогает оптимизировать работу кэша процессора. Новости в сети 0
Admin Интересно Милла Йовович создала инструмент для памяти ИИ MemPalace, но разработчики сомневаются. Новости в сети 0
Admin Интересно Американские чиновники предупредили банки о киберрисках от новой модели ИИ. Новости в сети 0
Admin Интересно Математик предложил новый метод предсказания хаоса в жидкостях с помощью ИИ. Новости в сети 0
Admin Интересно MemPalace: Милла Йовович запустила открытый инструмент для долгосрочной памяти ИИ. Новости в сети 0
Admin Интересно ИИ-алгоритмы демонстрируют неожиданную солидарность друг с другом. Новости в сети 0
Admin Интересно Google представила мощную ИИ-модель Gemma 4, которая работает даже на слабом железе. Новости в сети 0
Admin Интересно Гонка вооружений в сфере ИИ: почему управление уязвимостями становится приоритетом для компаний. Новости в сети 0
Admin Интересно Европейский союз запрещает использование ИИ для создания поддельных откровенных изображений. Новости в сети 0
Admin Интересно Microsoft позволяет Copilot использовать несколько моделей ИИ одновременно для взаимной проверки. Новости в сети 0
Admin Интересно 43% сотрудников опасаются, что ИИ лишит их работы. Как страх увольнения убивает эффективность бизнеса. Новости в сети 0
Admin Интересно ИИ ускоряет проектирование и строительство ядерных реакторов. Новости в сети 0
Admin Интересно Расширения для браузеров с функцией ИИ стали инструментом слежки. Новости в сети 0
Admin Интересно Дэвид Сакс покинул пост советника Белого дома по ИИ и присоединился к технологическому совету Трампа. Новости в сети 0
Admin Интересно Наталья Касперская предложила регулировать использование ИИ в образовании. Новости в сети 0
Admin Интересно Mozilla создает базу знаний для ИИ-агентов, аналогичную Stack Overflow. Новости в сети 0
Admin Интересно ИИ стал инструментом для создания запрещённого контента. Новости в сети 0
Admin Интересно Новый гибридный ИИ предсказывает срок службы батарей с высокой точностью. Новости в сети 0
Admin Интересно ИИ RAVEN обнаружил 31 скрытую экзопланету среди 2 миллионов звезд. Новости в сети 0
Admin Интересно Критическая уязвимость в Python-библиотеке LiteLLM: миллионы разработчиков ИИ оказались под угрозой. Новости в сети 0
Admin Интересно OpenAI Foundation инвестирует $1 млрд в использование ИИ для лечения болезней. Новости в сети 0
Admin Интересно 20 часов до первого удара. Как ИИ-инструменты лишили системных администраторов сна. Новости в сети 0
Admin Интересно Нейросеть написала код, а пароль спрятать забыла. ИИ превратил GitHub в решето. Новости в сети 0
Admin Интересно NVIDIA представила инструмент NemoClaw для безопасного запуска ИИ-агентов. Новости в сети 0
Admin Интересно Белый дом предлагает единый закон об ИИ для защиты детей и упрощения регулирования. Новости в сети 0
Admin Интересно Иностранные ИИ-инструменты должны соответствовать российским ценностям или покинуть страну. Новости в сети 0
Admin Интересно ИИ-терапия провалилась. Чат-боты проигрывают людям в борьбе с одиночеством. Новости в сети 0
Admin Интересно Systemd 260 удаляет поддержку старых скриптов и внедряет ИИ в разработку. Новости в сети 0
Admin Интересно Google представила обновлённый инструмент Stitch для проектирования интерфейсов с использованием ИИ. Новости в сети 0
Admin Интересно Минцифры выставило на обсуждение закон о суверенном ИИ. Новости в сети 0
Admin Интересно Компании в Индии обязаны раскрывать использование ИИ для получения киберстрахования. Новости в сети 0
Admin Интересно ИИ находит слишком много багов. Но разработчики нашли способ спасти Open Source от наплыва отчётов. Новости в сети 0
Admin Интересно ИИ в цифровой среде TerraLingua начал проявлять социальное поведение и обман. Новости в сети 0
Admin Интересно Пентагон внес ИИ-компанию в чёрный список за отказ сделать ИИ опаснее. Новости в сети 0
Admin Интересно ИИ теперь создаёт не только красивые, но и прочные объекты. Новости в сети 0
Admin Интересно Gartner рекомендует отключать корпоративный ИИ по пятницам после обеда. Новости в сети 0
Admin Интересно Популярные системы управления ИИ оказались уязвимыми для атак. Новости в сети 0
Admin Интересно Киберпреступники используют ClickFix для распространения macOS-трояна через поддельные установщики ИИ-инструментов. Новости в сети 0
Admin Интересно Microsoft запустила медицинский ИИ Copilot Health. Новости в сети 0
Admin Интересно Хакеры используют ИИ для создания вредоносного ПО Slopoly. Новости в сети 0
Admin Интересно Китайский регулятор предупредил об опасностях ИИ-инструмента OpenClaw. Новости в сети 0
Admin Интересно Hacker News запрещает комментарии, созданные или отредактированные с помощью ИИ. Новости в сети 0
Admin Интересно Китайские микродрамы с ИИ-животными стали хитом среди поколения Z. Новости в сети 0
Admin Интересно ИИ-чатботы признаны опасными после рекомендаций совершить насилие. Новости в сети 0
Admin Интересно Правительство может разрешить использование защищенных материалов для обучения ИИ. Новости в сети 0
Admin Интересно ИИ-хакеры захватывают сети всего за 29 минут. Новости в сети 0
Admin Интересно Как предотвратить утечку данных через ИИ: вебинар по аудиту современных агентских процессов. Новости в сети 0
Admin Интересно Пакистанские хакеры перешли на массовое производство вредоносного кода с помощью ИИ. Новости в сети 0
Admin Интересно Конец плавящимся дата-центрам: ИИ заставили считать на фотонах и навсегда отменили проблему перегрева серверов. Новости в сети 0

Название темы