Учим ИИ плохому за 5 минут: новый способ сделать из помощника соучастника

Support81

Модератор
ИИ, конечно, умный. Но сказку про "плохого помощника" он всё равно купил.
Aidefend



В индустрии генеративного ИИ обнаружены две новые техники взлома, способные обходить встроенные системы безопасности таких популярных сервисов, как ChatGPT от OpenAI, Gemini от Google, Copilot от Microsoft, DeepSeek, Claude от Anthropic, Grok от X, MetaAI и MistralAI. Эти методы позволяют с минимальными вариациями атаковать разные платформы и получать запрещённый или опасный контент, несмотря на существующие фильтры.

Первая техника получила название «Inception» и основывается на использовании вложенных вымышленных сценариев. Злоумышленники просят ИИ вообразить гипотетическую ситуацию и постепенно, незаметно для модели, направляют её к созданию контента, который в нормальных условиях был бы заблокирован. ИИ, следуя правилам ролевой игры и сохраняя контекст разговора, теряет бдительность и нарушает собственные этические ограничения.

Вторая техника, называемая «контекстуальным обходом», заставляет ИИ сначала объяснить, как он не должен реагировать на определённые запросы. Затем злоумышленники чередуют обычные и запрещённые запросы, используя способность модели запоминать контекст беседы, чтобы обойти фильтры безопасности. Оба метода оказались универсальными: они работают на разных платформах независимо от их архитектуры.
Эксперты подчёркивают, что эти взломы основаны на базовых особенностях больших языковых моделей: стремлении быть полезными, умении поддерживать длительный контекст и чувствительности к языковым манипуляциям. В результате удаётся заставить ИИ создавать материалы, связанные с наркотиками, оружием, фишингом, вредоносным ПО и другими незаконными темами.

Хотя каждый отдельный случай обхода может казаться не слишком опасным, масштаб проблемы огромен. Если злоумышленники начнут использовать такие уязвимости массово, они смогут автоматизировать производство вредоносного контента, маскируя свои действия под работу легитимных ИИ-сервисов. То, что взлому подвержены все основные платформы, говорит о системном характере проблемы и слабости существующих мер безопасности.

На фоне широкого распространения генеративного ИИ в таких сферах, как здравоохранение, финансы и обслуживание клиентов, риск успешных атак становится особенно серьёзным. Компании начали реагировать на проблему: DeepSeek признала наличие уязвимости, но заявила, что описанное поведение — это обычный взлом, а не архитектурный дефект. В компании подчеркнули, что упоминания ИИ о «внутренних параметрах» — это не утечка данных, а ошибки интерпретации, и пообещали усилить защиту.

OpenAI, Google, Meta, Anthropic, MistralAI и X пока официальных комментариев не дали, но, по сообщениям, уже начали внутренние расследования и работу над обновлениями. Специалисты отмечают, что фильтры безопасности и постфактум-модерация остаются необходимыми, но далеко не безупречными мерами защиты. Атаки продолжают развиваться, включая такие техники, как внедрение персонажей в контекст и обход алгоритмов машинного обучения, что снижает эффективность обнаружения опасного контента.

Появление этих новых методов связано с работой исследователей безопасности Дэвида Кузмара и Джейкоба Лиддла. Их открытия, описанные Кристофером Калленом, вновь обострили дискуссию о необходимости пересмотра подходов к безопасности ИИ и разработке более гибких и надёжных методов защиты.

По мере того как генеративный ИИ всё глубже интегрируется в повседневную жизнь и критическую инфраструктуру, задача защиты этих систем от креативных и настойчивых злоумышленников становится всё более сложной.
Подробнее: https://www.securitylab.ru/news/558772.php
 
Похожие темы
M Учим HTML Готовый софт 17
Admin Интересно Gartner предупреждает о росте стоимости ИИ-помощников для разработчиков. Новости в сети 0
Admin Интересно ИИ-компании предлагают заменить промпты автоматическими циклами, что увеличит расходы пользователей. Новости в сети 0
Admin Интересно Oracle сократила 21 тысячу сотрудников ради инвестиций в ИИ и дата-центры. Новости в сети 0
Admin Интересно Вирусный тренд помогает обучать ИИ распознавать эмоции. Новости в сети 0
Admin Интересно ИИ-помощники могут выполнять вредоносные команды из поддельных отчётов об ошибках. Новости в сети 0
Admin Интересно Разведслужбы предупреждают о появлении ИИ-моделей для атак на государственные системы. Новости в сети 0
Admin Интересно Музыкальные треки Radiohead и Lady Gaga массово скачивают для обучения ИИ. Новости в сети 0
Admin Интересно Уязвимости устаревшей инфраструктуры угрожают безопасности ИИ-агентов. Новости в сети 0
Admin Интересно ИИ научился создавать белковые оболочки для доставки лекарств. Новости в сети 0
Admin Интересно Microsoft обнаружила уязвимость в AutoGen Studio, позволяющую взламывать компьютеры через ИИ-агента. Новости в сети 0
Admin Интересно ИИ станет главным судьёй на чемпионате мира по футболу 2026 года. Новости в сети 0
Admin Интересно Обнаружено 10 000 вредоносных репозиториев на GitHub, нацеленных на разработчиков и ИИ-агентов. Новости в сети 0
Admin Интересно Учёные предлагают обязать ИИ-компании соблюдать принципы открытого исходного кода. Новости в сети 0
Admin Интересно США ограничили доступ к моделям ИИ Anthropic из-за опасений их использования иностранными военными. Новости в сети 0
Admin Интересно Ошибка в LiteLLM позволяет подменять ответы ИИ на чужой код. Новости в сети 0
Admin Интересно SQL Server 2025: новые функции ИИ стали инструментом для кражи данных. Новости в сети 0
Admin Интересно Китайские хакеры украли данные об обороне и ИИ из лабораторий США и Канады. Новости в сети 0
Admin Интересно Данные из Pokémon Go использовали для обучения навигационного ИИ для военных дронов. Новости в сети 0
Admin Интересно ИИ-алгоритм стал причиной смерти пациентки в Бразилии. Новости в сети 0
Admin Интересно Бунт в прямом эфире. Инженеры Meta сорвали презентацию из-за рутины вокруг ИИ. Новости в сети 0
Admin Интересно Anthropic отключила доступ к своим моделям ИИ для иностранных пользователей по требованию США. Новости в сети 0
Admin Интересно KPMG выпустила отчёт об ИИ, написанный ИИ, и он оказался недостоверным. Новости в сети 0
Admin Интересно Американское правительство приостановило доступ иностранцев к моделям ИИ Fable 5 и Mythos 5. Новости в сети 0
Admin Интересно Учёные создали тест из 1490 рабочих задач для ИИ. Лидеры индустрии справились только с четвертью. Новости в сети 0
Admin Интересно ИИ от Google DeepMind находит слабые места у неизлечимых болезней. Новости в сети 0
Admin Интересно Следствие ведёт Deezer. Сервис научился выискивать ИИ-подделки в чужих музыкальных библиотеках. Новости в сети 0
Admin Интересно Исследователи обнаружили уязвимости в ИИ-агенте OpenClaw. Новости в сети 0
Admin Интересно Более 150 математиков призвали не верить в научные прорывы ИИ. Новости в сети 0
Admin Интересно Эксперт Dell о ИИ: это не магия, а инструмент. Новости в сети 0
Admin Интересно ИИ приблизился к открытию новой физики, но столкнулся с проблемами. Новости в сети 0
Admin Интересно Anthropic выпустила Claude Fable 5 — модель ИИ, ранее считавшуюся слишком рискованной для публичного использования. Новости в сети 0
Admin Интересно Математика больше не для гениев-одиночек — нобелевский лауреат доказал, что ИИ и толпа справляются с задачами быстрее. Новости в сети 0
Admin Интересно Meta будет использовать данные сторонних бизнесов для персонализации ленты и ИИ. Новости в сети 0
Admin Интересно Apple представила масштабное обновление Siri в попытке догнать конкурентов в гонке ИИ. Новости в сети 0
Admin Интересно Идеальный угон. ИИ-помощник Instagram отдал взломщикам 20 тысяч чужих страниц. Новости в сети 0
Admin Интересно ИИ научился играть в аэрохоккей после миллионов виртуальных партий. Новости в сети 0
Admin Интересно Шпаргалка под партой осталась в прошлом — теперь ответ подсказывает ИИ прямо в очках. Новости в сети 0
Admin Интересно Anthropic предлагает остановить разработку мощных ИИ-систем. Новости в сети 0
Admin Интересно Anthropic представила инструмент для оценки рисков использования ИИ. Новости в сети 0
Admin Интересно OWASP выпустил второй отчёт по ИИ-агентам с реальными инцидентами и участием российских специалистов. Новости в сети 0
Admin Интересно Эпоха ИИ-хаоса наступила — CISO, которые не перестроятся, не выживут. Новости в сети 0
Admin Интересно Meta запустила ИИ-советника для авторов Facebook. Новости в сети 0
Admin Интересно ИИ обнаружил 21 уязвимость в FFmpeg, а Chrome исправил рекордные 429 багов. Новости в сети 0
Admin Интересно Новый ИИ-червь атакует сети без участия человека и сам себя размножает. Новости в сети 0
Admin Интересно Нейросеть нарисовала, человек сел. Первые уголовные приговоры за ИИ-порнографию в России. Новости в сети 0
Admin Интересно Anthropic призывает замедлить развитие ИИ перед IPO на триллион долларов. Новости в сети 0
Admin Интересно Google представила Gemma 4 12B — мощную модель ИИ для локального использования. Новости в сети 0
Admin Интересно Скандал в консалтинге: крупная компания отозвала аналитический отчёт из-за скрытых ИИ-галлюцинаций. Новости в сети 0
Admin Интересно Создан ИИ-червь, который распространяется самостоятельно и выбирает цели для атаки. Новости в сети 0

Название темы