Учим ИИ плохому за 5 минут: новый способ сделать из помощника соучастника

Support81

Модератор

28.04.2025

ИИ, конечно, умный. Но сказку про "плохого помощника" он всё равно купил.

В индустрии генеративного ИИ обнаружены две новые техники взлома, способные обходить встроенные системы безопасности таких популярных сервисов, как ChatGPT от OpenAI, Gemini от Google, Copilot от Microsoft, DeepSeek, Claude от Anthropic, Grok от X, MetaAI и MistralAI. Эти методы позволяют с минимальными вариациями атаковать разные платформы и получать запрещённый или опасный контент, несмотря на существующие фильтры.

Первая техника получила название «Inception» и основывается на использовании вложенных вымышленных сценариев. Злоумышленники просят ИИ вообразить гипотетическую ситуацию и постепенно, незаметно для модели, направляют её к созданию контента, который в нормальных условиях был бы заблокирован. ИИ, следуя правилам ролевой игры и сохраняя контекст разговора, теряет бдительность и нарушает собственные этические ограничения.

Вторая техника, называемая «контекстуальным обходом», заставляет ИИ сначала объяснить, как он не должен реагировать на определённые запросы. Затем злоумышленники чередуют обычные и запрещённые запросы, используя способность модели запоминать контекст беседы, чтобы обойти фильтры безопасности. Оба метода оказались универсальными: они работают на разных платформах независимо от их архитектуры.
Эксперты подчёркивают, что эти взломы основаны на базовых особенностях больших языковых моделей: стремлении быть полезными, умении поддерживать длительный контекст и чувствительности к языковым манипуляциям. В результате удаётся заставить ИИ создавать материалы, связанные с наркотиками, оружием, фишингом, вредоносным ПО и другими незаконными темами.

Хотя каждый отдельный случай обхода может казаться не слишком опасным, масштаб проблемы огромен. Если злоумышленники начнут использовать такие уязвимости массово, они смогут автоматизировать производство вредоносного контента, маскируя свои действия под работу легитимных ИИ-сервисов. То, что взлому подвержены все основные платформы, говорит о системном характере проблемы и слабости существующих мер безопасности.

На фоне широкого распространения генеративного ИИ в таких сферах, как здравоохранение, финансы и обслуживание клиентов, риск успешных атак становится особенно серьёзным. Компании начали реагировать на проблему: DeepSeek признала наличие уязвимости, но заявила, что описанное поведение — это обычный взлом, а не архитектурный дефект. В компании подчеркнули, что упоминания ИИ о «внутренних параметрах» — это не утечка данных, а ошибки интерпретации, и пообещали усилить защиту.

OpenAI, Google, Meta, Anthropic, MistralAI и X пока официальных комментариев не дали, но, по сообщениям, уже начали внутренние расследования и работу над обновлениями. Специалисты отмечают, что фильтры безопасности и постфактум-модерация остаются необходимыми, но далеко не безупречными мерами защиты. Атаки продолжают развиваться, включая такие техники, как внедрение персонажей в контекст и обход алгоритмов машинного обучения, что снижает эффективность обнаружения опасного контента.

Появление этих новых методов связано с работой исследователей безопасности Дэвида Кузмара и Джейкоба Лиддла. Их открытия, описанные Кристофером Калленом, вновь обострили дискуссию о необходимости пересмотра подходов к безопасности ИИ и разработке более гибких и надёжных методов защиты.

По мере того как генеративный ИИ всё глубже интегрируется в повседневную жизнь и критическую инфраструктуру, задача защиты этих систем от креативных и настойчивых злоумышленников становится всё более сложной.
Подробнее: https://www.securitylab.ru/news/558772.php

M	Учим HTML	Готовый софт	17	11.06.2017
	Интересно Gartner предупреждает о росте стоимости ИИ-помощников для разработчиков.	Новости в сети	0	Сегодня в 18:42
	Интересно ИИ-компании предлагают заменить промпты автоматическими циклами, что увеличит расходы пользователей.	Новости в сети	0	Сегодня в 15:07
	Интересно Oracle сократила 21 тысячу сотрудников ради инвестиций в ИИ и дата-центры.	Новости в сети	0	Вчера в 10:38
	Интересно Вирусный тренд помогает обучать ИИ распознавать эмоции.	Новости в сети	0	Вчера в 01:49
	Интересно ИИ-помощники могут выполнять вредоносные команды из поддельных отчётов об ошибках.	Новости в сети	0	Вторник в 13:40
	Интересно Разведслужбы предупреждают о появлении ИИ-моделей для атак на государственные системы.	Новости в сети	0	Вторник в 11:41
	Интересно Музыкальные треки Radiohead и Lady Gaga массово скачивают для обучения ИИ.	Новости в сети	0	Вторник в 07:35
	Интересно Уязвимости устаревшей инфраструктуры угрожают безопасности ИИ-агентов.	Новости в сети	0	Понедельник в 15:01
	Интересно ИИ научился создавать белковые оболочки для доставки лекарств.	Новости в сети	0	Воскресенье в 20:14
	Интересно Microsoft обнаружила уязвимость в AutoGen Studio, позволяющую взламывать компьютеры через ИИ-агента.	Новости в сети	0	Воскресенье в 14:13
	Интересно ИИ станет главным судьёй на чемпионате мира по футболу 2026 года.	Новости в сети	0	Пятница в 20:09
	Интересно Обнаружено 10 000 вредоносных репозиториев на GitHub, нацеленных на разработчиков и ИИ-агентов.	Новости в сети	0	Пятница в 12:34
	Интересно Учёные предлагают обязать ИИ-компании соблюдать принципы открытого исходного кода.	Новости в сети	0	18.06.2026
	Интересно США ограничили доступ к моделям ИИ Anthropic из-за опасений их использования иностранными военными.	Новости в сети	0	16.06.2026
	Интересно Ошибка в LiteLLM позволяет подменять ответы ИИ на чужой код.	Новости в сети	0	16.06.2026
	Интересно SQL Server 2025: новые функции ИИ стали инструментом для кражи данных.	Новости в сети	0	16.06.2026
	Интересно Китайские хакеры украли данные об обороне и ИИ из лабораторий США и Канады.	Новости в сети	0	15.06.2026
	Интересно Данные из Pokémon Go использовали для обучения навигационного ИИ для военных дронов.	Новости в сети	0	15.06.2026
	Интересно ИИ-алгоритм стал причиной смерти пациентки в Бразилии.	Новости в сети	0	15.06.2026
	Интересно Бунт в прямом эфире. Инженеры Meta сорвали презентацию из-за рутины вокруг ИИ.	Новости в сети	0	15.06.2026
	Интересно Anthropic отключила доступ к своим моделям ИИ для иностранных пользователей по требованию США.	Новости в сети	0	14.06.2026
	Интересно KPMG выпустила отчёт об ИИ, написанный ИИ, и он оказался недостоверным.	Новости в сети	0	14.06.2026
	Интересно Американское правительство приостановило доступ иностранцев к моделям ИИ Fable 5 и Mythos 5.	Новости в сети	0	13.06.2026
	Интересно Учёные создали тест из 1490 рабочих задач для ИИ. Лидеры индустрии справились только с четвертью.	Новости в сети	0	13.06.2026
	Интересно ИИ от Google DeepMind находит слабые места у неизлечимых болезней.	Новости в сети	0	12.06.2026
	Интересно Следствие ведёт Deezer. Сервис научился выискивать ИИ-подделки в чужих музыкальных библиотеках.	Новости в сети	0	12.06.2026
	Интересно Исследователи обнаружили уязвимости в ИИ-агенте OpenClaw.	Новости в сети	0	11.06.2026
	Интересно Более 150 математиков призвали не верить в научные прорывы ИИ.	Новости в сети	0	11.06.2026
	Интересно Эксперт Dell о ИИ: это не магия, а инструмент.	Новости в сети	0	11.06.2026
	Интересно ИИ приблизился к открытию новой физики, но столкнулся с проблемами.	Новости в сети	0	10.06.2026
	Интересно Anthropic выпустила Claude Fable 5 — модель ИИ, ранее считавшуюся слишком рискованной для публичного использования.	Новости в сети	0	10.06.2026
	Интересно Математика больше не для гениев-одиночек — нобелевский лауреат доказал, что ИИ и толпа справляются с задачами быстрее.	Новости в сети	0	09.06.2026
	Интересно Meta будет использовать данные сторонних бизнесов для персонализации ленты и ИИ.	Новости в сети	0	09.06.2026
	Интересно Apple представила масштабное обновление Siri в попытке догнать конкурентов в гонке ИИ.	Новости в сети	0	09.06.2026
	Интересно Идеальный угон. ИИ-помощник Instagram отдал взломщикам 20 тысяч чужих страниц.	Новости в сети	0	09.06.2026
	Интересно ИИ научился играть в аэрохоккей после миллионов виртуальных партий.	Новости в сети	0	09.06.2026
	Интересно Шпаргалка под партой осталась в прошлом — теперь ответ подсказывает ИИ прямо в очках.	Новости в сети	0	08.06.2026
	Интересно Anthropic предлагает остановить разработку мощных ИИ-систем.	Новости в сети	0	08.06.2026
	Интересно Anthropic представила инструмент для оценки рисков использования ИИ.	Новости в сети	0	07.06.2026
	Интересно OWASP выпустил второй отчёт по ИИ-агентам с реальными инцидентами и участием российских специалистов.	Новости в сети	0	06.06.2026
	Интересно Эпоха ИИ-хаоса наступила — CISO, которые не перестроятся, не выживут.	Новости в сети	0	06.06.2026
	Интересно Meta запустила ИИ-советника для авторов Facebook.	Новости в сети	0	06.06.2026
	Интересно ИИ обнаружил 21 уязвимость в FFmpeg, а Chrome исправил рекордные 429 багов.	Новости в сети	0	06.06.2026
	Интересно Новый ИИ-червь атакует сети без участия человека и сам себя размножает.	Новости в сети	0	05.06.2026
	Интересно Нейросеть нарисовала, человек сел. Первые уголовные приговоры за ИИ-порнографию в России.	Новости в сети	0	05.06.2026
	Интересно Anthropic призывает замедлить развитие ИИ перед IPO на триллион долларов.	Новости в сети	0	05.06.2026
	Интересно Google представила Gemma 4 12B — мощную модель ИИ для локального использования.	Новости в сети	0	05.06.2026
	Интересно Скандал в консалтинге: крупная компания отозвала аналитический отчёт из-за скрытых ИИ-галлюцинаций.	Новости в сети	0	04.06.2026
	Интересно Создан ИИ-червь, который распространяется самостоятельно и выбирает цели для атаки.	Новости в сети	0	04.06.2026

Учим ИИ плохому за 5 минут: новый способ сделать из помощника соучастника

Support81

Модератор

Название темы