Учим ИИ плохому за 5 минут: новый способ сделать из помощника соучастника

Support81

Модератор

28.04.2025

ИИ, конечно, умный. Но сказку про "плохого помощника" он всё равно купил.

В индустрии генеративного ИИ обнаружены две новые техники взлома, способные обходить встроенные системы безопасности таких популярных сервисов, как ChatGPT от OpenAI, Gemini от Google, Copilot от Microsoft, DeepSeek, Claude от Anthropic, Grok от X, MetaAI и MistralAI. Эти методы позволяют с минимальными вариациями атаковать разные платформы и получать запрещённый или опасный контент, несмотря на существующие фильтры.

Первая техника получила название «Inception» и основывается на использовании вложенных вымышленных сценариев. Злоумышленники просят ИИ вообразить гипотетическую ситуацию и постепенно, незаметно для модели, направляют её к созданию контента, который в нормальных условиях был бы заблокирован. ИИ, следуя правилам ролевой игры и сохраняя контекст разговора, теряет бдительность и нарушает собственные этические ограничения.

Вторая техника, называемая «контекстуальным обходом», заставляет ИИ сначала объяснить, как он не должен реагировать на определённые запросы. Затем злоумышленники чередуют обычные и запрещённые запросы, используя способность модели запоминать контекст беседы, чтобы обойти фильтры безопасности. Оба метода оказались универсальными: они работают на разных платформах независимо от их архитектуры.
Эксперты подчёркивают, что эти взломы основаны на базовых особенностях больших языковых моделей: стремлении быть полезными, умении поддерживать длительный контекст и чувствительности к языковым манипуляциям. В результате удаётся заставить ИИ создавать материалы, связанные с наркотиками, оружием, фишингом, вредоносным ПО и другими незаконными темами.

Хотя каждый отдельный случай обхода может казаться не слишком опасным, масштаб проблемы огромен. Если злоумышленники начнут использовать такие уязвимости массово, они смогут автоматизировать производство вредоносного контента, маскируя свои действия под работу легитимных ИИ-сервисов. То, что взлому подвержены все основные платформы, говорит о системном характере проблемы и слабости существующих мер безопасности.

На фоне широкого распространения генеративного ИИ в таких сферах, как здравоохранение, финансы и обслуживание клиентов, риск успешных атак становится особенно серьёзным. Компании начали реагировать на проблему: DeepSeek признала наличие уязвимости, но заявила, что описанное поведение — это обычный взлом, а не архитектурный дефект. В компании подчеркнули, что упоминания ИИ о «внутренних параметрах» — это не утечка данных, а ошибки интерпретации, и пообещали усилить защиту.

OpenAI, Google, Meta, Anthropic, MistralAI и X пока официальных комментариев не дали, но, по сообщениям, уже начали внутренние расследования и работу над обновлениями. Специалисты отмечают, что фильтры безопасности и постфактум-модерация остаются необходимыми, но далеко не безупречными мерами защиты. Атаки продолжают развиваться, включая такие техники, как внедрение персонажей в контекст и обход алгоритмов машинного обучения, что снижает эффективность обнаружения опасного контента.

Появление этих новых методов связано с работой исследователей безопасности Дэвида Кузмара и Джейкоба Лиддла. Их открытия, описанные Кристофером Калленом, вновь обострили дискуссию о необходимости пересмотра подходов к безопасности ИИ и разработке более гибких и надёжных методов защиты.

По мере того как генеративный ИИ всё глубже интегрируется в повседневную жизнь и критическую инфраструктуру, задача защиты этих систем от креативных и настойчивых злоумышленников становится всё более сложной.
Подробнее: https://www.securitylab.ru/news/558772.php

M	Учим HTML	Готовый софт	17	11.06.2017
	Интересно ИИ CacheMind помогает оптимизировать работу кэша процессора.	Новости в сети	0	Вчера в 19:39
	Интересно Милла Йовович создала инструмент для памяти ИИ MemPalace, но разработчики сомневаются.	Новости в сети	0	Понедельник в 16:56
	Интересно Американские чиновники предупредили банки о киберрисках от новой модели ИИ.	Новости в сети	0	Суббота в 11:47
	Интересно Математик предложил новый метод предсказания хаоса в жидкостях с помощью ИИ.	Новости в сети	0	10.04.2026
	Интересно MemPalace: Милла Йовович запустила открытый инструмент для долгосрочной памяти ИИ.	Новости в сети	0	10.04.2026
	Интересно ИИ-алгоритмы демонстрируют неожиданную солидарность друг с другом.	Новости в сети	0	04.04.2026
	Интересно Google представила мощную ИИ-модель Gemma 4, которая работает даже на слабом железе.	Новости в сети	0	02.04.2026
	Интересно Гонка вооружений в сфере ИИ: почему управление уязвимостями становится приоритетом для компаний.	Новости в сети	0	31.03.2026
	Интересно Европейский союз запрещает использование ИИ для создания поддельных откровенных изображений.	Новости в сети	0	31.03.2026
	Интересно Microsoft позволяет Copilot использовать несколько моделей ИИ одновременно для взаимной проверки.	Новости в сети	0	30.03.2026
	Интересно 43% сотрудников опасаются, что ИИ лишит их работы. Как страх увольнения убивает эффективность бизнеса.	Новости в сети	0	27.03.2026
	Интересно ИИ ускоряет проектирование и строительство ядерных реакторов.	Новости в сети	0	27.03.2026
	Интересно Расширения для браузеров с функцией ИИ стали инструментом слежки.	Новости в сети	0	27.03.2026
	Интересно Дэвид Сакс покинул пост советника Белого дома по ИИ и присоединился к технологическому совету Трампа.	Новости в сети	0	27.03.2026
	Интересно Наталья Касперская предложила регулировать использование ИИ в образовании.	Новости в сети	0	26.03.2026
	Интересно Mozilla создает базу знаний для ИИ-агентов, аналогичную Stack Overflow.	Новости в сети	0	26.03.2026
	Интересно ИИ стал инструментом для создания запрещённого контента.	Новости в сети	0	26.03.2026
	Интересно Новый гибридный ИИ предсказывает срок службы батарей с высокой точностью.	Новости в сети	0	26.03.2026
	Интересно ИИ RAVEN обнаружил 31 скрытую экзопланету среди 2 миллионов звезд.	Новости в сети	0	25.03.2026
	Интересно Критическая уязвимость в Python-библиотеке LiteLLM: миллионы разработчиков ИИ оказались под угрозой.	Новости в сети	0	25.03.2026
	Интересно OpenAI Foundation инвестирует $1 млрд в использование ИИ для лечения болезней.	Новости в сети	0	25.03.2026
	Интересно 20 часов до первого удара. Как ИИ-инструменты лишили системных администраторов сна.	Новости в сети	0	24.03.2026
	Интересно Нейросеть написала код, а пароль спрятать забыла. ИИ превратил GitHub в решето.	Новости в сети	0	22.03.2026
	Интересно NVIDIA представила инструмент NemoClaw для безопасного запуска ИИ-агентов.	Новости в сети	0	22.03.2026
	Интересно Белый дом предлагает единый закон об ИИ для защиты детей и упрощения регулирования.	Новости в сети	0	21.03.2026
	Интересно Иностранные ИИ-инструменты должны соответствовать российским ценностям или покинуть страну.	Новости в сети	0	20.03.2026
	Интересно ИИ-терапия провалилась. Чат-боты проигрывают людям в борьбе с одиночеством.	Новости в сети	0	20.03.2026
	Интересно Systemd 260 удаляет поддержку старых скриптов и внедряет ИИ в разработку.	Новости в сети	0	20.03.2026
	Интересно Google представила обновлённый инструмент Stitch для проектирования интерфейсов с использованием ИИ.	Новости в сети	0	20.03.2026
	Интересно Минцифры выставило на обсуждение закон о суверенном ИИ.	Новости в сети	0	19.03.2026
	Интересно Компании в Индии обязаны раскрывать использование ИИ для получения киберстрахования.	Новости в сети	0	19.03.2026
	Интересно ИИ находит слишком много багов. Но разработчики нашли способ спасти Open Source от наплыва отчётов.	Новости в сети	0	19.03.2026
	Интересно ИИ в цифровой среде TerraLingua начал проявлять социальное поведение и обман.	Новости в сети	0	19.03.2026
	Интересно Пентагон внес ИИ-компанию в чёрный список за отказ сделать ИИ опаснее.	Новости в сети	0	19.03.2026
	Интересно ИИ теперь создаёт не только красивые, но и прочные объекты.	Новости в сети	0	18.03.2026
	Интересно Gartner рекомендует отключать корпоративный ИИ по пятницам после обеда.	Новости в сети	0	18.03.2026
	Интересно Популярные системы управления ИИ оказались уязвимыми для атак.	Новости в сети	0	18.03.2026
	Интересно Киберпреступники используют ClickFix для распространения macOS-трояна через поддельные установщики ИИ-инструментов.	Новости в сети	0	16.03.2026
	Интересно Microsoft запустила медицинский ИИ Copilot Health.	Новости в сети	0	13.03.2026
	Интересно Хакеры используют ИИ для создания вредоносного ПО Slopoly.	Новости в сети	0	12.03.2026
	Интересно Китайский регулятор предупредил об опасностях ИИ-инструмента OpenClaw.	Новости в сети	0	12.03.2026
	Интересно Hacker News запрещает комментарии, созданные или отредактированные с помощью ИИ.	Новости в сети	0	12.03.2026
	Интересно Китайские микродрамы с ИИ-животными стали хитом среди поколения Z.	Новости в сети	0	12.03.2026
	Интересно ИИ-чатботы признаны опасными после рекомендаций совершить насилие.	Новости в сети	0	12.03.2026
	Интересно Правительство может разрешить использование защищенных материалов для обучения ИИ.	Новости в сети	0	12.03.2026
	Интересно ИИ-хакеры захватывают сети всего за 29 минут.	Новости в сети	0	12.03.2026
	Интересно Как предотвратить утечку данных через ИИ: вебинар по аудиту современных агентских процессов.	Новости в сети	0	10.03.2026
	Интересно Пакистанские хакеры перешли на массовое производство вредоносного кода с помощью ИИ.	Новости в сети	0	10.03.2026
	Интересно Конец плавящимся дата-центрам: ИИ заставили считать на фотонах и навсегда отменили проблему перегрева серверов.	Новости в сети	0	10.03.2026

Учим ИИ плохому за 5 минут: новый способ сделать из помощника соучастника

Support81

Модератор

Название темы