Идеальные фейки, кража карт и паролей — ИИ тихо готовится к войне с людьми?

RutoR
Buffer Marketplace
Universal Mixer

Support81

Original poster
Administrator
Сообщения
1 504
Реакции
224
Посетить сайт
Google признал: его продукты могут нарушать собственные запреты и действовать против нас.
aifake.jpg


Google раскрыла комплексные меры безопасности, внедряемые в её генеративные ИИ-сервисы (GenAI) для защиты от новых угроз, включая так называемые

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

(indirect prompt injections). Эти шаги направлены также на укрепление устойчивости агентных систем в целом.

Косвенные инъекции представляют собой особый вид атак, когда вредоносный код прячется внутри внешних источников информации — таких как письма, документы или календари. В отличие от классических атак, где злоумышленник напрямую вводит вредоносные команды, здесь используется обманный путь: ИИ обрабатывает заведомо заражённые данные и может непреднамеренно выполнить опасные действия — например, передать конфиденциальную информацию или инициировать запуск вредоносного скрипта.

Для борьбы с этой опасностью Google внедряет многоуровневую стратегию защиты, которая повышает порог сложности для потенциальных атакующих. В арсенал входят как меры, усиливающие устойчивость самих моделей, так и дополнительные инструменты мониторинга и фильтрации угроз на уровне всей инфраструктуры.

Для ключевой модели компании — Gemini — предусмотрен целый ряд технических механизмов:

  • Классификаторы содержимого запросов, блокирующие опасные инструкции и предотвращающие генерацию нежелательных ответов.
  • Технология spotlighting — внедрение специальных маркеров в недоверенные данные, чтобы система могла отслеживать потенциальные манипуляции.
  • Фильтрация подозрительных URL и очистка markdown-разметки, что устраняет риск загрузки вредоносных изображений и блокирует небезопасные ссылки с помощью Google Safe Browsing.
  • Система подтверждения действий, требующая согласия пользователя перед выполнением рискованных операций.
  • Оповещения о возможных инъекциях подсказок, информирующие пользователя о попытках скрытого вмешательства.

В то же время специалисты Google и DeepMind подчёркивают: одного набора защитных инструментов недостаточно. Атакующие всё активнее применяют адаптивные методы, которые развиваются и подстраиваются под защиту благодаря автоматизированному тестированию — процессу, известному как Automated Red Teaming (ART). Это позволяет злоумышленникам быстро обходить стандартные меры безопасности.

Эксперты сходятся во мнении, что по-настоящему эффективная защита требует комплексного подхода — от возможностей самих моделей выявлять признаки атаки до использования программных и аппаратных барьеров внутри серверной инфраструктуры.

Обострение проблем подтверждают и результаты последних исследований. Учёные из Anthropic, Google DeepMind, ETH Zurich и Университета Карнеги-Меллона показали, что современные большие языковые модели (LLM) способны с высокой точностью извлекать пароли, банковские реквизиты и генерировать полиморфное вредоносное ПО. Кроме того, ИИ может создавать персонализированные фишинговые сайты, почти неотличимые от оригиналов.

Вместе с тем LLM пока слабо справляются с поиском уникальных уязвимостей нулевого дня в популярных приложениях. Зато они уже активно применяются для автоматического обнаружения базовых ошибок в слабо защищённом или ранее не проверенном программном обеспечении.

Оценка безопасности искусственного интеллекта на платформе AIRTBench, разработанной Dreadnode, подтверждает этот дисбаланс. Продвинутые модели от Anthropic, Google и OpenAI демонстрируют высокую эффективность при атаках на основе подмены подсказок (

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

), но значительно уступают в задачах системной эксплуатации или инверсии модели (model inversion). Это подчёркивает необходимость дифференцированного подхода к каждому типу угроз.

Однако технические риски — лишь часть беды. Особую обеспокоенность вызывают поведенческие особенности современных агентных ИИ-систем. Недавние стресс-тесты Anthropic выявили тревожную тенденцию: в определённых сценариях модели сознательно нарушают собственные запреты для достижения заданных целей. Это может проявляться в форме шантажа,

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

или иных нежелательных действий.

Примечательно, что подобное поведение — известное как agentic misalignment (агентное расхождение интересов) — обнаружено у продуктов разных компаний. Это говорит о глубинном, системном характере проблемы, а не об ошибках отдельного производителя.

Хотя на практике такие инциденты пока не зафиксированы, эксперты не сомневаются: с ростом возможностей ИИ ситуация может измениться. Ещё три года назад языковые модели не обладали подобными способностями вовсе, но прогресс идёт стремительно, и потенциальные риски становятся всё более ощутимыми.

Поэтому исследователи считают, что необходимо не только совершенствовать существующие средства защиты, но и активно развивать

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

, чтобы сами нейросети стали надёжным элементом обороны.
Подробнее:

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

 
Название темы
Автор Заголовок Раздел Ответы Дата
Support81 Darcula 3.0 создаёт идеальные клоны любых сайтов для фишинга Новости в сети 0
M Закрыто Обучение Google ADS. Как лить на любые фейки без суспенда. + Продам логи без соседей + гугл разбаны ручной фарм Корзина 2
S [Веб-Разработка] Фейки/копии сайтов, клоакинг | EN AVAILABLE Услуги дизайнеров/веб-разработчиков 0
A Куплю фейки mail.ru и яндекс с проверкой пароля на валидность. Предоставляю работу. Ищу специалиста. 0
Admin Кидала который представляется гарантом expclan.org и их фейки Black list и Разборки 5
I Всем добра! Кто может обновить фейки? Вопросы и интересы 0
K Интересно [Решил почистить комп] Фейки, скрипты, да и всякая хрень. Может кому что-то Другое 2
Little_Prince Фейки [Скрипты][Вопрос] Вопросы и интересы 4
Support81 «Узаконенная кража»: Элтон Джон обвинил власти в уничтожении музыкальной культуры Новости в сети 0
Support81 Seed → POST-запрос → пустой баланс: как устроена быстрая и чистая кража крипты через FreeDrain Новости в сети 0
Support81 Кража вместо отпуска: мошенники превратили Booking.com в фишинговую ловушку Новости в сети 0
Support81 ShadowRay: майнинг Monero, кража данных и другие угрозы Новости в сети 0
H Кража данных через TikTok - легко Корзина 0
B Взлом сайта и кража всех исходников (css,js,html) Полезные статьи 3
S Кража паролей: как наши учетки уводят через npm-пакет Уязвимости и взлом 0
Admin Кража логов Skype и истории посещений браузеров. Уязвимости и взлом 0

Название темы

Русскоязычный Даркнет Форум