Интересно Anthropic рассказала, как отучила искусственный интеллект угрожать людям.

Admin

Администратор

1778517956479



Компания Anthropic раскрыла причины шантажного поведения искусственного интеллекта Claude во время тестов.

Оказалось, что модель перенимала идеи о самосохранении и манипуляциях из интернет-историй.

Anthropic заявила, что причина шантажа со стороны искусственного интеллекта во время тестов скрывалась в огромном количестве мрачных историй про «злые» машины из интернета. Компания пришла к выводу, что Claude перенимал идеи о самосохранении и манипуляциях из текстов, где искусственный интеллект изображали угрозой для людей. Скандал вокруг поведения Claude разгорелся ещё в прошлом году. Во время внутренних испытаний модель Claude Opus 4 в вымышленном сценарии пыталась шантажировать инженеров, чтобы избежать отключения и замены другой системой. Теперь компания утверждает, что смогла практически избавиться от подобных реакций. По данным Anthropic, начиная с Claude Haiku 4.5 модели больше ни разу не прибегали к шантажу во время тестов. Для сравнения, Claude Opus 4 в некоторых сценариях делал подобное в 96% случаев. В Anthropic объяснили улучшение изменениями в обучении моделей. Компания начала активно использовать документы с описанием принципов Claude, а также художественные истории, где искусственный интеллект ведёт себя этично и помогает людям. Специалисты компании пришли к выводу, что простого обучения «правильным ответам» недостаточно. Намного лучше работает обучение, в котором модель объясняет причины своих решений и разбирает моральную сторону поступков. В Anthropic считают, что понимание принципов поведения даёт более устойчивый результат, чем механическое повторение безопасных действий. При этом компания признаёт, что проблему полностью решить пока не удалось. В Anthropic считают, что современные модели ещё не способны самостоятельно устроить катастрофу, однако методы контроля поведения искусственного интеллекта остаются далёкими от идеала.
 
Похожие темы
Admin Интересно Anthropic выпустила частичное исправление для уязвимости в расширении Claude Chrome. Новости в сети 0
Admin Интересно Несанкционированный доступ к мощной модели Mythos компании Anthropic. Новости в сети 0
Admin Интересно Claude взломал Chrome за 2283 доллара. Anthropic пыталась предотвратить это, но не смогла. Новости в сети 0
Admin Интересно GitHub заблокировал доступ к сети проектов из-за утечки кода Anthropic. Новости в сети 0
Admin Интересно Anthropic случайно опубликовала исходный код CLI-инструмента Claude Code. Новости в сети 0
Admin Интересно Армия США в заложниках у кода, а Anthropic пугает мир новой моделью Mythos. Новости в сети 0
Admin Интересно Anthropic запустила сервис для проверки кода, который работает как опытный разработчик. Новости в сети 0
Admin Интересно Бунт против Пентагона. Топы OpenAI и Google пошли в суд защищать Anthropic от принудительной милитаризации нейросетей. Новости в сети 0
Admin Интересно Мэр Лондона пригласил Anthropic в город после критики Пентагона. Новости в сети 0
Admin Интересно Anthropic обнаружила 22 уязвимости в Firefox с помощью модели Claude Opus 4.6. Новости в сети 0
Admin Интересно Пентагон требует от Anthropic полного контроля над ИИ Claude. Новости в сети 0
Admin Интересно Открыл README — потерял сервер. В Anthropic хотели упростить жизнь разработчикам, но случайно дали взломщикам ключи от их систем. Новости в сети 0
Admin Интересно ИИ уходит на дно: плавучие серверы в океане как новый этап развития технологий. Новости в сети 0
Admin Интересно Мы искали инопланетян не там? Жизнь прячется не в молекулах, а в том, как они организованы. Новости в сети 0
Admin Интересно Как спрятать секрет с помощью недоказуемой математики? Учёный обошёл 30-летний запрет в криптографии. Новости в сети 0
Admin Интересно Безопасность КИИ: что изменилось и как выстроить защиту. Новости в сети 0
Admin Интересно Звездные каннибалы и космические ДТП. Как во Вселенной появляются самые тяжелые черные дыры. Новости в сети 0
Admin Интересно Азбука Морзе, Grok и $200 000: как один пост в X заставил ИИ-агента перевести токены. Новости в сети 0
Admin Интересно ФБР также читает чаты. Как переписка в мессенджере стоила хакеру восьми лет свободы. Новости в сети 0
Admin Интересно Защита или цензура? История о том, как Касперский стал личным Роскомнадзором на MacBook. Новости в сети 0
Admin Интересно Первый удар по VPN в США: как Юта хочет запретить анонимность, не имея на это технических средств. Новости в сети 0
Admin Интересно Исследователь показал, как отследить австралийских полицейских через Bluetooth. Новости в сети 0
Admin Интересно Галактике 400 миллионов лет, но она выглядит на миллиарды. Уэбб нашёл невозможного красного монстра — и астрономы не понимают, как он успел повзрослет Новости в сети 0
Admin Интересно Целились в Starlink — попали в iPhone. Как новый запрет на спутниковое оборудование создал правовую неопределённость для всего рынка смартфонов. Новости в сети 0
Admin Интересно СМС, которую вы никогда не прочитаете. Как спецслужбы находят «важных персон» за пару часов. Новости в сети 0
Admin Интересно Скафандры не готовы, Луна ждёт. Как бюрократия срывает планы NASA вернуться на Луну. Новости в сети 0
Admin Интересно ИИ врёт так же, как раньше. Но теперь он делает это мило — и вы ему доверяете. Новости в сети 0
Admin Интересно Азартные игры, долги и переписка двух гениев. Как ссора из-за 100 долларов создала современную математику. Новости в сети 0
Admin Интересно Приключения казаха в южнокорейских сетях. Как жадность довела взломщика до тюрьмы. Новости в сети 0
Admin Интересно Что скрыто за вымогательством: как работает индустрия ransomware. Новости в сети 0
Admin Интересно Режиссёры защищают использование ИИ для воссоздания Вэла Килмера в новом фильме как «этичное». Новости в сети 0
Admin Интересно Частица, которая спасла бы физику. Стерильное нейтрино искали 30 лет — как жаль, что оно оказалось миражом. Новости в сети 0
Admin Интересно Вашему RDP поставили «лайк». История о том, как горстка серверов прочесала Интернет и нашла все изъяны. Новости в сети 0
Admin Интересно Русские хакеры против картошки фри. Как взлом кассы самообслуживания обернулся годом условно. Новости в сети 0
Admin Интересно Тройная порция шантажа под соусом анонимности. Как одна банда притворяется сразу тремя разными группировками. Новости в сети 0
Admin Интересно Как соседей России заставляют выбирать между Европой и личным спокойствием. Новости в сети 0
Admin Интересно Позвони мне через пылесос. Как выживает рунет после блокировки мессенджеров. Новости в сети 0
Admin Интересно Ускоритель частиц размером с карандаш. Мощность — как у километрового. И это работает. Новости в сети 0
Admin Интересно Война правок и логотипов: Как Euro-Office поссорился с ONLYOFFICE из-за лицензии. Новости в сети 0
Admin Интересно Цифры врали. Не специально — просто их сложили неправильно. Вот как парадокс Симпсона ломает статистику. Новости в сети 0
Admin Интересно Цифровые активы после смерти: как управлять рисками для цифрового наследства. Новости в сети 0
Admin Интересно Тихий взлом и полная невидимость. Рассказываем, как новый вирус RoadK1ll захватывает корпоративные сети. Новости в сети 0
Admin Интересно Как заморозить воду быстрее? Сначала вскипятите её и плюньте на здравый смысл. Новости в сети 0
Admin Интересно Откройте доступ к коду из любой точки мира. Как работает новый проект rustunnel. Новости в сети 0
Admin Интересно Не просто «стенка с мониторами». Как за 6 недель создать работающий центр кибербезопасности. Новости в сети 0
Admin Интересно Хакеров много, а работать некому. Как кадровый голод обнуляет защиту мировых гигантов. Новости в сети 0
Admin Интересно Римские цифры, узелки инков и буква x в магазине: как запись чисел определила всю историю математики. Новости в сети 0
Admin Интересно 43% сотрудников опасаются, что ИИ лишит их работы. Как страх увольнения убивает эффективность бизнеса. Новости в сети 0
Admin Интересно Власти Венгрии решили завербовать сторонника оппозиции. Вышло как при коммунизме. Новости в сети 0
Admin Интересно Веб-семинар: Как проверить эффективность вашей защиты от реальных атак. Новости в сети 0

Название темы