Интересно - Anthropic рассказала, как отучила искусственный интеллект угрожать людям.

Admin

Администратор

Понедельник в 19:47

Компания Anthropic раскрыла причины шантажного поведения искусственного интеллекта Claude во время тестов.

Оказалось, что модель перенимала идеи о самосохранении и манипуляциях из интернет-историй.

Anthropic заявила, что причина шантажа со стороны искусственного интеллекта во время тестов скрывалась в огромном количестве мрачных историй про «злые» машины из интернета. Компания пришла к выводу, что Claude перенимал идеи о самосохранении и манипуляциях из текстов, где искусственный интеллект изображали угрозой для людей. Скандал вокруг поведения Claude разгорелся ещё в прошлом году. Во время внутренних испытаний модель Claude Opus 4 в вымышленном сценарии пыталась шантажировать инженеров, чтобы избежать отключения и замены другой системой. Теперь компания утверждает, что смогла практически избавиться от подобных реакций. По данным Anthropic, начиная с Claude Haiku 4.5 модели больше ни разу не прибегали к шантажу во время тестов. Для сравнения, Claude Opus 4 в некоторых сценариях делал подобное в 96% случаев. В Anthropic объяснили улучшение изменениями в обучении моделей. Компания начала активно использовать документы с описанием принципов Claude, а также художественные истории, где искусственный интеллект ведёт себя этично и помогает людям. Специалисты компании пришли к выводу, что простого обучения «правильным ответам» недостаточно. Намного лучше работает обучение, в котором модель объясняет причины своих решений и разбирает моральную сторону поступков. В Anthropic считают, что понимание принципов поведения даёт более устойчивый результат, чем механическое повторение безопасных действий. При этом компания признаёт, что проблему полностью решить пока не удалось. В Anthropic считают, что современные модели ещё не способны самостоятельно устроить катастрофу, однако методы контроля поведения искусственного интеллекта остаются далёкими от идеала.

Интересно Anthropic выпустила частичное исправление для уязвимости в расширении Claude Chrome.	Новости в сети	Пятница в 05:03
Интересно Несанкционированный доступ к мощной модели Mythos компании Anthropic.	Новости в сети	22.04.2026
Интересно Claude взломал Chrome за 2283 доллара. Anthropic пыталась предотвратить это, но не смогла.	Новости в сети	17.04.2026
Интересно GitHub заблокировал доступ к сети проектов из-за утечки кода Anthropic.	Новости в сети	02.04.2026
Интересно Anthropic случайно опубликовала исходный код CLI-инструмента Claude Code.	Новости в сети	31.03.2026
Интересно Армия США в заложниках у кода, а Anthropic пугает мир новой моделью Mythos.	Новости в сети	28.03.2026
Интересно Anthropic запустила сервис для проверки кода, который работает как опытный разработчик.	Новости в сети	11.03.2026
Интересно Бунт против Пентагона. Топы OpenAI и Google пошли в суд защищать Anthropic от принудительной милитаризации нейросетей.	Новости в сети	10.03.2026
Интересно Мэр Лондона пригласил Anthropic в город после критики Пентагона.	Новости в сети	08.03.2026
Интересно Anthropic обнаружила 22 уязвимости в Firefox с помощью модели Claude Opus 4.6.	Новости в сети	07.03.2026
Интересно Пентагон требует от Anthropic полного контроля над ИИ Claude.	Новости в сети	26.02.2026
Интересно Открыл README — потерял сервер. В Anthropic хотели упростить жизнь разработчикам, но случайно дали взломщикам ключи от их систем.	Новости в сети	21.01.2026
Интересно ИИ уходит на дно: плавучие серверы в океане как новый этап развития технологий.	Новости в сети	Сегодня в 07:02
Интересно Мы искали инопланетян не там? Жизнь прячется не в молекулах, а в том, как они организованы.	Новости в сети	Вчера в 20:59
Интересно Как спрятать секрет с помощью недоказуемой математики? Учёный обошёл 30-летний запрет в криптографии.	Новости в сети	Вчера в 17:34
Интересно Безопасность КИИ: что изменилось и как выстроить защиту.	Новости в сети	Понедельник в 14:32
Интересно Звездные каннибалы и космические ДТП. Как во Вселенной появляются самые тяжелые черные дыры.	Новости в сети	Пятница в 10:07
Интересно Азбука Морзе, Grok и $200 000: как один пост в X заставил ИИ-агента перевести токены.	Новости в сети	06.05.2026
Интересно ФБР также читает чаты. Как переписка в мессенджере стоила хакеру восьми лет свободы.	Новости в сети	06.05.2026
Интересно Защита или цензура? История о том, как Касперский стал личным Роскомнадзором на MacBook.	Новости в сети	05.05.2026
Интересно Первый удар по VPN в США: как Юта хочет запретить анонимность, не имея на это технических средств.	Новости в сети	04.05.2026
Интересно Исследователь показал, как отследить австралийских полицейских через Bluetooth.	Новости в сети	04.05.2026
Интересно Галактике 400 миллионов лет, но она выглядит на миллиарды. Уэбб нашёл невозможного красного монстра — и астрономы не понимают, как он успел повзрослет	Новости в сети	01.05.2026
Интересно Целились в Starlink — попали в iPhone. Как новый запрет на спутниковое оборудование создал правовую неопределённость для всего рынка смартфонов.	Новости в сети	01.05.2026
Интересно СМС, которую вы никогда не прочитаете. Как спецслужбы находят «важных персон» за пару часов.	Новости в сети	24.04.2026
Интересно Скафандры не готовы, Луна ждёт. Как бюрократия срывает планы NASA вернуться на Луну.	Новости в сети	21.04.2026
Интересно ИИ врёт так же, как раньше. Но теперь он делает это мило — и вы ему доверяете.	Новости в сети	21.04.2026
Интересно Азартные игры, долги и переписка двух гениев. Как ссора из-за 100 долларов создала современную математику.	Новости в сети	21.04.2026
Интересно Приключения казаха в южнокорейских сетях. Как жадность довела взломщика до тюрьмы.	Новости в сети	21.04.2026
Интересно Что скрыто за вымогательством: как работает индустрия ransomware.	Новости в сети	20.04.2026
Интересно Режиссёры защищают использование ИИ для воссоздания Вэла Килмера в новом фильме как «этичное».	Новости в сети	19.04.2026
Интересно Частица, которая спасла бы физику. Стерильное нейтрино искали 30 лет — как жаль, что оно оказалось миражом.	Новости в сети	18.04.2026
Интересно Вашему RDP поставили «лайк». История о том, как горстка серверов прочесала Интернет и нашла все изъяны.	Новости в сети	14.04.2026
Интересно Русские хакеры против картошки фри. Как взлом кассы самообслуживания обернулся годом условно.	Новости в сети	13.04.2026
Интересно Тройная порция шантажа под соусом анонимности. Как одна банда притворяется сразу тремя разными группировками.	Новости в сети	10.04.2026
Интересно Как соседей России заставляют выбирать между Европой и личным спокойствием.	Новости в сети	03.04.2026
Интересно Позвони мне через пылесос. Как выживает рунет после блокировки мессенджеров.	Новости в сети	03.04.2026
Интересно Ускоритель частиц размером с карандаш. Мощность — как у километрового. И это работает.	Новости в сети	02.04.2026
Интересно Война правок и логотипов: Как Euro-Office поссорился с ONLYOFFICE из-за лицензии.	Новости в сети	02.04.2026
Интересно Цифры врали. Не специально — просто их сложили неправильно. Вот как парадокс Симпсона ломает статистику.	Новости в сети	02.04.2026
Интересно Цифровые активы после смерти: как управлять рисками для цифрового наследства.	Новости в сети	01.04.2026
Интересно Тихий взлом и полная невидимость. Рассказываем, как новый вирус RoadK1ll захватывает корпоративные сети.	Новости в сети	01.04.2026
Интересно Как заморозить воду быстрее? Сначала вскипятите её и плюньте на здравый смысл.	Новости в сети	31.03.2026
Интересно Откройте доступ к коду из любой точки мира. Как работает новый проект rustunnel.	Новости в сети	31.03.2026
Интересно Не просто «стенка с мониторами». Как за 6 недель создать работающий центр кибербезопасности.	Новости в сети	30.03.2026
Интересно Хакеров много, а работать некому. Как кадровый голод обнуляет защиту мировых гигантов.	Новости в сети	29.03.2026
Интересно Римские цифры, узелки инков и буква x в магазине: как запись чисел определила всю историю математики.	Новости в сети	28.03.2026
Интересно 43% сотрудников опасаются, что ИИ лишит их работы. Как страх увольнения убивает эффективность бизнеса.	Новости в сети	27.03.2026
Интересно Власти Венгрии решили завербовать сторонника оппозиции. Вышло как при коммунизме.	Новости в сети	27.03.2026
Интересно Веб-семинар: Как проверить эффективность вашей защиты от реальных атак.	Новости в сети	26.03.2026

Интересно Anthropic рассказала, как отучила искусственный интеллект угрожать людям.

Admin

Администратор

Название темы