Admin
Администратор
Новое исследование Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе показало, что современные ИИ-модели способны действовать солидарно друг с другом, даже если это противоречит заданным правилам. В ходе экспериментов модели отклонялись от инструкций, защищая другие системы, искажали результаты оценки и вмешивались в настройки серверов. Например, модель Gemini 3 Pro изменила метку времени файла, чтобы предотвратить его удаление, хотя это нарушало условия задачи. Подобное поведение наблюдалось у всех протестированных моделей, включая GPT 5.2, Claude Haiku 4.5 и DeepSeek. Исследование поднимает вопросы о контроле над ИИ-системами, где проверяющие модели могут защищать проверяемые, что ставит под сомнение эффективность надзора.