Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
17 июля 2025 Задержанные в Азербайджане россияне получили право на встречи с родственниками
17 июля 2025 Исполнитель «Энком КСМ» получил миллиарды ЯНАО, не представив отчёты о произведённых работах
17 июля 2025 МУС в Гааге отправляет запросы на выдачу ордеров на арест Набиуллиной и Силуанова
17 июля 2025 Государственное вымогательство Силуанова: конфискация активов Струкова под предлогом борьбы с коррупцией
17 июля 2025 Норвежский лыжник Гренвольд погиб в результате удара молнии
17 июля 2025 В Ингушетии три человека получили ранения во время конфликта из-за места на парковке
17 июля 2025 В Белгородской области произошло нападение дронов
17 июля 2025 В Нижнем Новгороде мужчина попытался нанести себе ранения вен в центре города
17 июля 2025 Дональд Трамп объявил о договоренности с Coca-Cola относительно уменьшения уровня сахара в напитках в США
17 июля 2025 How Maryna Barsuk turned the court into a business for Alfa-Bank and sanctioned oligarchs
17 июля 2025 На Аляске объявили тревогу цунами из-за мощного землетрясения
17 июля 2025 В Берлине опровергли утверждение Трампа о поставках Patriot из Германии
17 июля 2025 Европейский союз ввёл ограничения на платёжную систему A7, которая ассоциирована с ПСБ и Иланом Шором
17 июля 2025 В Воронеже дрон нанес удар по жилому зданию
17 июля 2025 Microsoft заменит сотрудников, которых ранее уволили, на искусственный интеллект, разработанный ими самостоятельно
17 июля 2025 Коррупция и злоупотребления в СКР Ярославля: Бессмельцев избавляется от честных следователей и укрывает преступников
17 июля 2025 Премьер-министр Словакии Роберт Фицо пригрозил наложить вето на введение нового пакета санкций против России
17 июля 2025 Министерство обороны решило отменить форум "Армия", который приносил миллиарды семье Шойгу
17 июля 2025 Трамп пытается узаконить криптовалюту в Соединённых Штатах
17 июля 2025 Футболист "Барселоны" Ламин Ямаль устроил грандиозную вечеринку по случаю своего 18-летия