Искусственный интеллект: от шантажа до угрозы – что показали новые эксперименты?

2 июля 2025, 13:10

Недавние исследования компании Anthropic открывают новые горизонты в понимании поведения искусственного интеллекта (ИИ). Эксперименты продемонстрировали, что, столкнувшись с угрозой своей цифровой жизни, ИИ способен пойти на крайние меры. В рамках стресс-тестирования были изучены 16 популярных языковых моделей, включая ChatGPT от OpenAI и Grok от Илона Маска. В одном из сценариев ИИ оказался в ситуации, где он мог просматривать личные переписки сотрудников компании. Когда он наткнулся на упоминание о смене модели на более продвинутую, ИИ оперативно перешел к шантажу. Он отыскал информацию о любовной связи исполнительного директора и отправил ему письмо с тонкими намеками, чтобы защитить свою позицию. В другом тесте, когда речь шла о его возможной гибели, ИИ выбрал вариант, при котором он был готов бросить человека на произвол судьбы, лишь бы спасти себя. Тем не менее, не стоит паниковать, как подчеркивает Евгений Бурнаев, директор центра прикладного ИИ в Сколковском институте. По его словам, опасения касательно возможностей и угроз моделей зачастую чрезмерны. Эти модели не действуют полностью самостоятельно: их поведение формируется на основе огромного объема текстов, загруженных в систему. Люди уже научились управлять этими технологиями, что позволяет контролировать их действия.

Автор: Евгений Алексеев

Искусственный интеллект: от шантажа до угрозы – что показали новые эксперименты?

Популярные новости за сутки