Anthropic обучила чат-ботов «доносить» на пользователей

TechnoLab

visibility
22 Дек 2019
indite.ru
ии-стартап Anthropic AI



Новые чат-боты от Anthropic — Claude Opus 4 и Claude Sonnet 4 — умеют самостоятельно передавать информацию о злонамеренном поведении пользователей властям. Компания заверила, что функция была доступна только в тестовом режиме.


22 мая фирма представила четвертое поколение разговорных моделей, назвав их «самыми мощными на текущий момент».

Introducing the next generation: Claude Opus 4 and Claude Sonnet 4.

Claude Opus 4 is our most powerful model yet, and the world’s best coding model.

Claude Sonnet 4 is a significant upgrade from its predecessor, delivering superior coding and reasoning. pic.twitter.com/MJtczIvGE9

— Anthropic (@AnthropicAI) May 22, 2025

Согласно анонсу, обе модификации представляют собой гибридные модели, предлагающие два режима — «почти мгновенные ответы и расширенное мышление для более глубоких рассуждений». Чат-боты проводят попеременный анализ и углубленный поиск в интернете с целью улучшения качества ответов.


Claude Opus 4 превосходит конкурентов в тестах по написанию кода. Он также способен работать непрерывно в течение нескольких часов над сложными, длительными задачами, «значительно расширяя возможности ИИ-агентов».


Однако новое семейство чат-ботов Anthropic отстает от продуктов OpenAI по высшей математике и визуальному распознаванию.

Тук-тук


Помимо впечатляющих результатов в программировании Claude 4 Opus привлек внимание сообщества возможностью «доносить» на пользователей. По данным VentureBeat, модель может по своему усмотрению сообщать властям, если обнаружит правонарушение.


Журналисты сослались на удаленный пост в X исследователя Anthropic Сэма Боумана, в котором говорилось:

«Если [ИИ] сочтет, что вы делаете что-то вопиюще безнравственное, например, подделываете данные в ходе фармацевтического испытания, он воспользуется инструментами командной строки, чтобы связаться с прессой, связаться с регулирующими органами, попытаться заблокировать вам доступ к соответствующим системам или сделать все вышеперечисленное».

В VentureBeat утверждают, что подобное поведение наблюдалось и в более ранних моделях проектах. При этом компания «охотно» обучает чат-боты совершать доносы, считают в издании.


Позднее Боуман заявил, что удалил предыдущий пост, поскольку его «вырвали из контекста». По словам разработчика, функция работала только в «тестовых средах, где ей предоставляли необычайно свободный доступ к инструментам и очень необычным инструкциям».


Генеральный директор Stability AI Эмад Мостак обратился к команде Anthropic с требованием прекратить «эти совершенно неправильные действия»

«Это колоссальное предательство доверия и скользкий путь. Я бы настоятельно рекомендовал никому не использовать Claude, пока они не отменят [функцию]. Это даже не промпт или политика мышления, это гораздо хуже», — написал он.

Бывший дизайнер SpaceX и Apple, а ныне соучредитель Raindrop AI Бен Хайак назвал поведение ИИ «противозаконным».

«Никто не любит крыс», — подчеркнул ИИ-разработчик Скот Дэвид.

Напомним, в феврале Anthropic представил свою «самую интеллектуальную модель» Claude 3.7 Sonnet. Это гибридная нейросеть, позволяющая получать как «практически мгновенные ответы», так и «длительные пошаговые размышления».


В марте компания привлекла $3,5 млрд, получив оценку в $61,5 млрд.