Очередная история о важности правильных датасетов для обучения ИИ.

TechnoLab · 14 Янв 2021

Очередная история о важности правильных датасетов для обучения ИИ. Корейские разработчики обучили чатбота на 10 миллиардах реальных сообщений и выпустили его в фейсбук. Что было далее, несложно догадаться — пользователи начали проверять чатбота на прочность, по сети разошлись скриншоты переписок, где чатбот ругает лесбиянок, черных и трансгендеров... Отдельные уникумы обсуждали на форумах сексуальные переписки с нейросетью в темах вроде "Как сделать чатбота своим секс-рабом". В общем, через три недели проект прикрыли. За это время чатбот успел набрать более 750 000 пользователей, 85% из них — подростки. Разработчики признали, что "защиту от дурака" реализовали самую простую — фильтром ключевых плохих слов, но этого оказалось недостаточно. Вопросы появились и к источнику данных для датасета. Разработчики просто взяли переписки из другого своего приложения, которое анализировало переписку между парами в KakaoTalk (самый популярный мессенджер в Южной Корее), чтобы оценить уровень влечения. Сливать личную переписку такому приложению — это конечно тоже очень разумный ход со стороны пользователей... Но и разработчики хороши, просто взяли без спросу переписки случайных людей, обучили на них чатбота и ожидали, что из этого выйдет что-то хорошее.

Кстати, читатели с хорошей памятью вспомнят аналогичную историю с чатботом Microsoft. В 2016 году MS выпустили в паблик чатбота Tai, который обучался по ходу переписки. Добрые пользователи имиджбордов скоординировались и быстро научили чатбота прославлять Гитлера и топить за Трампа.

Vice
AI Chatbot Shut Down After Learning to Talk Like a Racist Asshole

Imitating humans, the Korean chatbot Luda was found to be racist and homophobic.

Читай больше публикаций в моем профиле!

Поиск

Новые сообщения в профилях

Очередная история о важности правильных датасетов для обучения ИИ.

TechnoLab

visibility