🖼 ИИ глупее, чем вы думаете🤖 OpenAI представила новый бенчмарк SimpleQA, предназначенн...

IT Boroda · 28 Ноя 2024

ИИ глупее, чем вы думаете

OpenAI представила новый бенчмарк SimpleQA , предназначенный для оценки фактической точности больших языковых моделей.

В тесте содержится 4,326 вопросов с единственно правильными ответами, проверенными независимыми рецензентами.

SimpleQA ориентирован на сложные вопросы, представляющие трудности для моделей, особенно для GPT-4.

Результаты тестирования показали низкую точность, модели OpenAI o1-preview и GPT-4o достигли 42.7% и 38.2% успеха соответственно, получив множество неверных ответов.

Эксперты предупреждают о рисках использования ИИ-инструментов в профессиональных областях и советуют проверять факты, так как AI не является надежным источником информации.
================

@black_triangle_tg

Поиск

Новые сообщения в профилях

🖼 ИИ глупее, чем вы думаете🤖 OpenAI представила новый бенчмарк SimpleQA, предназначенн...

IT Boroda

visibility