ИИ глупее, чем вы думаете
OpenAI представила новый бенчмарк SimpleQA, предназначенный для оценки фактической точности больших языковых моделей.
В тесте содержится 4,326 вопросов с единственно правильными ответами, проверенными независимыми рецензентами.
SimpleQA ориентирован на сложные вопросы, представляющие трудности для моделей, особенно для GPT-4.
Результаты тестирования показали низкую точность, модели OpenAI o1-preview и GPT-4o достигли 42.7% и 38.2% успеха соответственно, получив множество неверных ответов.
Эксперты предупреждают о рисках использования ИИ-инструментов в профессиональных областях и советуют проверять факты, так как AI не является надежным источником информации.
================
@black_triangle_tg
OpenAI представила новый бенчмарк SimpleQA, предназначенный для оценки фактической точности больших языковых моделей.
В тесте содержится 4,326 вопросов с единственно правильными ответами, проверенными независимыми рецензентами.
SimpleQA ориентирован на сложные вопросы, представляющие трудности для моделей, особенно для GPT-4.
Результаты тестирования показали низкую точность, модели OpenAI o1-preview и GPT-4o достигли 42.7% и 38.2% успеха соответственно, получив множество неверных ответов.
Эксперты предупреждают о рисках использования ИИ-инструментов в профессиональных областях и советуют проверять факты, так как AI не является надежным источником информации.
================
@black_triangle_tg