Чёрный Треугольник:
Компания Anthropic продемонстрировала способности ИИ-модели Claude 3.7 Sonnet, которая играла в Pokémon Red на Twitch. В отличие от предыдущей версии 3.5, новая модель улучшила навыки рассуждений, что помогло ей более эффективно решать игровые задачи,…

Исследователи из Hao AI Lab протестировали популярные ИИ-модели в игре Super Mario Bros, где наилучший результат показала модель Claude 3.7 Sonnet, в то время как низкие показатели были у GPT-4o и GPT-4.5.

Модели, которые требуют времени для размышлений, такие как o1 от OpenAI, продемонстрировали худшие результаты из-за замедления в процессе принятия решений.
Hao AI Lab также создала ИИ-агентов для управления персонажем Марио и разместила код на GitHub, что позволяет другим исследователям проверять различные модели в игре.
Эти эксперименты направлены на преодоление «кризиса оценки» нейросетей.

Ранее Claude 3.7 Sonnet также успешно проявила себя в игре Pokémon Red, подтвердив свои способности к решению задач без предварительного обучения.

================
👁 News | 👁 Soft | 👁 Gear |
