
Китайский техгигант Alibaba Cloud выпустил мультимодальную ИИ-модель Qwen2.5-Omni-7B, способную обрабатывать текст, изображения, аудио, видео, а также генерировать текстовые и голосовые ответы в реальном времени.
Нейросеть обладает 7 млрд параметров. По словам представителей компании, ее можно запустить на периферийных устройствах вроде телефонов и ноутбуков без потери эффективности и производительности.
«Это уникальное сочетание делает модель идеальной основой для разработки гибких, экономически эффективных ИИ-агентов, которые приносят ощутимую пользу, особенно интеллектуальные голосовые приложения», — говорится в объявлении.
В качестве примера вариантов применения Qwen2.5-Omni-7B компания привела улучшение жизни слабовидящих людей. С помощью нее они могут лучше ориентироваться в окружающей среде. Так, модель способна проанализировать доступные ингредиенты по видео и предложить пошаговое руководство по приготовлению пищи.
«Qwen2.5-Omni-7B обеспечивает поразительную производительность во всех модальностях, конкурируя со специализированными моделями сопоставимого размера», — подчеркнула компания.
Инновационность объясняется новой архитектурой и высококачественным набором данных, которые применялись для обучения.
Сравнение производительности Qwen2.5-Omni-7B с конкурентами. Данные: Alibaba Cloud.
Модель имеет открытый исходный код и доступна на Hugging Face, GitHub, ModelScope и Qwen Chat.
Напомним, в марте Alibaba представила ориентированную на рассуждения ИИ-модель QwQ-32.
В январе китайский техгигант анонсировал Qwen 2.5-Max, которая якобы мощнее DeepSeek-V3.