
Компания Amazon представила новую генеративную ИИ-модель Nova Sonic для общения голосом. Ее производительность сопоставима с передовыми решениями от OpenAI и Google по скорости, распознаванию речи и качеству разговора, утверждают в компании.
Amazon назвала Nova Sonic «самой экономичной» голосовой моделью ИИ на рынке — примерно на 80% дешевле GPT-4o от OpenAI. Она доступна через платформу для разработчиков Bedrock.
«Компоненты» нейросети уже используются в обновленном помощнике Alexa+. Она в ходе двустороннего диалога способна говорить «в подходящий момент», учитывая паузы и прерывания со стороны говорящего.
Nova Sonic использует «архитектуру единой модели», которая якобы лучше подхода, подразумевающего объединение отдельных решений для распознавания речи, ее преобразования в текст, генерации ответа и превращения его в аудио.
Excited about the launch of Amazon Nova Sonic, our new speech-to-speech model that helps make AI voice applications feel remarkably natural.
It's designed to understand not just what people say, but how they say it – working with tone, style, and conversation flow including… pic.twitter.com/QRvP4LWYQN
— Andy Jassy (@ajassy) April 8, 2025
Утверждается, что Nova Sonic меньше ошибается в распознавании речи по сравнению с конкурентами. Она хорошо понимает намерения пользователя даже в том случае, если тот бормочет, неправильно произносит слова или находится в шумной обстановке.
В бенчмарке Multilingual LibriSpeech, измеряющем распознавание речи на разных языках и диалектах, Nova Sonic достигла коэффициента ошибок 4,2% по английскому, французскому, итальянскому, немецкому и испанскому языкам. Это означает, что примерно четыре из каждых 100 слов она понимала неправильно.
В Augmented Multi Party Interaction, измеряющем взаимодействие с несколькими участниками, Nova Sonic оказалась на 46,7 % точнее GPT-4o-transcribe от OpenAI. Она также обладает лучшей в индустрии скоростью: средняя задержка восприятия составляет 1,09 секунды.
Amazon just dropped something BIG for voice AI.
It’s called Amazon Nova Sonic.
And it might change how we talk to machines forever.
Natural, human-like voice conversations no clunky delays.
Here’s why it matters (and what it can do):pic.twitter.com/2jblM3xTrB
— Brendan (@jowettbrendan) April 9, 2025
Компания считает, что с помощью ее нового решения можно создавать различные инструменты вроде ботов для обслуживания клиентов или ИИ-агентов для туристической отрасли.
Напомним, в апреле Amazon обновила видеогенератор Nova Reel до версии 1.1. Пользователи могут создавать «многокадровые» ролики длительностью до двух минут с «последовательностью стиля».
В декабре 2024 года компания представила новое поколение ИИ-моделей Amazon Nova для широкого спектра задач. Нейросети способны обрабатывать текст, изображения и видео.