Два года назад Google представила Bard, позже переименованный в Gemini, как ответ ChatGPT. У поискового гиганта было все для создания достойного конкурента: доступ к актуальным данным, мощные вычислительные ресурсы, собственные ИИ-чипы, сотни специалистов и миллиардные инвестиции. Однако небольшой стартап OpenAI, хоть и при поддержке Microsoft, сумел удержать лидерство, а Google неожиданно оказалась в роли догоняющего.
Почему так произошло? ForkLog проследил путь развития обоих чат-ботов: внедрение новых возможностей, особенности ежедневного использования и ключевые различия между ассистентами на сегодняшний день. Помимо цифр и бенчмарков, мы рассмотрели реальный опыт работы с каждой системой.
Сложный старт: первые шаги Bard
Формально Bard не выделялся на фоне конкурентов: то же поле для ввода запроса и окно вывода сообщений в формате диалога. Существенным отличием стала возможность обращаться к поисковику Google и искать актуальную информацию в интернете.
Стартовый экран чат-бота Gemini (ранее Bard). Данные: Google.
Однако с первых дней Bard столкнулся с серьезной проблемой — критической неточностью ответов. Другие чат-боты тоже грешили подобным, однако у Google масштаб проблемы оказался беспрецедентным. Самый яркий пример — ошибка в рекламных материалах самого Bard, которая привела к падению капитализации Alphabet на $100 млрд всего через сутки после анонса.
Причина крылась в спешке. Google торопилась представить ответ на ChatGPT и Microsoft Copilot (работающий на технологиях OpenAI). Компания привлекла собственных сотрудников к тестированию бота, которым пришлось вручную исправлять некорректные ответы для улучшения коммуникации с пользователями.
Ситуацию усугубило обращение к устаревшей языковой модели LaMDA, хотя компания уже располагала более совершенной PaLM.
Стоит отметить, что на тот момент сервис находился в стадии бета-тестирования среди ограниченного числа пользователей. Публичный релиз состоялся в июле 2023 года, и с тех пор, несмотря на сложный старт, Bard сформировал свою аудиторию.
По данным Coolest Gadgets, в 2023 году сайт чат-бота ежемесячно посещали более 142 млн пользователей. Для сравнения: пиковый показатель ChatGPT в мае того же года составил 650 млн.
Путь к совершенству: от LaMDA до Gemini 2.0
За два года чат-бот Google прошел значительный путь. В апреле 2023 года CEO компании Сундар Пичаи объявил о переходе Bard на более мощную языковую модель — с LaMDA (137 млрд параметров) на PaLM 2 (540 млрд параметров). По словам топ-менеджера, изначальный выбор LaMDA был обусловлен ее скромными требованиями к вычислительным ресурсам, что позволило быстрее запустить сервис и собрать отзывы пользователей.
Переход на PaLM 2 значительно улучшил возможности Bard. Это подтверждают результаты тестов MMLU (Massive Multitask Language Understanding) — стандартного набора из 16 000 вопросов по 57 различным дисциплинам, от математики и физики до юриспруденции. Этот бенчмарк позволяет оценить способность модели решать разноплановые задачи: чем выше процент правильных ответов, тем универсальнее система.
PaLM 2 достигла показателя в 78,3%, заметно превзойдя GPT-3.5 (70%), на которой работал ChatGPT в начале 2023 года. Однако уже в марте OpenAI выпустила GPT-4 с результатом 86,4%, вновь оставив Google позади.
Эпоха Gemini: новый этап развития
Переломный момент наступил в декабре 2023 года с переходом на модель Gemini, разработанную подразделением DeepMind. Три версии — Ultra, Pro и Nano — улучшили возможности генерации текста, кода и математических вычислений. Это был первый публичный релиз мультимодальной модели Google для анализа изображений, видео и аудио — функционал, который GPT-4 освоил еще в марте 2023 года.
В тесте MMLU Gemini Ultra сократила отставание от конкурента, показав 83,7%. Впрочем, к маю 2024 года OpenAI представила GPT-4o с результатом 88,7%.
В феврале 2024 года появилась Gemini 1.5 с технологией Mix of Experts, где специализированные нейросети решают сложные задачи по частям. Контекстное окно расширилось до миллиона токенов, что эквивалентно часу видео, 11 часам аудио или 700 000 слов. В декабре того же года вышла Gemini 2.0 Flash Experimental с улучшенной производительностью и новыми функциями, включая аудио- и видеовзаимодействие в реальном времени.
Особое внимание Google уделила мобильной версии. В феврале 2024 года вышло приложение для Android и интеграция с Google на iOS. Пользователи Android получили возможность заменить Assistant на Gemini, хотя изначально функционал был ограничен — чат-бот не мог совершать звонки, управлять умным домом и даже устанавливать будильник.
Ситуация изменилась после конференции Google I/O в мае 2024 года. Gemini интегрировали с Chrome, Photos, Workspace и другими сервисами через систему расширений. Сейчас версия для смартфонов умеет:
- работать с документами Google и Gmail;
- анализировать скриншоты;
- управлять умным домом;
- контролировать базовые функции смартфона;
- искать информацию о путешествиях;
- управлять воспроизведением в YouTube, YouTube Music и Spotify.
Работа расширений для Gemini на Android. Данные: Google.
Работа расширений для Gemini на Android. Данные: Google.
Работа расширений для Gemini на Android. Данные: Google.
Работа расширений для Gemini на Android. Данные: Google.
Примечательно внедрение Gemini в YouTube: во время просмотра видео можно попросить бота пересказать контент или найти конкретный момент. Тем не менее функция все еще работает нестабильно.
Gemini резюмирует видео с канала ForkLog. Данные: Google.
Gemini резюмирует видео с канала ForkLog. Данные: Google.
В августе с анонсом Pixel 9 появился Gemini Live — режим постоянного голосового общения с реалистичным звучанием, похожий на функцию ChatGPT, представленную в сентябре 2023 года.
Параллельно с технологическим развитием Google запустила Gemini Advanced — платную подписку, предоставляющую доступ к наиболее мощной модели Ultra. Сервис позволяет создавать персонализированные чат-боты Gem, адаптированные под конкретные профессиональные или личные задачи, что расширило коммерческие возможности платформы.
Несмотря на существенное расширение функционала в повседневном использовании, Gemini все еще уступает конкурентам в качестве поиска информации и ответов на вопросы.
На передовой ИИ: достижения и проблемы Gemini
Поиск информации остается ключевым сценарием использования чат-ботов для большинства пользователей — ChatGPT даже называли потенциальным «убийцей» Google. И хотя этого не произошло, OpenAI все же интегрировала поисковые функции в свой продукт, подтверждая востребованность такого формата.
Безусловно, чат-боты освоили множество специализированных задач: написание текстов, создание кода, составление планов и помощь с учебными заданиями. Однако эти функции востребованы в основном среди определенных групп — копирайтеров, разработчиков, менеджеров и студентов. Поиск же информации объединяет все категории пользователей.
На первый взгляд, Gemini демонстрирует неплохие результаты в этой области. Однако при более глубоком использовании проявляются определенные особенности: бот часто переадресовывает собеседника к Google Search вместо прямого ответа на запрос.
Отдельного внимания заслуживает подход Gemini к обработке потенциально спорных тем. Чат-бот иногда излишне осторожничает, отказываясь обсуждать даже безобидные интернет-мемы или давать фактическую информацию о законодательных процессах, ошибочно классифицируя их как неприемлемый контент.
Ошибки Gemini при работе с точной информацией. Данные: Gemini.
Ошибки Gemini при работе с точной информацией. Данные: Gemini.
Хотя ChatGPT и стал более сдержанным по сравнению с первым релизом, он все же демонстрирует более сбалансированный подход. При работе с деликатными темами он чаще предоставляет контекстные пояснения вместо прямого отказа. Это делает взаимодействие более продуктивным — пользователь тратит меньше времени на переформулировку запросов и получает более полезную обратную связь.
При всех нюансах Gemini успешно выполняет большинство повседневных задач. Впрочем, как и любой ИИ-ассистент, он требует критического подхода к полученным результатам — современные языковые модели, при всей их продвинутости, могут выдавать неточную информацию.
Перспективы развития Gemini
За два года путь от Bard до Gemini показал впечатляющую эволюцию от простого чат-бота в браузере до интегрированного помощника в экосистеме Google. В ближайшем будущем сервис появится в устройствах Nest, телевизорах Google TV и часах на Wear OS. С учетом доминирования Android на мобильном рынке — более 70% и 3,9 млрд устройств — потенциальная аудитория Gemini выглядит колоссальной.
Однако первоначальные проблемы сохраняются: нестабильность в поиске информации, несмотря на интеграцию с Google Search, излишняя осторожность в ответах и сложности с признанием собственных ошибок. Даже располагая внушительными ресурсами, Google пока не удается догнать конкурентов в ключевых аспектах работы чат-бота.
Впрочем, масштаб интеграции Gemini с повседневными технологиями открывает многообещающие перспективы. При устранении текущих недочетов этот ассистент может стать по-настоящему незаменимым инструментом в экосистеме Google.