Alphabet Inc представила новую версию нейросети Gemini Pro 1.5

Новая версия нейросети является мультимодальной моделью, то есть она способна воспринимать не только текст, но и аудио, видео, изображения и, как подчеркивают разработчики, может обрабатывать в несколько раз больше аудио, видео и текста, чем модель GPT-4 от OpenAI

Фото: фотобанк «Лори»

Alphabet Inc, материнская компания Google, представила новую версию своей флагманской модели искусственного интеллекта. Нейросеть Gemini Pro 1.5 способна обрабатывать в несколько раз больше аудио, видео и текста, чем модель GPT-4, на которой основан популярный чат-бот от OpenAI.

В частности, по заявлениям разработчиков, в контекстное окно нейросети можно вместить всю трилогию «Властелин колец». Технологическая борьба искусственных интеллектов давно ведется между Google и OpenAI.

Особенности новой модели Gemini Pro 1.5 комментирует главный архитектор систем искусственного интеллекта исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ Роман Душкин:

Роман Душкин главный архитектор систем ИИ исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ «Это мультимодальная модель, то есть она воспринимает не только текст, но и аудио, видео, изображения. В общем, данные в любой модальности. Но это уже тоже не завтрашний день. У модели OpenAI тоже есть мультимодальная модель, та же GPT-4, она двухмодальная как минимум. Она воспринимает одновременно и текст, и изображение. Этой мультимодальности часто добиваются при помощи многоагентных систем, когда у нас есть множество агентов, GPT, чат-боты, и они взаимодействуют между собой. Один отвечает за текст, другой за обработку изображений, третий за музыку, четвертый за звуки. То есть вот такое многообразие агентов в единой среде, где они могут взаимодействовать друг с другом и решать задачи. И существует единая точка входа, интерфейс взаимодействия с этой многоагентной системой с пользой. Собственно, сейчас очень много уже решений прикладных построено именно на этой архитектуре. И для чего делать единую такую модель, в которой невозможно выделить отдельных агентов, которые обрабатывают голос, звуки, тексты и так далее, мне, честно говоря, непонятно. То, что я видел в рекламных роликах про Gemini от Google, честно говоря, немножко пугает. Возможности этой модели настолько велики, что действительно пугают даже меня, человека, который с ИИ больше 30 лет работает. Но потом оказывается, что эти ролики постановочные и ничего такого, что там показано, на самом деле нет. То есть Google немножко спешит. Примерно так же, как действовала Boston Dynamics, когда своих робособак показывала. Они немножко там все-таки привирают все».

Технологическая борьба искусственных интеллектов, которая давно ведется между Google и OpenAI, продолжается.

В пятницу OpenAI объявила о создании новой нейросети для генерации видео — Sora. Модель способна создавать минутные видеоролики по текстовому описанию. Причем результат отличается высоким качеством: видео получаются очень реалистичными, в том числе с изображением людей, животных и быстро движущихся объектов.

Alphabet Inc представила новую версию нейросети Gemini Pro 1.5

Рекомендуем:

Фотоистории