OpenAI презентовала нейросеть GPT-4o, которая быстро анализирует информацию

Текст:Business FM

Лента новостей

Все новости »

GPT-4o может анализировать звук, изображение и текст в реальном времени и отвечает с такой же скоростью, как и человек: это занимает около трети секунды

Компания OpenAI презентовала новую версию нейросети GPT-4o, которая может анализировать звук, изображение и текст в реальном времени. Причем нейросеть отвечает с такой же скоростью, как и человек: это занимает около трети секунды.

После презентации акции платформы для изучения иностранных языков Duolingo упали почти на 5%, ведь новый ИИ может свободно разговаривать на 50 языках и заменять репетитора.

GPT-4o доступна как в платной, так и в бесплатной версии ChatGPT. GPT-4o способна «определять» эмоции пользователя, чтобы отвечать с разной интонацией. Нейросеть может говорить с сарказмом, голосом робота и даже петь.

В OpenAI считают, что GPT-4o значительно улучшит работу чат-бота ChatGPT. В последнем уже есть голосовой режим, однако новая ИИ-модель будет направлена на большее взаимодействие с чат-ботом именно как с помощником — например, его можно будет прервать во время ответа.

Новая модель нейросети сможет делать то, что не получалось и у предыдущих версий, отмечает главный архитектор систем искусственного интеллекта исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ Роман Душкин:

Роман Душкин главный архитектор систем искусственного интеллекта исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ «OpenAI обучили новую модель GPT воспринимать как минимум данные четырех новых модальностей, трех или четырех, в зависимости от того, как считать. Значит, если GPT-4 классическая или GPT-3.5 принимает данные одной модальности, то есть текст, который мы пишем, GPT-4 классическая воспринимает данные двух модальностей — это текст и картинки, которые мы можем кидать в чат, то GPT-4o уже добавляет две новые модальности данных — это звуки, аудио, то есть мы можем с ней голосом общаться, при этом она воспринимает интонацию, невербальные признаки разговора, которые мы воспринимаем интуитивно. Также она теперь может воспринимать видео, то есть можно прямо поток видеокамеры ей пускать, и она в режиме реального времени или очень близком обрабатывает этот поток и может или комментировать, или как-то реагировать. Использовать это можно там же, где и GPT-4, как минимум, то есть это гиперавтоматизация каких-то рутинных процессов, связанных с когнитивной обработкой информации. Вот эта система получает данные и обрабатывает данные в двух новых модальностях, то есть видео и звук, она может использоваться в том числе и для решения новых задач. Например, первое, что приходит в голову, — это видео, например комментирование каких-то спортивных матчей, то есть она же может на лету описывать то, что происходит. Это же можно применить, например, для системы охранного видеонаблюдения, для того чтобы смотреть, что происходит в створе видеокамеры, не происходит ли каких-то инцидентов».

В презентации представили несколько видеороликов. В одном из них нейросеть разговаривает по телефону с двумя парнями и поздравляет с днем рождения. Голос ИИ очень реалистичный, и нейросеть действительно быстро отвечает и даже смеется.

Смотрите также: