OpenAI представила GPT-4o, распознающую голос и видео

Текст:Андрей Ромашков

Лента новостей

Все новости »

Новый омнимодальный бот может смотреть через камеру телефона или на экран компьютера и отвечать голосом на 50 языках и делать это в реальном времени. Где такие умения окажутся востребованными?

У нейросети OpenAI появились глаза и уши. Новая модель GPT-4o может распознавать не только текст и картинки, но и голос, и видео. Среди прочего компания предлагает использовать ее в качестве репетитора по математике и языкам, после чего акции Duolingo заметно просели.

Уверенный лидер нейрорынка, OpenAI решил застолбить свою позицию, представив миру свою первую по-настоящему мультимодальную модель GPT-4o. Сами разработчики называют ее «омнимодальной», оттуда и буква «О» в названии. Распознаванием текста или картинок уже никого не удивишь, а новый бот может смотреть через камеру телефона или на экран компьютера и отвечать голосом на 50 языках. Причем все это — в реальном времени и с минимальными задержками, едва ли большими, чем в беседе с настоящим человеком. Инновацию оценивает главный архитектор систем искусственного интеллекта Исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ Роман Душкин:

Роман Душкин главный архитектор систем искусственного интеллекта Исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ «OpenAI обучили новую модель GPT воспринимать как минимум данные четырех новых модальностей, трех или четырех в зависимости от того, как считать. Значит, если ChatGPT или GPT-3.5 принимает данные одной модальности, то есть текст, который мы пишем, GPT-4 воспринимает данные двух модальностей — это текст и картинки, которые мы можем кидать в чат, то GPT-4o уже добавляет две новые модальности данных — это аудио и видео. То есть мы можем с ней голосом общаться, при этом она воспринимает интонацию, невербальные признаки разговора, которые мы воспринимаем интуитивно. Также она теперь может воспринимать видео, то есть можно прямо поток видеокамеры ей пускать, и она в режиме реального времени или очень близком обрабатывает этот поток и может или комментировать, или как-то реагировать. То есть это гиперавтоматизация каких-то рутинных процессов, связанных с когнитивной обработкой информации. Например, первое, что приходит в голову, — это видео, например комментирование каких-то спортивных матчей, то есть она же может на лету описывать то, что происходит. Это же можно применить, например, для системы охранного видеонаблюдения, для того чтобы смотреть, что происходит в створе видеокамеры, не происходит ли каких-то инцидентов».

В презентационных материалах OpenAI показала десятки примеров использования GPT-4o. Нейросеть может переводить голос в реальном времени, сочинять и петь колыбельные, менять скорость и эмоциональный тон голоса, понимать контекст по видео (например, увидев торт со свечкой, бот поинтересуется, у кого сегодня день рождения), оценивать и придумывать шутки, провести слабовидящего по улице и помочь ему поймать такси, выполнять консьерж-функции по заданию владельца, готовить человека к собеседованию, участвовать в деловых видеозвонках и даже учить подростка математике или иностранному языку. Хотя полностью заменить преподавателя GPT-4о вряд ли сможет, считает репетитор Варвара Лозовская:

Варвара Лозовская репетитор «С моей точки зрения, нет, он не может заменить репетитора по английскому и любому другому иностранному языку, потому что репетитор объяснит так, как искусственный интеллект не сможет. Более того, важен контакт между учеником и преподавателем, потому что каждому требуется индивидуальный подход: кому-то надо поговорить, кому-то, наоборот, помолчать, он готов вникать и слушать. Искусственный интеллект все равно не создаст того самого контакта и в первую очередь не объяснит так понятно, как объясняет репетитор, живой человек. А тем более если это ученик младшей или средней школы. То есть он не до конца реалистичен для того, чтобы передавать какие-то интонации и такую четкость речи, как это делает человек».

Кроме того, пока что и сами разработчики признают несовершенство GPT-4o — среди презентационных материалов есть и, так сказать, «фейлы» нейросети. Например, на одном из видео омнибот внезапно сваливается в бессвязные обрывки фраз. Правда, когда инженеры обращают на это внимание, нейросеть смеется и изящно выходит из положения, предлагая собеседникам начать заново.

В теории наибольшей проблемой восхождение омнибота OpenAI может стать для образовательных технологий, где люди и так отсутствуют. В частности, на фоне презентации GPT-4o заметно, сразу на 4%, просели акции Duolingo. Хотя напрямую связывать динамику с анонсом новой нейросети нельзя — бумаги языкового гиганта начали падать еще неделю назад, на выходе квартального отчета.

Смотрите также: