OpenAI представила GPT-4o, распознающую голос и видео
Новый омнимодальный бот может смотреть через камеру телефона или на экран компьютера и отвечать голосом на 50 языках и делать это в реальном времени. Где такие умения окажутся востребованными?
Читать на полной версииУ нейросети OpenAI появились глаза и уши. Новая модель GPT-4o может распознавать не только текст и картинки, но и голос, и видео. Среди прочего компания предлагает использовать ее в качестве репетитора по математике и языкам, после чего акции Duolingo заметно просели.
Уверенный лидер нейрорынка, OpenAI решил застолбить свою позицию, представив миру свою первую по-настоящему мультимодальную модель GPT-4o. Сами разработчики называют ее «омнимодальной», оттуда и буква «О» в названии. Распознаванием текста или картинок уже никого не удивишь, а новый бот может смотреть через камеру телефона или на экран компьютера и отвечать голосом на 50 языках. Причем все это — в реальном времени и с минимальными задержками, едва ли большими, чем в беседе с настоящим человеком. Инновацию оценивает главный архитектор систем искусственного интеллекта Исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ Роман Душкин:
В презентационных материалах OpenAI показала десятки примеров использования GPT-4o. Нейросеть может переводить голос в реальном времени, сочинять и петь колыбельные, менять скорость и эмоциональный тон голоса, понимать контекст по видео (например, увидев торт со свечкой, бот поинтересуется, у кого сегодня день рождения), оценивать и придумывать шутки, провести слабовидящего по улице и помочь ему поймать такси, выполнять консьерж-функции по заданию владельца, готовить человека к собеседованию, участвовать в деловых видеозвонках и даже учить подростка математике или иностранному языку. Хотя полностью заменить преподавателя GPT-4о вряд ли сможет, считает репетитор Варвара Лозовская:
Варвара Лозовская репетитор «С моей точки зрения, нет, он не может заменить репетитора по английскому и любому другому иностранному языку, потому что репетитор объяснит так, как искусственный интеллект не сможет. Более того, важен контакт между учеником и преподавателем, потому что каждому требуется индивидуальный подход: кому-то надо поговорить, кому-то, наоборот, помолчать, он готов вникать и слушать. Искусственный интеллект все равно не создаст того самого контакта и в первую очередь не объяснит так понятно, как объясняет репетитор, живой человек. А тем более если это ученик младшей или средней школы. То есть он не до конца реалистичен для того, чтобы передавать какие-то интонации и такую четкость речи, как это делает человек».
Кроме того, пока что и сами разработчики признают несовершенство GPT-4o — среди презентационных материалов есть и, так сказать, «фейлы» нейросети. Например, на одном из видео омнибот внезапно сваливается в бессвязные обрывки фраз. Правда, когда инженеры обращают на это внимание, нейросеть смеется и изящно выходит из положения, предлагая собеседникам начать заново.
В теории наибольшей проблемой восхождение омнибота OpenAI может стать для образовательных технологий, где люди и так отсутствуют. В частности, на фоне презентации GPT-4o заметно, сразу на 4%, просели акции Duolingo. Хотя напрямую связывать динамику с анонсом новой нейросети нельзя — бумаги языкового гиганта начали падать еще неделю назад, на выходе квартального отчета.
К тому же в приложение уже интегрированы продукты OpenAI — подписчики Duolingo Max могут учить языки с помощью GPT-4.