РБК: у российских нейросетей произошел кризис роста
Машины уже изучили почти все русскоязычные тексты в интернете, при этом им не подходят тексты других нейросетей. По словам экспертов, разработчики ищут новые подходы для поиска данных
Читать на полной версииНейросети уже изучили почти все тексты на русском языке в Сети, и им тяжело дальше развиваться. Об этом РБК рассказали в Центре искусственного интеллекта МТС.
По словам экспертов, сейчас разработчики ищут новые подходы для поиска данных. Машинам не подходят тексты, сгенерированные другими нейросетями, а их в интернете стало много. К тому же такой вид искусственного интеллекта, как языковая модель, не работает с изображениями и видео, и для него выборка материалов для анализа тоже ограничена. Из-за нехватки текстов, а также из-за санкций и дефицита квалифицированных специалистов в ближайшие годы российский рынок продуктов с нейросетями будет расти медленнее, чем мировой. О том, что с этим можно сделать уже сейчас, говорит эксперт по искусственному интеллекту и робототехнике Эдуард Пройдаков:
— Здесь два выхода. Первое — это более активно заниматься оцифровкой библиотек. Есть Ленинка, в которой миллионы томов. Их цифруют, для этого существуют специальные сканеры. Плюс у нас масса неоцифрованных архивов. В Америке этот процесс и начали раньше, и масштабы оцифровки другие. Они там вкладывают в это колоссальные средства, то есть это еще и деньги. Второе — эти модели еще обучают на социальных сетях, но там есть несколько проблем: очень много сообщений в соцсетях генерируется ботами, то есть это не чисто человеческий, а, опять же, созданный машиной. Вторая проблема — это предвзятость: там много ругательств, криминала, и это все надо фильтровать. Эта чистка не может производиться полностью автоматически, значит, этим, опять же, должны заниматься люди, и это дорого стоит.
— Имеет ли смысл нанимать людей, которые будут специально для обучения искусственного интеллекта писать тексты?
— Писать нет, но в машинном обучении есть разные методы, и есть основное глубокое обучение, оно производится по размеченным текстам. То есть текст делится на фрагменты, эти фрагменты снабжаются некими тегами, чтобы обучающаяся программа понимала, к чему этот текст относится. Называется «обучение с учителем». Так вот, самая дорогая вещь — это как раз разметка. Этим занимаются отдельные фирмы, очень успешные. Основной прорыв, который сейчас наблюдается, — это генеративный искусственный интеллект: создаются две модели, и они друг с другом соревнуются. За четыре дня модель научилась играть в шахматы на уровне чемпиона, две модели прогнали между собой миллионы партий.
Дефицит текста и другого контента для развития искусственного интеллекта уже получил среди мировых разработчиков название «стена данных» — это та преграда, в которую они однажды рискуют упереться. Хотя в русском языке обычно говорится «упереться в потолок».
В июле в журнале Nature вышла статья об исследовании британско-канадских ученых, которые нарочно обучали языковые модели на текстах других нейросетей. Все попытки приводили к неминуемой деградации: модель начинала хуже подбирать слова, местами ее тексты превращались в набор букв.