ABBYY Language Services ищет поддержку в «Сколково»
Генеральный директор ABBYY Language Services Иван Смольников в интервью BFM.ru рассказал об «облачном» продукте, который упростит процесс перевода технической документации
Читать на полной версииABBYY Language Services, входящая в группу компаний ABBYY, пришла в «Сколково», чтобы продолжить разработку платформы для комплексной автоматизации работы переводчиков. В апреле компания получила статус резидента технограда.
В настоящее время ABBYY Language Services работает над созданием «облачного» продукта, который, как утверждают разработчики, позволит значительно сократить время перевода технической документации и других «нелитературных» текстов, при этом повысив его качество.
Цель проекта, заявленного в «Сколково», — разработка технологической платформы нового поколения для автоматизации работы переводчиков. В ее основе лежит морфологический поиск по базам Translation Memory (TM) большого объема и возможность использования TM в «облаке» с распределенной одновременной работой множества пользователей. Одним из приложений данной технологии станет облачная CAT-система, которая по целому ряду параметров будет превосходить аналогичные решения, обещают в ABBYY Language Services.
О том, как реализуется проект, зачем компании понадобился статус резидента «Сколково» и какую помощь она собирается получить от технограда, в интервью BFM.ru рассказал генеральный директор ABBYY Language Services Иван Смольников.
— Зачем ABBYY Language Services пришла в «Сколково»?
— «Сколково» собирает вместе представителей образования, бизнеса и науки с правильным, на мой взгляд, мышлением. Мы не раз были на встречах, видели, кого принимают в инноград, и поняли, что это достойные люди, с которыми интересно разговаривать. Даже простое общение с ними приносит пользу. Поэтому даже если мы не будем претендовать на грант или если мы его не получим, то сам факт сотрудничества с разными бизнесменами, экспертами и представителями IT, причем не только стартапов, уже будет для нас полезным.
Есть и второй фактор — это льготы, которые получает компания. Основные затраты любой IT-компании — на 85% — это люди. На данный момент мы в рамках уже существующей компании создаем стартап, в котором трудится некоторое число людей. Все они получают зарплату, а это довольно тяжело — платить большому количеству людей зарплату с одновременным отчислением всех существующих налогов и взносов. Помощь «Сколково» в этом вопросе состоит в уменьшении налоговой нагрузки на исследовательский персонал.
Еще есть ряд потенциальных бонусов, но пока не понятно, удастся ли ими воспользоваться — например, в технопарке, проводятся различные мероприятия по обмену опытом с Силиконовой долиной.
— Вы упомянули возможность получения гранта. Собираетесь подавать заявку?
— Собираемся. Причины достаточно банальны: «Сколково» задумывалось и сейчас довольно успешно, на мой взгляд, старается функционировать как платформа, которая должна позволить российским компаниям достичь определенного международного уровня. В России мы уже стали одним из признанных лидеров рынка. Но наша цель более амбициозна — мы хотим укрепиться на мировой арене, причем не только с программами распознавания документов, но и в области лингвистических услуг и технологий. А для этого нужна финансовая поддержка, потому что одновременно инвестировать в новые разработки и сражаться с мировыми гигантами, находящимися в другой весовой категории, тяжеловато только за счет своих собственных ресурсов.
— Как вы оцениваете свои шансы на получение гранта?
— Ровно так, как пишут на сайте «Сколково». Они говорят, что в среднем финансирование получает каждый пятый. Мы считаем себя достойной компанией, обладающей потенциалом развития. Мы будем очень рады, если получим грант, но пока у нас нет даже предварительного согласования внутри кластера. Поэтому пока преждевременно о чем-либо говорить. А вот месяца через три-четрые мы уже сможем поделиться своим опытом.
— На какую сумму рассчитываете?
— Наш проект находится на ранней стадии, поэтому мы претендуем на достаточно небольшие суммы, типичные для IT-проектов такой стадии развития.
— У ABBYY Language Services большая команда? Сколько человек работает над проектом?
— Команда достаточно большая, поскольку мы являемся крупнейшей компанией на рынке лингвистических услуг и технологий в России. В штате свыше 100 человек, еще есть множество внештатных исполнителей по всему миру.
Если же мы говорим о проекте, связанном с технологией Translation Memory, — это выделенная, четко специализированная команда, занимающаяся исключительно данным проектом. В ней восемь разработчиков. Помимо этого, в случае необходимости, мы подключаем к ним дополнительных специалистов из основного бизнеса. При наличии дополнительных источников финансирования мы увеличим команду и благодаря этому сможем выпустить продукт значительно быстрее. Если этого не произойдет, мы будем вынуждены развивать проект с текущей скоростью, но при этом сильно возрастает риск упустить рынок.
— На каком этапе сейчас находится проект на базе Translation Memory? Какие работы уже проделаны и что еще предстоит сделать?
— Сначала хотелось бы пояснить, что Translation Memory — это специальные базы накопленных переведенных материалов, используемые при дальнейших переводах. Они позволяют переводчику придерживаться терминологии, принятой в конкретной компании или проекте, а также сократить стоимость перевода и сроки выполнения работы.
Первый этап нашего проекта связан с разработками в области базовых лингвистических технологий поиска и индексирования информации, а также с повышением эффективности поиска за счет работы с синтаксисом и морфологией языка. Все это — с повышением скорости поиска. То есть речь идет о базовых технологиях, над которыми работают системные программисты. Этой частью проекта мы занялись уже более четырех лет назад.
В настоящее время требуются дополнительные исследования, чтобы обеспечить качественный скачок по сравнению с уже существующими аналогичными продуктами. Наши исследования и эксперименты показывают, что эта цель достижима. Далее «вокруг» этих технологий нужно будет создавать конкретный продукт.
— Что это будет за продукт на выходе?
— Это будет платформа, представляющая переводчикам веб-интерфейс и эффективно автоматизирующая их работу. Сейчас мы работаем над промежуточными внутренними слоями продукта — программным интерфейсом и набором библиотек, которые потом получат «упаковку» в виде пользовательского интерфейса.
Отмечу, что и в рамках дополнительного финансирования в «Сколково», если удастся его получить, и даже при отсутствии гранта, налоговые льготы позволят увеличить финансирование этих работ, мы в самое ближайшее время сможем начать работу над интерфейсом и прочими составляющими, позволяющими создать из базовой технологии работающий продукт.
— Для чего нужна Translation Memory и кто ее создал?
— Технология Translation Memory, как класс, существует давно, первые коммерческие продукты появились в конце 80-х годов прошлого столетия, активное распространение в развитых странах технологии получили к концу 90-х годов. Но мы опираемся на собственные разработки, создаваемые ABBYY многие годы. По сути, это поиск по базам параллельных текстов с учетом синтаксиса и морфологии языка. В аналогичных системах эти аспекты языка не учитываются. Поясню: если мы в какой-то момент сделали перевод, мы его запомнили и сохранили в базу. И когда начинаем делать следующий перевод, у нас может оказаться похожее предложение, которое отличается одним-двумя словами. Поэтому мы ищем тот изначально переведенный фрагмент, который уже есть в базе, видим в чем состоит его отличие, предлагаем замены для новых слов с учетом синтаксиса и морфологии из других ранее выполненных переводов в рамках того же самого проекта.
— Что именно попадает в базу?
— В основном — результат работы людей, профессиональных переводчиков. И, например, когда начинается перевод следующего текста, который лишь немного изменился, очевидно, выгоднее взять существующий готовый перевод и заменить в нем отдельные слова, чем переводить все заново. В результате, повышается скорость перевода, сокращаются издержки, а качество работы при этом повышается, потому что поддерживается единообразие терминологии и стиля изложения.
— С техническими текстами все более-менее ясно, но можно ли посредством вашего продукта переводить, например, художественную литературу?
— Художественная литература изобилует различиями, там богатая стилистика. При этом объемы технических переводов в мире огромны. Это локализация сайтов, программных продуктов, перевод инструкций и многое другое. В таких текстах используются стандартные клише, а также есть задача не плодить разнообразную терминологию и формулировки. Там много повторяющихся сегментов.
Как я уже отмечал, технология памяти переводов уже давно используется, просто мы рассчитываем сделать ее существенно более эффективной и доступной для переводчиков. Наша задача: находить большее число повторов, лучше их выделять в тексте, делать это быстрее. И все это развернуть на больших базах Translation Memory в «облаке». Переводить с помощью платформы художественную литературу, конечно, можно, но уровень автоматизации будет существенно ниже, чем для технической документации.
— Вы упоминали морфологический поиск — что имеется в виду?
— Поясню на примере. У нас есть предложение, которое немного отличается от уже существующего в базе, например, изменились падежи, окончания. Для текущих алгоритмов это будут новые слова, а, следовательно, новое предложение. Скорее всего, оно найдется с низким уровнем совпадений, но при этом будет не очень понятна степень сходства между старым и новым предложениями. Если же учитывать морфологию языка, то технология поиска может понимать, что это очень близкие предложения, потому что изменились незначительные вещи. Такое совпадение будет признано более релевантным. Получается, что мы видим более качественные совпадения. Также мы можем посмотреть, как схожие фразы переводились в других предложения, и, возможно, собрать предложение из частей нескольких аналогичных переведенных ранее предложений, хранящихся в базе.
Чем больше база Translation Memory, тем больше находится разных неполных совпадений, тем сложнее между ними осуществить правильный выбор. Чем выше качество алгоритмов, тем более эффективно мы используем большую базу. Сейчас у многих компаний накоплены очень большие базы, но не всегда получается использовать их с высоким КПД.
— Что потребуется переводчику, чтобы начать работать с вашим продуктом?
— Мы предполагаем, что переводчики смогут работать с ним просто из браузера. Заходишь в браузер, загружаешь соответствующий исходный документ, переводишь. Система очень гибкая, масштабируемая и позволяет подключать большое количество пользователей для одновременной работы над одним проектом.
Сейчас критичен вопрос скорости перевода, потому что когда какой-либо продукт выходит на международный рынок одновременно на 15 языках, зачастую, как показывает практика, на локализацию остается минимальное время. И это типичная ситуация, так как никто не позволит вам спокойно переводить в течение нескольких месяцев. А чтобы успеть, нужно эффективно выстраивать параллельную работу нескольких человек. И не просто разделять текст между двадцатью переводчиками в разных странах, а потом как-то собирать его куски с разной стилистикой и терминологией. А нужно дать им возможность одновременной работы с единой базой терминологии и Translation Memory.
— Сейчас таких возможностей нет?
— В принципе, такая возможность существует, но она реализована с помощью тяжелых, сложных продуктов с клиент-серверной архитектурой. Каждому переводчику нужно установить продукт, а каждая лицензия стоит немалых денег. Представим, что у вас возникла срочная необходимость перейти в рамках одного проекта от трех переводчиков к тридцати. Сейчас это сделать довольно сложно, особенно если сохранять для всех одновременный доступ к единой базе TM. Но если вам будет нужно просто дать человеку доступ к системе в браузере, то ему останется лишь запустить браузер и подключиться к проекту, в котором уже есть и Translation Memory, и глоссарии, и все остальное. И это уже совсем другой уровень удобства и готовности к масштабированию.
— Сколько языков будет поддерживать ваша система? Есть ли какие-то сложности с добавлением языков?
— В базовой технологии, по которой сейчас продолжаются исследования и разработка, 60 языков. С учетом морфологии поддерживается 35 языков, остальные — чуть-чуть хуже.
По добавлению особых ограничений нет, кроме азиатских и арабских языков. Там есть некоторые нюансы, но и они преодолимы, это вопрос времени и наличия ресурсов на разработку,
В конечном итоге мы планируем дойти примерно до 60–65 языков, которые закрывают подавляющее большинство потребностей в плане локализации для крупных международных компаний. Очень небольшое количество крупных компаний в мире локализуются на большее количество языков. Среди них буквально несколько мировых гигантов, например, Google и Microsoft. Остальные укладываются в указанную цифру, а чаще всего ограничиваются 30–35 языками.
— Кому ваш продукт интересен, на каких заказчиков вы рассчитываете?
— Мы считаем, что продукт будет полезен разным сегментам рынка. Мы не обманываемся надеждами на мгновенное распространение продукта в среде крупных заказчиков. У крупной корпорации из-за внутренних процессов и сложной инфраструктуры гораздо больше препятствий для смены технологической платформы. Даже если в компании понимают, что существующая платформа устарела и недостаточно эффективна, с ходу поменять все, что уже работает, невозможно. Это длительный процесс. Поэтому изначально мы рассчитываем на индивидуальных переводчиков и мелкие, средние предприятия, вероятно, переводческие компании. Для них это будет просто, удобно и дешево.
— Вы сказали — это дешево. Насколько?
— Около 10 долларов в месяц на одного пользователя, но пока рано об этом говорить, поскольку до продукта, готового к продаже, еще достаточно далеко, и рынок неизбежно претерпит изменения к тому времени.
— Когда вы рассчитываете выпустить готовый продукт?
— Пока сложно зарекаться. Полтора-два года — реальный срок.
— На какие рынки планируете выходить?
— Мы сразу целимся на то, что будем подключать пользователей с различных рынков. Рынок США представляет для нас очень большой интерес, азиатские рынки, безусловно, Европа. При этом российские пользователи обижены не будут. Более того, у нас есть цели и желание для проектов определенного рода давать продукт бесплатно. Это будет касаться студенческих и социально значимых проектов.
— Какая роль в работе с текстами останется за переводчиками?
— Человек выбирает варианты, в случае необходимости он может подредактировать текст. Если совпадение не полное — довести до нужного уровня. Кроме того, всегда будет какое-то количество абсолютно новых сегментов в тексте, их потребуется перевести с нуля. Человек доводит перевод до максимального качества.