Московская компания Dbrain разрабатывает продукт «Антифрод 2.0». Он предназначен для автоматического распознавания поддельных документов, в том числе паспортов России и стран СНГ, водительских прав и так далее. В основе технологии — нейросеть. Менеджер компании Артем Мещеряков заявил CNews, что компания собрала «данные о миллионе паспортов, чтобы «обучить» продукт».

Со слов менеджера, паспортные данные предоставили микрофинансовые организации, которые часто сталкиваются с фальшивыми документами. Некоторые сетевые СМИ и телеграм-каналы преподнесли это так, будто для обучения нейросети использовались настоящие персональные данные клиентов МФО.

Но гендиректор компании Dbrain, автор телеграм-канала AI Happens Алексей Хахунов это не подтвердил:

— Чтобы обучить нейросеть, надо собирать данные, как выглядят подделки, и мы действительно вместе с нашими клиентами проделали огромную работу, чтобы собрать датасет поддельных документов. Это не реальные документы россиян или кого-то еще. Это документы, которые люди подделали, прислали в организации, организации выявили, что они являются поддельными, и мы собрали эти данные, чтобы обучить свои алгоритмы. Наш проект-менеджер в порядке цифр, которые мы собирали, приукрасил для красного словца. Это не миллионы документов, но это очень большой объем данных, который скрупулезно в собирался.

— А сколько в итоге этих поддельных паспортов?

— Это десятки тысяч документов.

Представитель одной из крупнейших в России микрофинансовых организаций Матвей, попросивший не называть саму компанию, подтвердил, что она передавала фотографии фальшивых паспортов для обучения нейросети Dbrain. Также Матвей рассказал, для чего МФО требуется автоматическое распознавание фальшивых документов:

«Нам клиент предоставляет фотографию паспорта, то есть он не просто дает данные, а именно фотографирует свой паспорт, он у него на руках. Мы делаем вывод, что это именно тот клиент, который к нам пришел. Клиент может нам сказать данные, но мы же не знаем, кто нам эти данные дал. А когда нам клиент предоставляет фотографию паспорта, мы с помощью сервиса можем определить, что это фото паспорта не поддельное».

Для обучения нейросетей нужны наборы данных, или так называемые датасеты. Если требуются, например, изображения птиц, животных, деревьев, сооружений, каких-то различных предметов и тому подобного, то эти изображения можно получить разными способами. В простейшем случае найти в интернете. Но если нейросеть работает с персональными данными или другой чувствительной информацией, где взять наборы данных для ее обучения? Отвечает технический директор ООО «Дабл Ю ЭКсо» Петр Кравченко:

Петр Кравченко технический директор ООО «Дабл Ю ЭКсо» «С точки зрения процесса это может выглядеть следующим образом: есть у государственных органов определенная задача, они находят подрядчика, заключают с ним соглашение о неразглашении, в таких соглашениях может присутствовать в том числе и административная, и уголовная ответственность. Дальше подрядчик тренирует нейросеть на базе данных, которые ему предоставляют специализированные организации. Как правило, это работает так. У инженеров, у разработчиков иных источников получить эту информацию просто нет».

Если для обучения нейросети требуются общедоступные изображения, звуки или тексты, то можно найти готовые наборы данных — как бесплатные, так и платные. Создание датасетов для обучения нейросетей уже превратилось в отдельный бизнес, который многие считают весьма перспективным. В том числе и в России.