«Яндекс» научился искать текст на фото.

Пользователи сервиса «Яндекс.Диск» получили возможность искать текст на изображениях, хранящихся в облаке. Новая функция основана на собственной системе распознавания, созданной компанией специально для этой цели.

Компания «Яндекс» запустила новую функцию в сервисе «Яндекс.Диск» — она позволяет выполнять поиск текста на хранимых в этом облаке изображениях за счет технологии распознавания.

«За десятилетия «цифровизации» у людей накопились тысячи изображений: сканы паспортов, договоров, документов, фотографий визиток и объявлений. Чаще всего эти изображения хранятся под названиями «scan» или «img123.jpg» — поэтому найти нужный файл стандартными средствами Windows, Mac или Linux практически невозможно, — пояснили в компании. — С 25 марта 2015 г. в «Яндексе» заработала собственная технология распознавания текста на изображениях. Теперь в поиске по «Диску» можно задать вопрос и получить ответ не только по названиям файлов и содержаниям текстовых документов, но и по изображениям, на которых присутствует это слово».

Функция умеет распознавать русские, английские, украинские и турецкие слова и работает с форматами изображений JPEG, GIF и PNG.

Чтобы функция заработала, компания «Яндекс» проиндексировала все изображения всех пользователей «Яндекс.Диска». На 22% изображений был найден текст. Сейчас каждое загружаемое в «Яндекс.Диск» изображение проверяется на наличие текста.

В основе поиска текста на изображениях лежит технология оптического распознавания символов. «Яндекс» разработал свою универсальную систему, способную распознавать текст на картинках разных по виду, содержанию и качеству. Система состоит из двух частей — классификатора картинок и модуля распознавания.

Сначала классификатор отбирает из всех картинок те, на которых изображен текст. Когда изображения с текстом отобраны, алгоритм находит на них линии, предположительно содержащие текст. Затем этапе алгоритм оставляет только те линии текста, в которых он уверен. После этого модуль распознавания разбивает линии текста на отдельные символы. Для каждого символа алгоритм выбирает несколько наиболее вероятных вариантов распознавания среди известных ему. Например, это могут быть буквы «О», «о» и цифра «0», очень похожие друг на друга. После этого в дело вступает языковая модель — алгоритм принимает решение, какой из символов-кандидатов подходит лучше всего.

Точность распознавания текста зависит от типа изображения, его четкости, фона, на котором находится текст, и других факторов. Поэтому для разных видов изображений она разная. Например, для отсканированных документов точность распознавания текстов на русском языке составляет около 80%, для фотографий с надписями — 63,2%, а для скриншотов приближается к 100%. Точность распознавания в среднем составляет свыше 70%, рассказали в «Яндексе».

Распознавание изображений — технология для «Яндекса» не новая. Например, «Яндекс» умеет искать похожие изображения в интернете — эта возможность также построена на технологиях распознавания.