Новости IT, хостинга
  Android, Apple, Facebook, Google, Linux, Microsoft, Samsung, Twitter, Интернет, Россия, браузеры, обновление ПО, онлайн-сервисы, операционные системы, планшеты, рынок ИТ, сделки, смартфоны, социальные сети, уязвимости  
  новостей: 10337
  комментариев: 2803

«Яндекс» научился искать текст на фото


Пользователи сервиса «Яндекс.Диск» получили возможность искать текст на изображениях, хранящихся в облаке. Новая функция основана на собственной системе распознавания, созданной компанией специально для этой цели.

Компания «Яндекс» запустила новую функцию в сервисе «Яндекс.Диск» — она позволяет выполнять поиск текста на хранимых в этом облаке изображениях за счет технологии распознавания.

«За десятилетия «цифровизации» у людей накопились тысячи изображений: сканы паспортов, договоров, документов, фотографий визиток и объявлений. Чаще всего эти изображения хранятся под названиями «scan» или «img123.jpg» — поэтому найти нужный файл стандартными средствами Windows, Mac или Linux практически невозможно, — пояснили в компании. — С 25 марта 2015 г. в «Яндексе» заработала собственная технология распознавания текста на изображениях. Теперь в поиске по «Диску» можно задать вопрос и получить ответ не только по названиям файлов и содержаниям текстовых документов, но и по изображениям, на которых присутствует это слово».

Функция умеет распознавать русские, английские, украинские и турецкие слова и работает с форматами изображений JPEG, GIF и PNG.

Чтобы функция заработала, компания «Яндекс» проиндексировала все изображения всех пользователей «Яндекс.Диска». На 22% изображений был найден текст. Сейчас каждое загружаемое в «Яндекс.Диск» изображение проверяется на наличие текста.

В основе поиска текста на изображениях лежит технология оптического распознавания символов. «Яндекс» разработал свою универсальную систему, способную распознавать текст на картинках разных по виду, содержанию и качеству. Система состоит из двух частей — классификатора картинок и модуля распознавания.

Сначала классификатор отбирает из всех картинок те, на которых изображен текст. Когда изображения с текстом отобраны, алгоритм находит на них линии, предположительно содержащие текст. Затем этапе алгоритм оставляет только те линии текста, в которых он уверен. После этого модуль распознавания разбивает линии текста на отдельные символы. Для каждого символа алгоритм выбирает несколько наиболее вероятных вариантов распознавания среди известных ему. Например, это могут быть буквы «О», «о» и цифра «0», очень похожие друг на друга. После этого в дело вступает языковая модель — алгоритм принимает решение, какой из символов-кандидатов подходит лучше всего.

Точность распознавания текста зависит от типа изображения, его четкости, фона, на котором находится текст, и других факторов. Поэтому для разных видов изображений она разная. Например, для отсканированных документов точность распознавания текстов на русском языке составляет около 80%, для фотографий с надписями — 63,2%, а для скриншотов приближается к 100%. Точность распознавания в среднем составляет свыше 70%, рассказали в «Яндексе».

Распознавание изображений — технология для «Яндекса» не новая. Например, «Яндекс» умеет искать похожие изображения в интернете — эта возможность также построена на технологиях распознавания.


Источник: cnews.ru

  26 марта 2015 821
Версия для печати

← предыдущая новость следующая новость →

Мой комментарий
Ваше имя*:
Email:
Комментарий*:
Зарегистрироваться автоматически: Вы будете зарегистрированы на сайте автоматически при добавлении комментария. Обязательно заполните поле Email для этого.
Сумма чисел 9 и 16*:            


Хостеры (2430)
HostDB (35)
Софт (2640)
Железо (993)
Интернет (1435)
Статистика и аналитика (3324)




Отправить сообщение администратору

Сумма чисел 21 и 1*:


Яндекс цитирования
сообщить о неточности