Новости IT, хостинга
Новость от 05.08.2011

Адрес в интернете:
https://news.hostdb.ru/index/show/id/4493

Может ли поисковый робот нарушить инструкцию robots.txt?


Файл robots.txt - непреложное правило или инструкция, которой можно пренебречь? Как не стать жертвой беспечности веб-мастеров? Что делать, если я обнаружил в поисковике чужие личные данные? На эти и другие вопросы "Ленты.ру" ответил Владимир Иванов, заместитель руководителя департамента эксплуатации компании "Яндекс".

"Лента.ру": Каким образом веб-страницы попадают в "Яндекс"? Что используется, кроме поискового робота, пришедшего по ссылкам?

Владимир Иванов: В "Яндексе" используются, на данный момент, 16 модификаций поискового робота, которые решают различные задачи. Полный список модификаций и краткое описание их функционала можно посмотреть на странице помощи: http://help.yandex.ru/webmaster/?id=995329.

С учетом этих модификаций поисковый робот является единственным способом попадания страниц в поисковый индекс.

Инструкции в файле robots.txt носят рекомендательный характер. Может ли робот нарушить эту инструкцию либо положить в индекс страницу, запрещенную robots.txt, но не выводить ее для пользователей?

Если страница запрещена к индексированию директивами файла robots.txt, поисковые роботы "Яндекса" не будут ее индексировать. Разумеется, я не могу прокомментировать принципы функционирования роботов других поисковых систем и тем более - скриптов, написанных многими людьми по всему миру, которые могут использоваться, например, для создания "зеркал" сайтов.

Подозреваю, что некоторые из них могут не использовать robots.txt.

Есть ли крупные поисковики, которые не соблюдают рекомендаций robots.txt?

Насколько мне известно, крупные поисковые системы, осуществляя индексирование, следуют директивам файла robots.txt. Но я, конечно, не могу за них поручиться.

Предположим, что на сайте интернет-магазина N есть файл robots.txt, в котором прописан запрет на индексацию веб-страниц с конфиденциальными данными. Гарантирует ли это на сто процентов, что личная информация покупателей не попадет в поисковую выдачу?

В отношении индекса "Яндекса" - да. Поскольку поисковый робот "Яндекса" правильно обрабатывает директивы файла robots.txt, а иных механизмов индексирования не предусмотрено, такие страницы не будут проиндексированы и не попадут в результаты поиска.

Вместе с тем нужно понимать, что использование директив в файле robots.txt является лишь указанием поисковым роботам о правилах индексирования сайта, но никак не защищает конфиденциальную информацию на сайте от других утечек. Для защиты необходимо использовать средства аутентификации и авторизации, которые обеспечивают предоставление такой информации только тем пользователям, которым она предназначена. Например, доступ к страницам с помощью логина и пароля на основе аутентификации HTTP или использования аутентификационных "кук", https с аутентификацией по сертификатам и др. Мы не рекомендуем использовать ограничения на основе IP-адреса пользователя, поскольку, как правило, такие механизмы не работают в случае, когда провайдеры организуют проксирование или трансляцию адресов.

В сервисах "Яндекса" появилась возможность запретить индексацию. Если сайт ранее индексировался, в течение какого времени он пропадет из индекса?

Если индексация сайта или части его страниц была запрещена, он пропадет из индекса вскоре после его планового обхода поисковым роботом "Яндекса". Этот процесс можно ускорить, используя специальную страницу сервиса "Яндекс.Вебмастер": http://webmaster.yandex.ru/delurl.xml.

Сейчас для большинства страниц время удаления из индекса составляет несколько часов с момента удаления URL через эту форму.

Какова политика "Яндекса" в отношении защиты прав пользователей? Если стало известно об утечке личных данных, станет ли "Яндекс" самостоятельно удалять эти данные из выдачи?

"Яндекс" не удаляет страницы сайта из результатов поиска до тех пор, пока сайт не предпримет меры для того, чтобы их содержимое не было доступно поисковой системе. Такими мерами может быть запрет индексации в файле robots.txt или с помощью метатега "noindex", а также ограничение доступа к содержимому страниц с помощью пароля.

Мы активно взаимодействуем с сообществом веб-мастеров и занимаемся просветительской работой по поводу необходимости защиты данных пользователей. Но, повторюсь, являясь "зеркалом интернета", мы самостоятельно не удаляем проиндексированные страницы, пока они доступны на самом сайте.

Будут ли введены автоматические "распознавалки" конфиденциальной информации? Если да, то как они будут работать?

Пока мы только изучаем эту возможность, так что еще рано говорить о конкретных способах проверки.

Есть ли у пользователей возможность заранее проверить, насколько "бережно" тот или иной интернет-сервис распоряжается личными данными?

Можно воспользоваться языком поисковых запросов "Яндекса" (http://help.yandex.ru/search/?id=481939) и выяснить, какие страницы с этого сайта известны поисковой системе. Конечно, отсутствие личных данных в индексе не гарантирует безупречную работу сервиса, но зато их присутствие точно говорит об ошибках в защите информации пользователей.

Сейчас рунетчики проверяют на "вшивость" практически все веб-сайты подряд. Если пользователь самостоятельно обнаружил утечку, какие действия вы посоветуете ему предпринять?

Наиболее правильный шаг - связаться с владельцами сайта и уведомить их о наличии проблемы. Нам известно несколько случаев попадания личной информации в поисковую систему, которые не стали публичными, потому что владельцы сайтов своевременно отреагировали на замечания и исправили ситуацию, ограничив этим возможный ущерб для своих пользователей.

Также пользователь может использовать форму обратной связи "Яндекса" (http://feedback.yandex.ru), и тогда мы попытаемся самостоятельно связаться с веб-мастерами проблемных сайтов. Но обращаться к сайтам напрямую - более эффективный способ.


Распечатано с HostDB.ru.