Путеводитель для роботов

Ни для кого не секрет, что одним их основных факторов, влияющих на расположение страниц интернет-ресурса на просторах поисковых систем, является уникальность контента (или другими словами - содержания). Конечно же простейшим способом избежать дублирующегося контента является просто собственноручная его генерация (или в крайнем случае с помощью наемных работников или посетителей Вашего сайта). Но, к сожалению, это позволяет избежать лишь повторов между разными сайтами. Помимо этого свою роль играют и повторы в рамках одного сайта. Наверняка Вы замечали, что многие CMS размещают один и тот же текст на разных страницах сайта: например на обычной странице, в RSS-ленте и каком-нибудь архиве.

Именно для решения этой маленькой проблемы и была создана технология под названием Robots Exclusion Protocol. С ее помощью можно минимизировать возможность повторов содержимого, проиндексированного поисковыми системами в рамках одного сайта, а также исключить из индекса неинформативные страницы.

Надеюсь, что Вы представляете себе в чем заключается принцип работы поисковых систем, но в любом случае не вижу причин для того чтобы не рассказать вкратце об этом. Помимо собственно сайта, где пользователи вводят ключевую фразу для поиска, любая поисковая система имеет еще две части: базу данных (другими словами - индекс сайтов) и специальной программы (которую чаще всего называют пауком или по-английски - crawler или spider, но иногда используется более общий термин - робот). Эта программа запущена на серверах поисковых систем во множестве экземпляров и основной целью их работы является пополнение и обновления индекса поисковой системы. Сам же сайт лишь делает выборку из индекса в соответствии с запросом и сортирует результат.

Принцип работы такого класса программ я уже упоминал в записи о борьбе со спамом, так что повторюсь лишь вкратце в надежде, что Вы ее уже читали: они перемещаются по просторам Сети следуя по гиперссылкам, и на каждой странице, куда они попадают, стараются выполнить заранее определенное действие, в нашем случае - проиндексировать ее.

Обсуждаемая нами технология дает возможность веб-мастеру предоставить crawler'ам, образно говоря, путеводитель по его сайту. Методов для этого имеется несколько:

Любой crawler прежде чем перейти на новый домен проверяет существование файла по адресу http://www.некий-домен.ru/robots.txt. В таком файле веб-мастер может разместить директивы для потенциальных компьютеризированных посетителей в соответствии с соответствующим стандартом. Если поисковый робот обнаруживает этот файл, то прочитав его он корректирует свой маршрут обхода всего интернет-ресурса в соответствии с указанными директивами.
Внутри заголовка любой HTML-страницы или любого другого документа, передаваемого по http протоколу (с помощью заголовков самого протокола), можно разместить специальный meta-tag для роботов, который также должен соответствовать стандарту, опубликованному в 1996 году.
Основной частью путеводителя чаще всего является карта сайта в формате XML. С ее помощью программа может быстро определить весь ассортимент страниц, которые ей было бы неплохо проиндексировать.
Самым последним был воплощен в жизнь метод, основанный на микроформатах. Реализуется он с помощью параметра rel="nofollow", указанного внутри тэга <a>, который обозначает ссылку, не предназначенную для перехода по ней пауком.

Карты сайтов и директивы robots.txt предназначены для определения маршрута путешествия crawler'а, в то время как микроформаты и meta-тэги - для влияния на сам процесс индексации.

У каждого из описанных выше методов есть своя узкая специализация:

robots.txt предоставляет базовый набор директив для роботов, которым они следуют даже в случае конфликтов с другими использованными методами.
Карта сайта влияет на последовательность и набор страниц, посещенных пауком, с помощью указания приоритетов страниц или времени последней модификации.
Мета-тэги распространяют свое действие на весь документ и влияет на индексирование страниц (если они одновременно присутствуют как в заголовке (X)HTML документа, так и в заголовках X-Robots-Tags HTTP-протокола, то приоритет считается выше у заголовков протокола).
Микроформаты позволяют в случае необходимости переопределять параметры любого конкретного тэга документа, не смотря на указания в мета-тэгах.

С синтаксисом robots.txt лучше всего ознакомиться прямо в соответствующей спецификации, ссылку на которую я уже приводил (хотя возможно в будущем я всетаки соберусь написать запись и по этому поводу). Не знаю занимается ли кто-нибудь генерацией карт сайта вручную, но для общего развития будет полезно изучить и ее формат, неплохим примером может послужить XML-карта этого блога.

18 января 2008 | Иван Блинков | Теория