Insight IT

nofollow: за и против

Иван Блинков — Sun, 24 Feb 2008 16:51:00 +0300

Наверняка каждый владелец любого интернет-ресурса хоть раз сталкивался с этим микроформатом, rel-nofollow. Изначально он был введен для обозначения ссылок, оставленных кем-либо, кроме создателя самой веб-страницы, и, как следствие. для снятие с него ответственности за эту ссылку. Активнее всего этот микроформат влияет на работу большинства поисковых систем, оказывая влияние на учет ссылок в определении тех или иных параметров, присваиваемых страницам (Google PageRank, например). В общем случае ссылки, помеченные атрибутом rel="nofollow", из этого процесса исключаются. Но не все так однозначно, насчет этого микроформата сложилось масса мнений, так как несмотря на свое, казалось бы, предназначение бороться со спамом на форумах / блогах / социальных сетях / новостных порталах (нужное подчеркнуть), направленным на создание входящих ссылок на тот или иной ресурс, порой им злоупотребляют и используют там, где это было бы излишним.

Против

nofollow не в состоянии полностью предотвратить спам в ресурсах указанных выше типов;
название "nofollow" лишь сбивает с толку, crawler'ы все равно следуют по таким ссылкам;
nofollow порой вредит естественным ссылкам на сайты, которые вполне заслуженно могли бы и получить свою входящую ссылку при расчете того же, например, PageRank;
для использования простыми пользователями, этот микроформат абсолютно бесполезен;
благодаря nofollow поисковые системы порой не в состоянии отличить ссылки на сайты добросовестных читателей ресурса от ссылок спаммеров;
он препятствует возможности людей, оставляющих комментарии, привлечь внимание к какой-либо странице;
если взглянуть со стороны поисковых систем, nofollow препятствует Сети выглядеть как сеть, в прямом смысле этого слова;
единственные кто получают какую-либо пользу от этого микроформата - поисковые системы.

За

но тем не менее, если ссылка размещается посетителем только ради влияния на позицию своего ресурса в поисковых системах, наличие nofollow заставит его как минимум задуматься: а стоит ли?
помимо поисковых систем, данный микроформат может служить инструментом вебмастера для организации более эффективной перелинковки страниц в рамках одного сайта;
в недалеком будущем, возможно, движки сайтов смогут ставить атрибут nofollow не на всех подряд ссылках, оставленных посетителями, а только на подозрительных с их точки зрения (которая могла бы определяться, допустим, средствами эвристического анализа);
так как oформлен он в виде микроформата, он не противоречит стандартам XHTML и HTML.

Не смотря на множество спорных моментов, этот микроформат определенно имеет свою скромную роль в жизни Сети. Использовать его или нет - дело каждого, но по-моему если применять его в меру и только по прямому назначению, то он только несомненно помогает развитию как Сети в целом, так и конкретного ресурса в отдельности, особенно с точки зрения эффективности взаимодействия с поисковыми системами.

Путеводитель для роботов

Иван Блинков — Fri, 18 Jan 2008 01:13:00 +0300

Ни для кого не секрет, что одним их основных факторов, влияющих на расположение страниц интернет-ресурса на просторах поисковых систем, является уникальность контента (или другими словами - содержания). Конечно же простейшим способом избежать дублирующегося контента является просто собственноручная его генерация (или в крайнем случае с помощью наемных работников или посетителей Вашего сайта). Но, к сожалению, это позволяет избежать лишь повторов между разными сайтами. Помимо этого свою роль играют и повторы в рамках одного сайта. Наверняка Вы замечали, что многие CMS размещают один и тот же текст на разных страницах сайта: например на обычной странице, в RSS-ленте и каком-нибудь архиве.

Именно для решения этой маленькой проблемы и была создана технология под названием Robots Exclusion Protocol. С ее помощью можно минимизировать возможность повторов содержимого, проиндексированного поисковыми системами в рамках одного сайта, а также исключить из индекса неинформативные страницы.

Надеюсь, что Вы представляете себе в чем заключается принцип работы поисковых систем, но в любом случае не вижу причин для того чтобы не рассказать вкратце об этом. Помимо собственно сайта, где пользователи вводят ключевую фразу для поиска, любая поисковая система имеет еще две части: базу данных (другими словами - индекс сайтов) и специальной программы (которую чаще всего называют пауком или по-английски - crawler или spider, но иногда используется более общий термин - робот). Эта программа запущена на серверах поисковых систем во множестве экземпляров и основной целью их работы является пополнение и обновления индекса поисковой системы. Сам же сайт лишь делает выборку из индекса в соответствии с запросом и сортирует результат.

Принцип работы такого класса программ я уже упоминал в записи о борьбе со спамом, так что повторюсь лишь вкратце в надежде, что Вы ее уже читали: они перемещаются по просторам Сети следуя по гиперссылкам, и на каждой странице, куда они попадают, стараются выполнить заранее определенное действие, в нашем случае - проиндексировать ее.

Обсуждаемая нами технология дает возможность веб-мастеру предоставить crawler'ам, образно говоря, путеводитель по его сайту. Методов для этого имеется несколько:

Любой crawler прежде чем перейти на новый домен проверяет существование файла по адресу http://www.некий-домен.ru/robots.txt. В таком файле веб-мастер может разместить директивы для потенциальных компьютеризированных посетителей в соответствии с соответствующим стандартом. Если поисковый робот обнаруживает этот файл, то прочитав его он корректирует свой маршрут обхода всего интернет-ресурса в соответствии с указанными директивами.
Внутри заголовка любой HTML-страницы или любого другого документа, передаваемого по http протоколу (с помощью заголовков самого протокола), можно разместить специальный meta-tag для роботов, который также должен соответствовать стандарту, опубликованному в 1996 году.
Основной частью путеводителя чаще всего является карта сайта в формате XML. С ее помощью программа может быстро определить весь ассортимент страниц, которые ей было бы неплохо проиндексировать.
Самым последним был воплощен в жизнь метод, основанный на микроформатах. Реализуется он с помощью параметра rel="nofollow", указанного внутри тэга <a>, который обозначает ссылку, не предназначенную для перехода по ней пауком.

Карты сайтов и директивы robots.txt предназначены для определения маршрута путешествия crawler'а, в то время как микроформаты и meta-тэги - для влияния на сам процесс индексации.

У каждого из описанных выше методов есть своя узкая специализация:

robots.txt предоставляет базовый набор директив для роботов, которым они следуют даже в случае конфликтов с другими использованными методами.
Карта сайта влияет на последовательность и набор страниц, посещенных пауком, с помощью указания приоритетов страниц или времени последней модификации.
Мета-тэги распространяют свое действие на весь документ и влияет на индексирование страниц (если они одновременно присутствуют как в заголовке (X)HTML документа, так и в заголовках X-Robots-Tags HTTP-протокола, то приоритет считается выше у заголовков протокола).
Микроформаты позволяют в случае необходимости переопределять параметры любого конкретного тэга документа, не смотря на указания в мета-тэгах.

С синтаксисом robots.txt лучше всего ознакомиться прямо в соответствующей спецификации, ссылку на которую я уже приводил (хотя возможно в будущем я всетаки соберусь написать запись и по этому поводу). Не знаю занимается ли кто-нибудь генерацией карт сайта вручную, но для общего развития будет полезно изучить и ее формат, неплохим примером может послужить XML-карта этого блога.

SEO without category. Модифицированная версия.

Иван Блинков — Tue, 08 Jan 2008 02:13:00 +0300

Данный пост морально устарел и оставлен лишь из исторических соображений.

Помимо простого удаления префикса "category" из постоянных ссылок на рубрики, добавлены следующие возможности:

В случае, если рубрика является подрубрикой, производится замена ссылки "/рубрика/подрубрика" на просто "/подрубрика".
Исправлена ошибка, приводящая в некоторых случаях к появлению ссылок на несуществующие страницы подрубрик (ошибке 404 Not Found)
Работает даже в том случае, если префикс category был заменен на что-либо другое

Если у кого-либо возникнут какие-либо вопросы по этой модификации - прошу оставлять комментарии здесь, как связаться с автором оригинальной версии не знаю - страница, указанная как его адрес недоступна на данный момент.