Insight IT

nofollow: за и против

Иван Блинков — Sun, 24 Feb 2008 16:51:00 +0300

Наверняка каждый владелец любого интернет-ресурса хоть раз сталкивался с этим микроформатом, rel-nofollow. Изначально он был введен для обозначения ссылок, оставленных кем-либо, кроме создателя самой веб-страницы, и, как следствие. для снятие с него ответственности за эту ссылку. Активнее всего этот микроформат влияет на работу большинства поисковых систем, оказывая влияние на учет ссылок в определении тех или иных параметров, присваиваемых страницам (Google PageRank, например). В общем случае ссылки, помеченные атрибутом rel="nofollow", из этого процесса исключаются. Но не все так однозначно, насчет этого микроформата сложилось масса мнений, так как несмотря на свое, казалось бы, предназначение бороться со спамом на форумах / блогах / социальных сетях / новостных порталах (нужное подчеркнуть), направленным на создание входящих ссылок на тот или иной ресурс, порой им злоупотребляют и используют там, где это было бы излишним.

Против

nofollow не в состоянии полностью предотвратить спам в ресурсах указанных выше типов;
название "nofollow" лишь сбивает с толку, crawler'ы все равно следуют по таким ссылкам;
nofollow порой вредит естественным ссылкам на сайты, которые вполне заслуженно могли бы и получить свою входящую ссылку при расчете того же, например, PageRank;
для использования простыми пользователями, этот микроформат абсолютно бесполезен;
благодаря nofollow поисковые системы порой не в состоянии отличить ссылки на сайты добросовестных читателей ресурса от ссылок спаммеров;
он препятствует возможности людей, оставляющих комментарии, привлечь внимание к какой-либо странице;
если взглянуть со стороны поисковых систем, nofollow препятствует Сети выглядеть как сеть, в прямом смысле этого слова;
единственные кто получают какую-либо пользу от этого микроформата - поисковые системы.

За

но тем не менее, если ссылка размещается посетителем только ради влияния на позицию своего ресурса в поисковых системах, наличие nofollow заставит его как минимум задуматься: а стоит ли?
помимо поисковых систем, данный микроформат может служить инструментом вебмастера для организации более эффективной перелинковки страниц в рамках одного сайта;
в недалеком будущем, возможно, движки сайтов смогут ставить атрибут nofollow не на всех подряд ссылках, оставленных посетителями, а только на подозрительных с их точки зрения (которая могла бы определяться, допустим, средствами эвристического анализа);
так как oформлен он в виде микроформата, он не противоречит стандартам XHTML и HTML.

Не смотря на множество спорных моментов, этот микроформат определенно имеет свою скромную роль в жизни Сети. Использовать его или нет - дело каждого, но по-моему если применять его в меру и только по прямому назначению, то он только несомненно помогает развитию как Сети в целом, так и конкретного ресурса в отдельности, особенно с точки зрения эффективности взаимодействия с поисковыми системами.

Путеводитель для роботов

Иван Блинков — Fri, 18 Jan 2008 01:13:00 +0300

Ни для кого не секрет, что одним их основных факторов, влияющих на расположение страниц интернет-ресурса на просторах поисковых систем, является уникальность контента (или другими словами - содержания). Конечно же простейшим способом избежать дублирующегося контента является просто собственноручная его генерация (или в крайнем случае с помощью наемных работников или посетителей Вашего сайта). Но, к сожалению, это позволяет избежать лишь повторов между разными сайтами. Помимо этого свою роль играют и повторы в рамках одного сайта. Наверняка Вы замечали, что многие CMS размещают один и тот же текст на разных страницах сайта: например на обычной странице, в RSS-ленте и каком-нибудь архиве.

Именно для решения этой маленькой проблемы и была создана технология под названием Robots Exclusion Protocol. С ее помощью можно минимизировать возможность повторов содержимого, проиндексированного поисковыми системами в рамках одного сайта, а также исключить из индекса неинформативные страницы.

Надеюсь, что Вы представляете себе в чем заключается принцип работы поисковых систем, но в любом случае не вижу причин для того чтобы не рассказать вкратце об этом. Помимо собственно сайта, где пользователи вводят ключевую фразу для поиска, любая поисковая система имеет еще две части: базу данных (другими словами - индекс сайтов) и специальной программы (которую чаще всего называют пауком или по-английски - crawler или spider, но иногда используется более общий термин - робот). Эта программа запущена на серверах поисковых систем во множестве экземпляров и основной целью их работы является пополнение и обновления индекса поисковой системы. Сам же сайт лишь делает выборку из индекса в соответствии с запросом и сортирует результат.

Принцип работы такого класса программ я уже упоминал в записи о борьбе со спамом, так что повторюсь лишь вкратце в надежде, что Вы ее уже читали: они перемещаются по просторам Сети следуя по гиперссылкам, и на каждой странице, куда они попадают, стараются выполнить заранее определенное действие, в нашем случае - проиндексировать ее.

Обсуждаемая нами технология дает возможность веб-мастеру предоставить crawler'ам, образно говоря, путеводитель по его сайту. Методов для этого имеется несколько:

Любой crawler прежде чем перейти на новый домен проверяет существование файла по адресу http://www.некий-домен.ru/robots.txt. В таком файле веб-мастер может разместить директивы для потенциальных компьютеризированных посетителей в соответствии с соответствующим стандартом. Если поисковый робот обнаруживает этот файл, то прочитав его он корректирует свой маршрут обхода всего интернет-ресурса в соответствии с указанными директивами.
Внутри заголовка любой HTML-страницы или любого другого документа, передаваемого по http протоколу (с помощью заголовков самого протокола), можно разместить специальный meta-tag для роботов, который также должен соответствовать стандарту, опубликованному в 1996 году.
Основной частью путеводителя чаще всего является карта сайта в формате XML. С ее помощью программа может быстро определить весь ассортимент страниц, которые ей было бы неплохо проиндексировать.
Самым последним был воплощен в жизнь метод, основанный на микроформатах. Реализуется он с помощью параметра rel="nofollow", указанного внутри тэга <a>, который обозначает ссылку, не предназначенную для перехода по ней пауком.

Карты сайтов и директивы robots.txt предназначены для определения маршрута путешествия crawler'а, в то время как микроформаты и meta-тэги - для влияния на сам процесс индексации.

У каждого из описанных выше методов есть своя узкая специализация:

robots.txt предоставляет базовый набор директив для роботов, которым они следуют даже в случае конфликтов с другими использованными методами.
Карта сайта влияет на последовательность и набор страниц, посещенных пауком, с помощью указания приоритетов страниц или времени последней модификации.
Мета-тэги распространяют свое действие на весь документ и влияет на индексирование страниц (если они одновременно присутствуют как в заголовке (X)HTML документа, так и в заголовках X-Robots-Tags HTTP-протокола, то приоритет считается выше у заголовков протокола).
Микроформаты позволяют в случае необходимости переопределять параметры любого конкретного тэга документа, не смотря на указания в мета-тэгах.

С синтаксисом robots.txt лучше всего ознакомиться прямо в соответствующей спецификации, ссылку на которую я уже приводил (хотя возможно в будущем я всетаки соберусь написать запись и по этому поводу). Не знаю занимается ли кто-нибудь генерацией карт сайта вручную, но для общего развития будет полезно изучить и ее формат, неплохим примером может послужить XML-карта этого блога.

Откуда возникает спам и как с ним бороться

Иван Блинков — Thu, 03 Jan 2008 20:25:00 +0300

На сегодняшний день далеко не каждый пользователь Сети является человеком, возможно это покажется странным для не интересующегося ИТ читателя, но существует множество программ, способных передвигаться по сайтам, следуя по гипер-ссылкам, как внутри одного сайта, так и переходя с одного сайта на другой (в целом такой тип программ называется spider или crawler). Такие программы могут иметь совершенно разное предназначение, самый распространенный пример: поисковые системы используют crawler'ов для пополнения своих индексов, но, к сожалению, далеко не все программы этого класса написаны для благих целей.

Good vs Evil

Большая часть "хороших" spider'ов используется лишь для сбора информации о сайте и следуют пожеланиям владельцев сайтов, оставленных ими в специальном файле под названием robots.txt, либо внутри HTML-разметки с помощью специально предназначенных для этого тэгов (этот механизм выходит за рамки данного повествования, так что позволю себе его пропустить, оставив как тему для отдельного разговора).

Но даже сбор информации во время автоматизированного путешествия программы по сайтам можно использовать в корыстных целях - на многих сайтах люди размещают свою контактную информацию для тех или иных целей, и некоторые сайты эту информацию "публикуют". Spider, настроенный на сбор контактной информации (в основном адресов электронной почты и номеров ICQ и прочих служб обмена сообщениями) может в очень сжатые сроки насобирать длинный список адресов, пригодный, например, для рассылки нежелательной рекламы, в простонародье называемой спам. Избежать попадания своей контактной информации в такие списки относительно просто - достаточно лишь следить за тем, чтобы она либо не публиковалась, либо была защищена любым из простейших способов защиты от такого рода программ, начиная от банального требования регистрации для просмотра контактных данных пользователей, заканчивая выводом адресов через изображения или шифрование посредством JavaScript.

Среди прочих функций, которые может выполнять такого рода программа, одной из наиболее часто используемых является возможность заполнения такой неотъемлемой составляющей практически любого сайта, как формы. Имея возможность заполнения существенно большего количества форм в единицу времени, чем человек, такие программы служат основным источником спама в гостевых книгах, форумах и блогах. Еще одним из возможных применений автоматического заполнения форм является регистрация на множестве интернет-ресурсов с целью получения какой-либо выгоды, например регистрация сайтов в каталогах. Помимо этого crawler перемещается по сайту с относительно высокой скоростью, что резко увеличивает нагрузку на сервер, особенно при недостаточно оптимизированном движке сайта и/или недостатке ресурсов сервера, выделяемых на выполнение скриптов сайта.

Защита форм от автоматического заполнения

Наверняка многие из вас раньше слышали термин CAPTCHA, но боялись спросить: что же он значит? Как не трудно догадаться этот термин является аббревиатурой :). Расшифровывается она как "Completely Automated Public Turing test to tell Computers and Humans Apart". Для меня до сих пор остается загадкой по какому принципу выбирались слова для составления этой аббревиатуры, наверное тупо случайным образом :). Смысл этой фразы в переводе на русский можно передать как "полностью автоматический способ отличить человека от компьютера". Конечно же имеется ввиду не внешние различия, а особенности их поведения на просторах сети Интернет. В роли "компьютера" в данном случае как раз выступают программы, о которых шла речь в самом начале. Эта технология позволяет владельцам сайтов, желающих исключить (по крайней мере чисто теоретически, на практике же - минимизировать) посещение своего ресурса "плохими" "компьютерами", крайне затруднить их использование.

В основе этой технологии лежит тот факт, что у программ в большинстве случаев отсутствует даже какое-либо подобие образного мышления - они следуют заранее четко определенному алгоритму. Существует множество вариантов реализации защиты сайта с использованием этого недостатка компьютерных программ, но все они представляют некоторую проверку, предлагаемую пользователю и стремящуюся к удовлетворению следующего ряда требований:

Современные компьютеры не должны иметь возможности точно ее пройти.
Она должна быть "по зубам" большинству людей.
Не должна полагаться на тот факт, что потенциальный "злоумышленник" просто не знаком с принципом работы данной проверки.

Более подробно о возможностях этой технологии можно узнать, прочитав запись о нескольких вариантах ее реализации.