<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Insight IT</title><link>https://www.insight-it.ru/</link><description></description><atom:link href="https://www.insight-it.ru/tag/poiskovye-sistemy/feed/index.xml" rel="self"></atom:link><lastBuildDate>Thu, 14 Jan 2010 00:01:00 +0300</lastBuildDate><item><title>Aladdin от Baidu</title><link>https://www.insight-it.ru//highload/2010/aladdin-ot-baidu/</link><description>&lt;p&gt;Наверняка все прекрасно знают о лидерах интернет-поиска в российской
части интернета: про Google, Яндекс или Рамблер сказано уже не мало
слов, все много раз о них читали, пользовались, обсуждали - ведь уже
прошло больше 10 лет с момента создания каждой из этих поисковых систем
и, как следствие, их конкуренции на просторах рунета. Намного меньше же
внимания на российских информационных сайтах уделяется национальным
проектам других стран, а ведь среди них тоже есть заслуживающие внимания
экземпляры, об одном из них я бы и хотел сегодня поведать.
&lt;!--more--&gt;&lt;/p&gt;
&lt;h2 id="istochniki-dannykh"&gt;Источники данных&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="https://www.insight-it.ru/goto/7e247449/" rel="nofollow" target="_blank" title="http://tech.sina.com.cn/i/2009-12-16/14423683386.shtml"&gt;Baidu Aladdin Technology Guashudila&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://www.insight-it.ru/goto/9d98f3c7/" rel="nofollow" target="_blank" title="http://tech.sina.com.cn/i/2009-08-18/16063362415.shtml"&gt;Rachel Liao, лекция директора по архитектуре Baidu&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://www.insight-it.ru/goto/d1f8deb1/" rel="nofollow" target="_blank" title="http://news.xinhuanet.com/it/2006-04/06/content_4390847.htm"&gt;Baidu Chief Architect: алгоритмы на службе разработчиков Baidu&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://www.insight-it.ru/goto/cc13f208/" rel="nofollow" target="_blank" title="http://baike.baidu.com/view/2086291.htm"&gt;Aladdin Plans&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;em&gt;Если кто-то достаточно любопытен, чтобы нажать на приведенные ссылки -
они все на китайском, так что статья написана на основе перевода Google
Translate со всеми вытекающими последствиями. Даже за название "Aladdin"
не ручаюсь, его тоже он придумал :)&lt;/em&gt;&lt;/p&gt;
&lt;h2 id="o-kompanii-baidu"&gt;О компании Baidu&lt;/h2&gt;
&lt;p&gt;&lt;a href="https://www.insight-it.ru/goto/50a1d1a7/" rel="nofollow" target="_blank" title="http://www.baidu.com"&gt;Baidu.com&lt;/a&gt; является лидером китайского рынка
интернет-поиска, объем которого достаточно значителен. На данный момент
Китай насчитывает около 340-360 миллионов интернет-пользователей, что
превышает общую численность населения США. Не трудно представить с каким
трафиком приходится сталкиваться крупнейшей китайской поисковой системе.&lt;/p&gt;
&lt;p&gt;Чтобы не быть голословным, еще немного цифр о Baidu:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;100 миллионов поисковых запросов в день&lt;/li&gt;
&lt;li&gt;Более миллиарда проиндексированных страниц&lt;/li&gt;
&lt;li&gt;300-400 миллионов проиндексированных сайтов&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Уже на сегодняшний день размеры китайской части интернета производят
впечатление и с каждым днем она расширяется все больше. Как следствие,
на рынке образуются все новые и новые возможности для создания сервисов,
удовлетворяющих потребности китайских пользователей Интернет.
Компания&amp;nbsp;&lt;strong&gt;Baidu Inc.&lt;/strong&gt; пристально наблюдает за развитием ситуации и
обнаружила огромную потребность среди сервис-провайдеров в удобной
платформе для создания и предоставления пользователям новых сервисов.
Baidu считает создание платформы для использования их технологии
сторонними разработчиками и сервис-провайдерами очень важным
направлением развития на пути к повышению качества пользовательского
опыта в целом. Эти наблюдения стали толчком к рождению в рамках Baidu
новой технологии под названием&amp;nbsp;&lt;a href="https://www.insight-it.ru/goto/e0a5512c/" rel="nofollow" target="_blank" title="http://open.baidu.com/"&gt;Aladdin&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;Как крупнейшей китайской поисковой системе, Baidu приходится быть чем-то
большим, чем просто инструментом для поиска, это позволяет удовлетворять
потребности потенциальных клиентов наиболее гармоничным и целесообразным
образом. Помимо неустанной погони за технологическими инновациями, Baidu
предпочитает придерживаться политики "потребности клиентов важнее
всего".&lt;/p&gt;
&lt;h2 id="aladdin"&gt;Aladdin&lt;/h2&gt;
&lt;p&gt;Согласно официальному сайту Baidu, эта технология представляет собой
открытую поисковую платформу, позволяющую сторонним разработчикам
использовать технологию Baidu в своих приложениях и сервисах. Владельцы
интернет-проектов и разработчики могут предоставить Baidu данные в уже
структурированном виде для того, чтобы создать еще более мощные и
функционально-насыщенные приложения, позволяя интернет-сайтам получать
еще более значимый трафик, а пользователям - еще больше облегчить
использование сайтов и поиск в сети Интернет.&lt;/p&gt;
&lt;p&gt;В декабре 2008 года Baidu объявили о высокоприоритетной программе под
кодовым названием&amp;nbsp;&lt;em&gt;"Aladdin"&lt;/em&gt;, основной идеей была попытка расширить
текущие рамки веб-поиска, по большей части за счет включения так
называемого "глубинного интернета" в поисковую базу, проведения более
глубокого анализа контента. Помимо этого упоминались возможность
интеграции и управляемой обработки информации, направленных на
минимизацию издержек поиска и времени обработки запроса при повышение
общего качества поисковых результатов. В том же заявлении Baidu также
описали их общую позицию по данному направлению: платформа Aladdin
является надстройкой над текущей поисковой системой Baidu, позволяющей
дополнение и расширение функциональных возможностей.&lt;/p&gt;
&lt;p&gt;Согласно исследованиям Baidu, только 75% пользователей поисковых систем
в конечном итоге удовлетворяют свои информационные потребности. В
процессе анализа причин данного факта было выявлено, что в большом
количестве случаев искомая информация находится на ресурсах по каким-то
причинам находящимся вне доступа поисковых систем (начиная от
технических ограничений, отсутствия внешних ссылок на ресурс и
заканчивая искусственными&amp;nbsp;барьерами вроде REP или принудительной
авторизации).&lt;/p&gt;
&lt;p&gt;Перед разработчиками Aladdin встают две основные проблемы с точки зрения
технической реализации: "как определить пользовательские потребности" и
"как сортировать". Конечно же они очень тесно связаны между собой, это
хорошо демонстрирует пример с поисковым запросом "полное солнечное
затмение": до затмения пользователи хотят когда оно будет и откуда лучше
смотреть, а во время и после него намного актуальнее будет увидеть
видео-запись или прямую трансляцию, а также прочитать и поделиться
комментариями. Самым простым методом решения данного класса задач
является статистический анализ - Aladdin выделяет два основных фактора,
используемых для сортировки результатом в соответствии с потребностями
пользователей: "удовлетворенность потребностей" и "уровень отклика на
спрос". Конечно же оценочные характеристики спроса и потребностей не
означают сам спрос, то есть возможны и более сложные ситуации, когда за
пользовательским запросом стоит целый комплекс более простых
потребностей.&lt;/p&gt;
&lt;p&gt;Алгоритмы, используемые в Aladdin для решения упомянутых проблем,
основаны на машинном обучении, анализе поведения пользователей, а также
обратной связи от использования технологии на практике. Конечная цель
данной платформы заключается в построении целой интеллектуальной
экосистемы, &amp;nbsp;которая станет новым шагом в развитии компании Baidu и
китайской части интернета в целом.&lt;/p&gt;
&lt;h3 id="vozmozhnosti-platformy"&gt;Возможности платформы&lt;/h3&gt;
&lt;p&gt;С технической точки зрения Aladdin от Baidu представляет собой открытый
API к поисковой технологии Baidu, позволяющий добавлять свои данные в
структурированном виде в поисковый индекс, отмечать релевантные ключевые
слова, методы отображения информации и пометки данных гео-метками.&lt;/p&gt;
&lt;p&gt;Одним из важнейших направлений развития поисковых систем является
повышение "интеллектуальности" поиска, Baidu уделяет внимание не только
обнаружению более ценной информации в глубинах Интернета, но и
предоставлению более удобных, точных и сообразительных поисковых
сервисов.&lt;/p&gt;
&lt;p&gt;На сегодняшний день, технология Aladdin была интегрирована в ряд
приложений, позволив тем самым реализовать на страницах с результатами
поиска&amp;nbsp;множество интересных возможностей: прямой звонок клиенту для
обсуждения каких-то товаров или услуг, интеграция с почтовым сервисом,
прослушивание музыки с использованием встроенного flash-плеера и многие
другие.&lt;/p&gt;
&lt;p&gt;После обязательной процедуры подачи и рассмотрения заявки пользователям
платформы Aladdin предоставляются следующие возможности:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Добавление данных в индекс в структурированном виде&lt;/li&gt;
&lt;li&gt;Указание ключевых слов для более точного прямого воздействия на
    целевую аудиторию&lt;/li&gt;
&lt;li&gt;Управление сортировкой и отображением информационного контента&lt;/li&gt;
&lt;li&gt;Управление стилем и внешним видом имеющихся ресурсов, причем не
    только текстовых&lt;/li&gt;
&lt;li&gt;Выбор частоты обновления информации для синхронизации данных&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;На первый взгляд все эти рассуждения и заявления о функциональных
возможностях кажутся абсурдными, даже отчасти ироничными. Ну кому может
понадобиться вручную управлять результатами поиска, добавлять и
структурировать данные, возиться с сортировкой и внешним видом?&lt;/p&gt;
&lt;h3 id="vzgliad-s-drugoi-storony"&gt;Взгляд с другой стороны&lt;/h3&gt;
&lt;p&gt;Да, вся платформа Aladdin по своей задумке очень искуственна:
практически все делается вручную, но по сути это лишь процесс
интеграции, а не работа с самим контентом. Для большинства других
поисковых систем такой подход неприемлем: где найти столько людей, чтобы
управлять огромными массивами данных вручную? Наоборот все поисковые
системы стремятся по максимуму все автоматизировать и борятся с
искуственным вмешательством в поисковый индекс (т.н. SEO), но... если
вспомнить, что Baidu работает в Китае - вся затея начинает обретать
здравый смысл. Как сама компания Baidu, так и большинство их
потенциальных партнеров, клиентов и пользователей находится в примерно
одинаковой ситуации: большое количество дешевой рабочей силы,
относительно низкий уровень образования и профессиональной подготовки, а
также прочие национальные особенности. В их ситуации не выгодно идти по
пути Google и делать&amp;nbsp;&lt;em&gt;основной&lt;/em&gt; акцент на построении полностью
автоматизированных систем анализа контента, добавления дополнительного
материала к поисковым результатам и самим делать различные
дополнительные приложения и сервисы. Намного выгоднее пойти по
собственному пути, более адаптированному к ситуации в Китае, большое
количество трудолюбивых людей позволяет строить сервисы коллективно, с
привлечением партнеров, клиентов и заинтересованных лиц. Да, во многом
вручную, за счет интеграции совершенно различных систем и сервисов, но
зато более качественно и продуманно. В этом-то и заключается вся магия
Китая.&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Иван Блинков</dc:creator><pubDate>Thu, 14 Jan 2010 00:01:00 +0300</pubDate><guid>tag:www.insight-it.ru,2010-01-14:highload/2010/aladdin-ot-baidu/</guid><category>Aladdin</category><category>Baidu.com</category><category>online</category><category>Масштабируемость</category><category>поиск</category><category>поисковые системы</category></item><item><title>it's a pic</title><link>https://www.insight-it.ru//misc/2008/its-a-pic/</link><description>&lt;p&gt;&lt;img alt="it's a pic logo" class="left" src="https://www.insight-it.ru/images/itsapic-logo.png" title="логотип"/&gt;
Не удивлюсь, если заголовок этого поста вам не сказал ровным счетом
ничего - это вполне логично. Именно эту ситуацию я и хотел бы сегодня
исправить: &lt;strong&gt;it's a pic&lt;/strong&gt; представляет собой...
&lt;!--more--&gt;
...очередной интернет-проект. Хотели увидеть что-то более
грандиозное? - читайте дальше!&lt;/p&gt;
&lt;p&gt;Начать наверное стоит с обозначения основной сути: поисковая система
изображений, ориентированная на глобальный рынок. Да-да, мы уже видели
поиск картинок в исполнении Google/Yahoo!/MSN/Яндекс/Рамблер (нужное
подчеркнуть) - скажете вы, так в чем же разница?&lt;/p&gt;
&lt;p&gt;Сейчас объясню. Никогда не возникало мысли, что частенько поиск картинок
в обычных поисковых системах по большей части выдает всякий бред, очень
слабо коррелирующий с тем, что Вы на самом деле искали? Основная их
проблема заключается в том, что способов провести ассоциацию между
текстом и изображением не так-то много. Чаще всего в их распоряжении
лишь HTML-документы, ссылающиеся на изображение. То есть на основании
атрибута &lt;code&gt;alt&lt;/code&gt; у тэга &lt;code&gt;&amp;lt;img /&amp;gt;&lt;/code&gt; и изредка anchor-текста обычных
ссылок, поисковая система должна составить представление о том, что же
на самом деле изображено в графическом файле. Варианты ручного
построения таких соответствий тоже существуют, но либо нужно платить
огромнейшему количеству человек за рутинную работу (что-то на грани
фантастики - количество изображений в Сети измеряется числом с слишком
большим количеством нулей) или подталкивать людей заниматься этим
бесплатно, оформив это, например, в виде online-игры. Обычно в таких
играх двум участникам одновременно предоставляется один и тот же набор
изображений, а их задачей является последовательно вводить свои
ассоциации связанные с текущим изображением. Если они оба ввели одно и
то же слово - оно ассоциируется с изображением, а пользователям
начисляются виртуальные очки. В общем поиск изображений по ключевым
словам - задача, связанная с массой проблем и неточностей.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;It's a pic&lt;/strong&gt; является как раз поисковой системой, призванной избавить
людей, ищущих изображения от всех этих проблем с неточностью и
некорректностью результатов. Чтобы не придумывать каких-то временных
решений проблемы было решено искоренить основательно: основная идея
заключается в использовании в качестве критерия поиска не набор ключевых
слов, а просто изображение. Сказать, что два изображения похожи,
компьютеру намного проще, чем сказать что на картинке нарисован,
например, жираф - именно на это и делает ставку этот проект.&lt;/p&gt;
&lt;p&gt;Выглядит это примерно следующим образом: допустим Вы хотите найти
побольше изображений заката и выбрать наиболее приглянувшееся, для этого
достаточно загрузить в систему с локального компьютера изображение
заката (хотя если оно уже присутствует в Сети - можно и просто указать
URL) и собственно говоря нажать кнопку "Найти" - вот и все! Вот ваши
результаты:&lt;/p&gt;
&lt;p&gt;&lt;img alt="пример работы it's a pic" class="responsive-img" src="https://www.insight-it.ru/images/itsapic-scr.jpg" title="пример работы"/&gt;&lt;/p&gt;
&lt;p&gt;Наверное Вы уже заметили, что написав приличную часть поста я так до сих
пор и не дал ссылки на саму поисковую систему. У этого есть достаточно
простая причина - проект находится в стадии закрытого
&amp;beta;-тестирования (что вы собственно говоря могли
прочитать и на скриншоте чуть выше). Так что недостаточная точность
поиска вполне объясняется скромной базой данных изображений - можно
заметить на все том же скриншоте семизначную цифру количества
изображений в его базе. Но даже из такого небольшого количества
изображений системе удается достаточно точно выбрать похожие на образец
экземпляры и отсортировать их в соответствии с их релевантностью
оригиналу.&lt;/p&gt;
&lt;p&gt;Наверняка у Вас снова напрашивается вопрос: а как же я собственно попал
в закрытую бету проекта и узнал так много о нем еще до его запуска? Нет,
мне никто так до сих пор и не дает эксклюзивной информации о проектах,
но эта информация была получена и не из Сети. Не буду тянуть и раскрою
все карты: я просто-напросто с недавних пор участвую в этом проекте.
Собственно говоря одной из основных моих задач является вывод этой
системы из закрытой бета-версии в открытую, то есть обеспечить
работоспособность алгоритмов при несколько больших нагрузках, чем
один-два разработчика одновременно, ищущих что-то просто для проверки и
тестирования.&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Иван Блинков</dc:creator><pubDate>Tue, 27 May 2008 19:35:00 +0400</pubDate><guid>tag:www.insight-it.ru,2008-05-27:misc/2008/its-a-pic/</guid><category>it's a pic</category><category>online</category><category>архитектура</category><category>изображение</category><category>информационные технологии</category><category>поиск</category><category>поисковые системы</category></item><item><title>nofollow: за и против</title><link>https://www.insight-it.ru//theory/2008/nofollow-za-i-protiv/</link><description>&lt;p&gt;Наверняка каждый владелец любого интернет-ресурса хоть раз сталкивался с
этим микроформатом, &lt;a href="https://www.insight-it.ru/goto/a9b68873/" rel="nofollow" target="_blank" title="http://microformats.org/wiki/rel-nofollow"&gt;rel-nofollow&lt;/a&gt;. Изначально он был введен для обозначения ссылок, оставленных кем-либо, кроме создателя самой веб-страницы, и, как следствие. для снятие с него ответственности
за эту ссылку. Активнее всего этот микроформат влияет на работу
большинства поисковых систем, оказывая влияние на учет ссылок в
определении тех или иных параметров, присваиваемых страницам (Google
PageRank, например). В общем случае ссылки, помеченные атрибутом
&lt;code&gt;rel="nofollow"&lt;/code&gt;, из этого процесса исключаются.
&lt;!--more--&gt;
Но не все так однозначно, насчет этого микроформата сложилось масса
мнений, так как несмотря на свое, казалось бы, предназначение бороться
со спамом на форумах / блогах / социальных сетях / новостных порталах
(нужное подчеркнуть), направленным на создание входящих ссылок на тот
или иной ресурс, порой им злоупотребляют и используют там, где это было
бы излишним.&lt;/p&gt;
&lt;h3 id="protiv"&gt;Против&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;nofollow не в состоянии полностью предотвратить спам в ресурсах
    указанных выше типов;&lt;/li&gt;
&lt;li&gt;название "nofollow" лишь сбивает с толку, &lt;a href="/tag/crawler/"&gt;crawler&lt;/a&gt;'ы
    все равно следуют по таким ссылкам;&lt;/li&gt;
&lt;li&gt;nofollow порой вредит &lt;em&gt;естественным&lt;/em&gt; ссылкам на сайты, которые
    вполне заслуженно могли бы и получить свою входящую ссылку при
    расчете того же, например, PageRank;&lt;/li&gt;
&lt;li&gt;для использования простыми пользователями, этот микроформат
    абсолютно бесполезен;&lt;/li&gt;
&lt;li&gt;благодаря nofollow поисковые системы порой не в состоянии отличить
    ссылки на сайты добросовестных читателей ресурса от ссылок
    спаммеров;&lt;/li&gt;
&lt;li&gt;он препятствует возможности людей, оставляющих комментарии, привлечь
    внимание к какой-либо странице;&lt;/li&gt;
&lt;li&gt;если взглянуть со стороны поисковых систем, nofollow препятствует
    Сети выглядеть как сеть, в прямом смысле этого слова;&lt;/li&gt;
&lt;li&gt;единственные кто получают какую-либо пользу от этого микроформата -
    поисковые системы.&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="za"&gt;За&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;но тем не менее, если ссылка размещается посетителем только ради
    влияния на позицию своего ресурса в поисковых системах, наличие
    &lt;code&gt;nofollow&lt;/code&gt; заставит его как минимум задуматься: а стоит ли?&lt;/li&gt;
&lt;li&gt;помимо поисковых систем, данный микроформат может служить
    инструментом вебмастера для организации более эффективной
    перелинковки страниц в рамках одного сайта;&lt;/li&gt;
&lt;li&gt;в недалеком будущем, возможно, движки сайтов смогут ставить атрибут
    &lt;code&gt;nofollow&lt;/code&gt; не на всех подряд ссылках, оставленных посетителями, а
    только на подозрительных с их точки зрения (которая могла бы
    определяться, допустим, средствами эвристического анализа);&lt;/li&gt;
&lt;li&gt;так как oформлен он в виде &lt;a href="/tag/mikroformaty/"&gt;микроформата&lt;/a&gt;, он не
    противоречит стандартам &lt;a href="/tag/xhtml/"&gt;XHTML&lt;/a&gt; и &lt;a href="/tag/html/"&gt;HTML&lt;/a&gt;.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Не смотря на множество спорных моментов, этот микроформат определенно
имеет свою скромную роль в жизни Сети. Использовать его или нет - дело
каждого, но по-моему если применять его в меру и только по прямому
назначению, то он только несомненно помогает развитию как Сети в целом,
так и конкретного ресурса в отдельности, особенно с точки зрения
эффективности взаимодействия с поисковыми системами.&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Иван Блинков</dc:creator><pubDate>Sun, 24 Feb 2008 16:51:00 +0300</pubDate><guid>tag:www.insight-it.ru,2008-02-24:theory/2008/nofollow-za-i-protiv/</guid><category>crawler</category><category>nofollow</category><category>rel-nofollow</category><category>SEO</category><category>spider</category><category>Микроформаты</category><category>поисковые системы</category><category>принцип работы поисковых систем</category></item><item><title>Путеводитель для роботов</title><link>https://www.insight-it.ru//theory/2008/putevoditel-dlya-robotov/</link><description>&lt;p&gt;Ни для кого не секрет, что одним их основных факторов, влияющих на
расположение страниц интернет-ресурса на просторах поисковых систем,
является уникальность контента (или другими словами - содержания).
Конечно же простейшим способом избежать дублирующегося контента является
просто собственноручная его генерация (или в крайнем случае с помощью
наемных работников или посетителей Вашего сайта). Но, к сожалению, это
позволяет избежать лишь повторов между разными сайтами. Помимо этого
свою роль играют и повторы в рамках одного сайта. Наверняка Вы замечали,
что многие CMS размещают один и тот же текст на разных страницах сайта:
например на обычной странице, в RSS-ленте и каком-нибудь архиве.&lt;/p&gt;
&lt;p&gt;Именно для решения этой маленькой проблемы и была создана технология под
названием &lt;strong&gt;Robots Exclusion Protocol&lt;/strong&gt;. С ее помощью можно
минимизировать возможность повторов содержимого, проиндексированного
поисковыми системами в рамках одного сайта, а также исключить из индекса
неинформативные страницы.&lt;/p&gt;
&lt;!--more--&gt;
&lt;p&gt;Надеюсь, что Вы представляете себе в чем заключается принцип работы
поисковых систем, но в любом случае не вижу причин для того чтобы не
рассказать вкратце об этом. Помимо собственно сайта, где пользователи
вводят ключевую фразу для поиска, любая поисковая система имеет еще две
части: базу данных (другими словами - индекс сайтов) и специальной
программы (которую чаще всего называют &lt;em&gt;пауком&lt;/em&gt; или по-английски -
&lt;em&gt;crawler&lt;/em&gt; или &lt;em&gt;spider&lt;/em&gt;, но иногда используется более общий термин -
&lt;em&gt;робот&lt;/em&gt;). Эта программа запущена на серверах поисковых систем во
множестве экземпляров и основной целью их работы является пополнение и
обновления индекса поисковой системы. Сам же сайт лишь делает выборку из
индекса в соответствии с запросом и сортирует результат.&lt;/p&gt;
&lt;p&gt;Принцип работы такого класса программ я уже упоминал в &lt;a href="https://www.insight-it.ru/security/2008/otkuda-voznikaet-spam-i-kak-s-nim-borotsya/" title="Откуда возникает спам и как с ним бороться"&gt;записи о борьбе со спамом&lt;/a&gt;,
так что повторюсь лишь вкратце в надежде, что Вы ее уже читали: они
перемещаются по просторам Сети следуя по гиперссылкам, и на каждой
странице, куда они попадают, стараются выполнить заранее определенное
действие, в нашем случае - проиндексировать ее.&lt;/p&gt;
&lt;p&gt;Обсуждаемая нами технология дает возможность веб-мастеру предоставить
crawler'ам, образно говоря, &lt;em&gt;путеводитель&lt;/em&gt; по его сайту. Методов для
этого имеется несколько:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Любой crawler прежде чем перейти на новый домен проверяет
    существование файла по адресу &lt;code&gt;http://www.некий-домен.ru/robots.txt&lt;/code&gt;.
    В таком файле веб-мастер может разместить директивы для
    потенциальных компьютеризированных посетителей в соответствии с
    &lt;a href="https://www.insight-it.ru/goto/32ecd79a/" rel="nofollow" target="_blank" title="http://www.robotstxt.org/norobots-rfc.txt"&gt;соответствующим стандартом&lt;/a&gt;. Если поисковый робот обнаруживает этот файл, то прочитав его он
    корректирует свой маршрут обхода всего интернет-ресурса в
    соответствии с указанными директивами.&lt;/li&gt;
&lt;li&gt;Внутри заголовка любой HTML-страницы или любого другого документа,
    передаваемого по http протоколу (с помощью заголовков самого
    протокола), можно разместить специальный meta-tag для роботов,
    который также должен соответствовать &lt;a href="https://www.insight-it.ru/goto/fef0ecbb/" rel="nofollow" target="_blank" title="http://www.robotstxt.org/meta.html"&gt;стандарту, опубликованному в 1996 году&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;Основной частью &lt;em&gt;путеводителя&lt;/em&gt; чаще всего является карта &lt;a href="https://www.insight-it.ru/goto/9821991b/" rel="nofollow" target="_blank" title="http://sitemaps.org/"&gt;сайта в формате XML&lt;/a&gt;. С ее помощью программа может
    быстро определить весь ассортимент страниц, которые ей было бы
    неплохо проиндексировать.&lt;/li&gt;
&lt;li&gt;Самым последним был воплощен в жизнь метод, основанный на
    &lt;a href="https://www.insight-it.ru/goto/a9b68873/" rel="nofollow" target="_blank" title="http://microformats.org/wiki/rel-nofollow"&gt;микроформатах&lt;/a&gt;.
    Реализуется он с помощью параметра &lt;code&gt;rel="nofollow"&lt;/code&gt;, указанного
    внутри тэга &lt;code&gt;&amp;lt;a&amp;gt;&lt;/code&gt;, который обозначает ссылку, не предназначенную для
    перехода по ней пауком.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Карты сайтов и директивы robots.txt предназначены для определения
маршрута путешествия crawler'а, в то время как микроформаты и
meta-тэги - для влияния на сам процесс индексации.&lt;/p&gt;
&lt;p&gt;У каждого из описанных выше методов есть своя узкая специализация:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;robots.txt предоставляет базовый набор директив для роботов, которым
    они следуют даже в случае конфликтов с другими использованными
    методами.&lt;/li&gt;
&lt;li&gt;Карта сайта влияет на последовательность и набор страниц, посещенных
    пауком, с помощью указания приоритетов страниц или времени последней
    модификации.&lt;/li&gt;
&lt;li&gt;Мета-тэги распространяют свое действие на весь документ и влияет на
    индексирование страниц (если они одновременно присутствуют как в
    заголовке (X)HTML документа, так и в заголовках &lt;code&gt;X-Robots-Tags&lt;/code&gt;
    HTTP-протокола, то приоритет считается выше у заголовков протокола).&lt;/li&gt;
&lt;li&gt;Микроформаты позволяют в случае необходимости переопределять
    параметры любого конкретного тэга документа, не смотря на указания в
    мета-тэгах.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;С синтаксисом robots.txt лучше всего ознакомиться прямо в
соответствующей спецификации, ссылку на которую я уже приводил (хотя
возможно в будущем я всетаки соберусь написать запись и по этому
поводу). Не знаю занимается ли кто-нибудь генерацией карт сайта вручную,
но для общего развития будет полезно изучить и ее формат, неплохим
примером может послужить &lt;a href="/sitemap.xml" title="XML Sitemap"&gt;XML-карта этого блога&lt;/a&gt;.&lt;/p&gt;</description><dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Иван Блинков</dc:creator><pubDate>Fri, 18 Jan 2008 01:13:00 +0300</pubDate><guid>tag:www.insight-it.ru,2008-01-18:theory/2008/putevoditel-dlya-robotov/</guid><category>crawler</category><category>robots exclusion protocol</category><category>robots.txt</category><category>SEO</category><category>spider</category><category>интернет</category><category>информационные технологии</category><category>поисковые системы</category><category>принцип работы поисковых систем</category><category>технология</category></item></channel></rss>