<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Insight IT &#187; SEO</title>
	<atom:link href="http://www.insight-it.ru/category/set/seo/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.insight-it.ru</link>
	<description>Информационные технологии</description>
	<lastBuildDate>Tue, 31 Jan 2012 09:34:08 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>DMOZ.org</title>
		<link>http://www.insight-it.ru/set/seo/dmozorg/</link>
		<comments>http://www.insight-it.ru/set/seo/dmozorg/#comments</comments>
		<pubDate>Mon, 19 May 2008 14:14:39 +0000</pubDate>
		<dc:creator>Иван Блинков</dc:creator>
				<category><![CDATA[SEO]]></category>
		<category><![CDATA[DMOZ.org]]></category>
		<category><![CDATA[ODP]]></category>
		<category><![CDATA[online]]></category>
		<category><![CDATA[Open Directory Project]]></category>
		<category><![CDATA[интернет]]></category>
		<category><![CDATA[каталог]]></category>
		<category><![CDATA[редактор]]></category>

		<guid isPermaLink="false">http://www.insight-it.ru/?p=78</guid>
		<description><![CDATA[Возможно Вы уже обратили внимание, что в начале мая данный блог был добавлен в один из крупнейших (если не самый крупнейший) каталог интернет-ресурсов &#8212; DMOZ.org, также известный как Open Directory Project. Само по себе это событие достаточно значимо для любого сайта, но я почему-то не счел нужным писать по этому поводу отдельный пост, видимо просто [...]]]></description>
			<content:encoded><![CDATA[<p>Возможно Вы уже обратили внимание, что в начале мая данный блог был добавлен в один из крупнейших (если не самый крупнейший) каталог интернет-ресурсов &#8212; <a href="http://dmoz.org" target="_blank" rel="nofollow"><strong>DMOZ.org</strong></a>, также известный как <em>Open Directory Project</em>.  Само по себе это событие достаточно значимо для любого сайта, но я почему-то не счел нужным писать по этому поводу отдельный пост, видимо просто так как других слов кроме как &#171;Ура! Мой блог попал в DMOZ!!!&#187; у меня тогда не нашлось.</p>
<p>Сегодня же произошло другое событие, связанное с этим крупным каталогом: я <a href="http://www.dmoz.org/profiles/m11.html" target="_blank" rel="nofollow">стал редактором</a> очень небольшого его раздела &#8212; <strong>World/Russian/Компьютеры/Программирование/Блоги</strong>. Раздел и правда оказался очень маленький &#8212; сегодняшним же утром за часок-другой разгреб все заявки, которые там лежали нерасмотренными. В целом впечатления от данного процесса очень положительные &#8212; нашел несколько интересных сайтов в заявках, которые потом еще достаточно долго читал просто так, уже после принятия решения о добавлении в каталог. Хотелось бы конечно раздел побольше, но я думаю всему свое время. Если у кого-нибудь из Вас есть блоги, подходящие под тематику выделенного мне раздела &#8212; <a href="http://www.dmoz.org/cgi-bin/add.cgi?where=World/Russian/%d0%9a%d0%be%d0%bc%d0%bf%d1%8c%d1%8e%d1%82%d0%b5%d1%80%d1%8b/%d0%9f%d1%80%d0%be%d0%b3%d1%80%d0%b0%d0%bc%d0%bc%d0%b8%d1%80%d0%be%d0%b2%d0%b0%d0%bd%d0%b8%d0%b5/%d0%91%d0%bb%d0%be%d0%b3%d0%b8" rel="nofollow" target="_blank">добавляйте их</a>, с удовольствием рассмотрю.<br />
<img src="/wp-content/uploads/dmoz-logo.gif" alt="DMOZ Logo" title="DMOZ" style="float: right; margin:4px;" /></p>
]]></content:encoded>
			<wfw:commentRss>http://www.insight-it.ru/set/seo/dmozorg/feed/</wfw:commentRss>
		<slash:comments>26</slash:comments>
		</item>
		<item>
		<title>Путеводитель для роботов</title>
		<link>http://www.insight-it.ru/set/seo/putevoditel-dlya-robotov/</link>
		<comments>http://www.insight-it.ru/set/seo/putevoditel-dlya-robotov/#comments</comments>
		<pubDate>Thu, 17 Jan 2008 22:13:52 +0000</pubDate>
		<dc:creator>Иван Блинков</dc:creator>
				<category><![CDATA[SEO]]></category>
		<category><![CDATA[crawler]]></category>
		<category><![CDATA[robots exclusion protocol]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[spider]]></category>
		<category><![CDATA[интернет]]></category>
		<category><![CDATA[информационные технологии]]></category>
		<category><![CDATA[поисковые системы]]></category>
		<category><![CDATA[принцип работы поисковых систем]]></category>
		<category><![CDATA[технология]]></category>

		<guid isPermaLink="false">http://www.insight-it.ru/net/seo/putevoditel-dlya-robotov/</guid>
		<description><![CDATA[Ни для кого не секрет, что одним их основных факторов, влияющих на расположение страниц интернет-ресурса на просторах поисковых систем, является уникальность контента (или другими словами &#8212; содержания). Конечно же простейшим способом избежать дублирующегося контента является просто собственноручная его генерация (или в крайнем случае с помощью наемных работников или посетителей Вашего сайта). Но, к сожалению, это [...]]]></description>
			<content:encoded><![CDATA[<p>Ни для кого не секрет, что одним их основных факторов, влияющих на расположение страниц интернет-ресурса на просторах поисковых систем, является уникальность контента (или другими словами &#8212; содержания). Конечно же простейшим способом избежать дублирующегося контента является просто собственноручная его генерация (или в крайнем случае с помощью наемных работников или посетителей Вашего сайта). Но, к сожалению, это позволяет избежать лишь повторов между разными сайтами. Помимо этого свою роль играют и повторы в рамках одного сайта. Наверняка Вы замечали, что многие CMS размещают один и тот же текст на разных страницах сайта: например на обычной странице, в RSS-ленте и каком-нибудь архиве.</p>
<p>Именно для решения этой маленькой проблемы и была создана технология под названием <strong>Robots Exclusion Protocol</strong>. С ее помощью можно минимизировать возможность повторов содержимого, проиндексированного поисковыми системами в рамках одного сайта, а также исключить из индекса неинформативные страницы.</p>
<p><span id="more-27"></span></p>
<p>Надеюсь, что Вы представляете себе в чем заключается принцип работы поисковых систем, но в любом случае не вижу причин для того чтобы не рассказать вкратце об этом. Помимо собственно сайта, где пользователи вводят ключевую фразу для поиска, любая поисковая система имеет еще две части: базу данных (другими словами &#8212; индекс сайтов) и специальной программы (которую чаще всего называют <em>пауком</em> или по-английски &#8212; <em>crawler</em> или <em>spider</em>, но иногда используется более общий термин &#8212; <em>робот</em>). Эта программа запущена на серверах поисковых систем во множестве экземпляров и основной целью их работы является пополнение и обновления индекса поисковой системы. Сам же сайт лишь делает выборку из индекса в соответствии с запросом и сортирует результат.</p>
<p>Принцип работы такого класса программ я уже упоминал в <a href="/net/otkuda-voznikaet-spam-i-kak-s-nim-borotsya" title="Откуда возникает спам и как с ним бороться" target="_blank">записи о борьбе со спамом</a>, так что повторюсь лишь вкратце в надежде, что Вы ее уже читали: они перемещаются по просторам Сети следуя по гиперссылкам, и на каждой странице, куда они попадают, стараются выполнить заранее определенное действие, в нашем случае &#8212; проиндексировать ее.</p>
<p>Обсуждаемая нами технология дает возможность веб-мастеру предоставить crawler&#8217;ам, образно говоря, <em>путеводитель</em> по его сайту. Методов для этого имеется несколько:</p>
<ul>
<li>Любой crawler прежде чем перейти на новый домен проверяет существование файла по адресу http://www.некий-домен.ru/robots.txt. В таком файле веб-мастер может разместить директивы для потенциальных компьютеризированных посетителей в соответствии с <a target="_blank" href="http://www.robotstxt.org/norobots-rfc.txt">соответствующим стандартом</a>. Если поисковый робот обнаруживает этот файл, то прочитав его он корректирует свой маршрут обхода всего интернет-ресурса в соответствии с указанными директивами.</li>
<li>Внутри заголовка любой HTML-страницы или любого другого документа, передаваемого по http протоколу (с помощью заголовков самого протокола), можно разместить специальный meta-tag для роботов, который также должен соответствовать <a target="_blank" href="http://www.robotstxt.org/meta.html">стандарту, опубликованному в 1996 году</a>.</li>
<li>Основной частью <em>путеводителя</em> чаще всего является карта <a href="http://sitemaps.org/" target="_blank">сайта в формате XML</a>. С ее помощью программа может быстро определить весь ассортимент страниц, которые ей было бы неплохо проиндексировать.</li>
<li>Самым последним был воплощен в жизнь метод, основанный на <a href="http://microformats.org/wiki/rel-nofollow" target="_blank">микроформатах</a>. Реализуется он с помощью параметра <strong>rel=&#187;nofollow&#187;</strong>, указанного внутри тэга  &lt;a&gt;, который обозначает ссылку, не предназначенную для перехода по ней пауком.</li>
</ul>
<p>Карты сайтов и директивы robots.txt предназначены для определения маршрута путешествия crawler&#8217;а, в то время как микроформаты и meta-тэги &#8212; для влияния на сам процесс индексации.</p>
<p>У каждого из описанных выше методов есть своя узкая специализация:</p>
<ul>
<li>robots.txt предоставляет базовый набор директив для роботов, которым они следуют даже в случае конфликтов с другими использованными методами.</li>
<li>Карта сайта влияет на последовательность и набор страниц, посещенных пауком, с помощью указания приоритетов страниц или времени последней модификации.</li>
<li>Мета-тэги распространяют свое действие на весь документ и влияет на индексирование страниц (если они одновременно присутствуют как в заголовке (X)HTML документа, так и в заголовках <strong>X-Robots-Tags</strong> HTTP-протокола, то приоритет считается выше у заголовков протокола).</li>
<li>Микроформаты позволяют в случае необходимости переопределять параметры любого конкретного тэга документа, не смотря на указания в мета-тэгах.</li>
</ul>
<p>С синтаксисом robots.txt лучше всего ознакомиться прямо в соответствующей спецификации, ссылку на которую я уже приводил (хотя возможно в будущем я всетаки соберусь написать запись и по этому поводу). Не знаю занимается ли кто-нибудь генерацией карт сайта вручную, но для общего развития будет полезно изучить и ее формат, неплохим примером может послужить <a href="/sitemap.xml" target="_blank" title="XML Sitemap">XML-карта этого блога</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.insight-it.ru/set/seo/putevoditel-dlya-robotov/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
	</channel>
</rss>

