В ответ на запрос пользователя бот выдает результат поиска. Ищет он в
собственном индексе. В индексе у него лежат сайты в том виде, в каком бот их
понимает. У каждого бота это понимание свое, но общие черты прослеживаются.
Индекс образуется двумя путями.
Первый - web-маз сам просит бот
проиндексить его сайтец. Так поступают чаще всего с популярными и уважаемыми
ботами. Для Рунета это: Яндекс, Рамблер и Апорт. Причем именно в такой
последовательности. Хотя Рамблер с Яндексом соперничают в этом плане. На
остальные боты можно не тратить время. Это мое мнение.
Второй
путь - боты сами в «свободное от работы время» ползают по Инету и вынюхивают
изменения. С новыми сайтами они поступают по разному. Чаще всего они
принюхиваются к ним какое-то время, а потом, если, по мнению бота, со страницей
все в порядке (посетители иногда появляются, спама нет и др.) - они его
индексят. То есть заносят информацию о нем в свой индекс (базу данных).
Самый тормозной в плане принюхивания - это Рамблер. Он принюхивается по
несколько месяцев. Самый непридирчивый - Яндекс. Можно создать левый сайт и
посмотреть, как скоро он самопроизвольно появится в том или ином поисковике. В
Яндексе… ну, через месяц-два.
Кроме этого, боты следят за состоянием
своего индекса. То есть за его соответствием реальному положению дел в Инете.
Сайт может измениться, исчезнуть и т.д. Поэтому боты его обычно реиндексируют.
Правда, можно запретить это мета-тегами и цивилизованные боты не будут этого
делать.
Самый скоростной по реиндексированию - Яндекс. Скорость реиндекса -
несколько дней, а то и чаще, если ресурс популярный. Самый тормозной - Апорт.
Скорость реиндекса страниц с посещаемостью 50-100 хостов в сутки - до полугода!
У меня был сайт, который переехал. Так Апорт по запросу старый адрес еще
несколько месяцев выдавал, хотя по этому адресу уже несколько месяцев ничего не
было! И соответственно, посещаемость - 0. А Апорту все равно!
Дальше.
Результат поиска по запросу пользователя чаще всего выдается
по релевантности. Чем выше релевантность, тем выше позиция страницы в результате
работы поисковика. Страница с наиболее высокой (по мнению бота) релевантностью
отображается первой. Релевантность - это степень соответствия содержимого
индекса бота запросу пользователя.
Например, пользователь вводит «анекдоты».
Бот выдает страницы проиндексированных сайтов, где встречается это слово. Причем
не просто встречается, а встречается в тех местах, которые бот индексит.
Но
об этом позже.
Яндекс, например, чаще всего выдает только одну страницу с
сайта и ссылки на то, что есть еще страницы с того же сервера. Замечали,
наверное. Другие боты могут по несколько страниц с одного сервака на один запрос
выдавать. Это не очень образованные боты, но их тоже юзают.
Продолжим с
примером про «анекдоты». Бот выдает результат поиска по релевантности. То есть,
если на странице имеется 100 слов и 4 из них - «анекдоты» (в именительном
падеже, множественном числе), то релевантность страницы по запросу «анекдоты»
0.04. Четыре процента. Соответственно, если слов будет 10, и 4 из них -
«анекдоты», то релевантность будет 40 %. То есть в 10 раз выше.
Это
грубоватый пример, так как слова в заголовке (то что между
<title></title>) и в тексте страницы имеют для бота разный вес,
равно как слова в падеже и числе, указанном в запросе и имеющемся на странице.
Но для понимания понятия «релевантность» вполне сойдет.
Поясню про
падежи и числа.
Если запрос «анекдоТЫ», а на странице встречаются только
слова «анектоТ, анекдоТОВ» и т.д. то релевантность страницы по этому запросу
будет ниже, чем тех страниц, на которых прямо написано слово «анекдоТЫ». Но в
любом случае страница все равно найдется по запросу «анекдоТЫ» (но в конце
списка ответа поисковика).
Из сказанного следует, что страница должна
содержать поменьше слов, и слова должны быть, в основном, ключевые.
Куда
же девать инфу, которая в 10-20 слов никак не поместится?
Ответ - страницы с
инфой и страницы для ботов - это «две большие разницы».
Страницы с инфой-
это те страницы, на которые попадаешь по ссылке со стартовой страницы. А
стартовая страница (другие названия - индексная, заходная, doorway и др.) - это
страница которая как раз и содержит 10-20 слов (включая заголовок и мета-теги).
То есть эта страница, созданная специально для бота. И больше ни для кого.
Обычно, на стартовой странице размещают лого, иногда еще несколько слов
- чтобы пользователь понял, куда попал, и кнопочку «Вход». Иногда вместо
кнопочки «вход» - ссылки на разные разделы сайта. То есть несколько входов.
Если без текста на индексной странице, ну, никак не обойтись, можно
запихнуть его в картинки. Так Мелкософт (www.microsoft.com) поступает, например.
Правда, им-то чего о релевантности заботиться?
Важно, чтобы бот по
запросу нашел хоть какую-то страницу на сайте. Важно также, чтобы навигация на
ВСЕХ страницах позволяла попасть в КРАТЧАЙШИЙ срок в любое место сайта.
По
крайней мере, ссылка на главную страницу, по моему мнению, должна стоять на
каждой странице.
Если бот начнет индексить, он надет одну страницу и дальше
пойдет по ссылкам на ней. Нужно облегчить ему эту задачу. Причем, чем больше
ссылок на ту или иную страницу (с разных страниц, ясен тетя), тем выше ее
«ценность» с точки зрения бота.
Итак.
Стартовая страница делается
для бота. На ней нет инфы, только ссылка (ссылки) и куча хитростей (см. ниже)
для заманивая ботов.
Страницы с инфой должны содержать ссылки друг на друга,
нормальный информативный заголовок и приемлемые мета-теги. Все. Их цель - дать
инфу и не препятствовать боту запихнуть их в свой индекс. Они не должны первыми
появляться по запросу пользователя. Так как в данном случае это как раз те два
зайца, за которыми никак не угнаться, да и не надо.
Дальше.
Понятное
дело, что есть не одно, а несколько ключевых слов, по которым web-маз хочет,
чтобы искался сайт. Чтобы этого добиться, по хорошему, нужно делать столько
стартовых страниц, сколько желаемых web-мазом ключевых слов. Внешне эти страницы
ничем не должны отличаться. Ну, может, title`ом. Отличаться должна служебная
инфа, о которой речь пойдет ниже.
Например, у меня есть сайт для
фирмешки, продающей стартеры для иномарок. Я сделала с десяток-два индексных
страниц для наиболее популярных моделей иномарок. Внешне страницы отличаются
только тем, что на одной в заголовке написано «Стартеры для Мерседеса», а на
другой - «Стартеры для Вольво». Все. Конечно, отличаются мета-теги, alt`ы
(подписи к картинкам) и т.д. Об этом ниже. Каждую индексную страницу я индексила
в ботах отдельно.
Итак.
Что же индексит бот?
У каждого бота свой
характер, но в целом примерно так.
Во-первых
title. Это самая важная часть.
Слова в title`е имеют самый большой вес. Большой вес имеют слова в alt`ах
(подписях к картинкам), слова между <h1> </h1>, <h2>
</h2> и т.д. в порядке убывания значимости, слова между <b>
</b>.
Кроме того, слова, расположенные ближе (выше) к title`у, имеют
больший вес, чем слова расположенные ниже. То есть, чем выше слово, тем выше его
вес при определении релевантности.
Полнотекстовые боты (то есть практически
все современные) индексят еще и сам текст. В основном, на предмет наличия в
тексте слов, указанных в заголовке и метах. Но если текста нет или очень мало -
соответственно.
Итого, как заставить бот выдавать твою страницу первой
по запросу, например, «варез»?
Пишем:
<html>
<title>Лучший
варез</title>
<title> Софт Варез Нелегальный
софт</title>
То есть пишем второй title.
После второго
title`a нужно поставить знак неразрывного пробела -   или .
Так как Яндекс, например, выдаст оба заголовка как один и без пробела последнее
слово первого заголовка сольется с первым словом второго
заголовка.
Разумеется, ключевые слова (2-6) можно выдумать и другие.
На той же странице пишем дальше:
<meta name="keywords"
content="Варез, софт, нелегальный софт">
<meta http-equiv="keywords"
content="Варез, софт, нелегальный софт">
<meta name="description"
content="Лучшие программы">
<meta http-equiv="description"
content="Лучшие программы">
В keywords`ах должно быть не более
10-ти слов, необходимо использовать варианты (не более трех) наиболее частых
падежей и чисел: (например: программы, программ, программа), чередуя их с
другими словами (например: программы, софт, программ, варез, программа).
В description - несколько слов (5-8 слов, не более 170 символов), емко
характеризующих сайт. В Апорте и Рамблере это описание появится рядом с
результатом поиска по запросу. В настоящее время при индексировании содержимое
description на релевантность не влияет. По крайней мере, в рассмативаемых
поисковиках.
Главное: МЕНЬШЕ СЛОВ! Преимущественно ключевые.
Name и http-equiv должны полностью совпадать. Одни боты понимают name,
другие - http-equiv.
Дальше на той же странице:
<meta
name="robots" content="index,follow">
# Роботам - индексировать страницу и
идти дальше по ссылкам на ней.
# Аналогично сработает: <meta name="robots"
content="all">
Дальше:
<meta name="resource-type"
content="document">
#Если бот видит, что ресурс - это документ,
# он
приступает (должен) к его индексации.
<meta name="document-state"
content="dynamic">
# Если тип документа - динамический - бот запомнит что
сюда
# нужно периодически возвращаться.
<meta name="revisit-after"
content="10 days">
# Это пожелание боту, как часто реиндексировать
документ.
# Пожелание - не более. Бот может послушаться, а может и нет.
# Если, например, он разок вернется через 10 дней и увидит,
# что
страница и впрямь изменилась, может и еще разок вернется
# через 10 дней. А
если написать revisit-after 1 day и не менять
# страницу вообще - бот может
обидеться и посчитать это попыткой
# его спама. Он занесет такую страницу в
черный индекс
# (точнее, сначала - в "серый"). Это плохо.
Дальше
для Рамблера (только):
<!--<h1>Варез, софт, нелегальный
софт</h1>//-->
То есть в тегах комментария в заголовке
первого уровня пишем ключевые слова. Яндекс то, что в тегах комментария не
индексит, а Рамблер ест как миленький.
Потом, все картинки, что ни есть,
должны содержать alt`ы с ключевыми словами.
Можно даже в неприметном
месте страницы однопиксельных прозрачных гифов запихать (не очень много - 3-4) и
alt`ы к ним нужные прикрутить. Это считается спамом поисковика (как и два
title`а, впрочем), но по опыту - они (боты) этого в упор не видят.
Вообщем, «легальные» способы кончились дальше идут «нелегальные».
Можно сделать для IE:
<div style="visibility:
hidden">
<h1>Программы, варез, софт,
программа</h1>
</div>
Для NN:
<layer
visibility="hide"> <h1>Программы, варез, софт, программа</h1>
</layer>
Это не очень удобно. Нужно ставить скриптину,
определяющую тип браузера. Но боты глотают эту наживку и в «черный» список не
запихивают.
Проще:
<font color="#цвет
фона"><h1>Варез программа</h1></font>
Но это
боты грозятся определять. Ничего не знаю по этому поводу. Может, и определяют -
они сейчас умные пошли.
Еще можно вот что сделать. Где-нибудь
неприметненько запихиваем прозрачные gif-чики и делаем из них ссылки. Бот и
alt`ы проиндексит и по ссылкам пойдет, особенно, если сами ссылки по дизайну на
страницу никак не поместить.
Примерно так:
<a href="первая
ссылка"><img src="images/gif_1.gif" width="1" height="1" border="0"
alt="Варез, софт, нелегальный софт"></a>
<a href="вторая
ссылка"><img src="images/gif_1.gif" width="1" height="1" border="0"
alt="Софт, варез"></a>
<a href="третья ссылка"><img
src="images/gif_1.gif" width="1" height="1" border="0" alt="варез,
софт"></a>
и т.д.
Ну, и нужен специально обученный
человек, который будет следить за эволюцией ботов, изменениями позиции страницы
в поисковиках и предпринимать сответствующие действия. Не каждый день, но раз в
недельку-две тестирование в поисковиках своим страницам нужно устраивать.
И вот еще что! Если релевантность _слишком_ высока, Яндекс обижается и
не выдает страницу по запросу. За остальными не замечала. Другие страницы того
же сайта с меньшей релевантностью может выдавать («серый» список). Так что, если
на странице только слова «варез варез варез» - это не выход. Релевантность
должна быть не более 30 %. И одинаковые слова подряд лучше не повторять.
А Батва меня навел на мысль, что можно делать по 2 страницы на одно
ключевое слово. На одной странице релевантность по ключевому слову 10 % (для
подозрительного Яндекса), на другой - порядка 30 % (для остальных).
И
вот когда все это извращение готово - 10-15 стартовых качественно написанных
страниц - идешь на http://www.design.ru/free/addurl/ и каждую страницу индексишь
одной пимпой в нескольких наиболее популярных поисковиках. При этом видишь
ответы серверов, и, если не прошло - идешь индексить вручную.
Об остальных
поисковиках спокойно забываешь, толку от них… Работы больше.
Описание к
каждой странице - разное, ясен тетя. Емкое, краткое состоящее из ключевых слов.
Можно, и вручную добавлять сайт в каждый поисковик, но это геморройно и
не сильно выгодней. Впрочем, это мое мнение.
И последнее.
В корень
(только в корень) помещаешь файт robots.txt (именно так и никак иначе) со
следующим содержимым:
User-agent: * # Первая строка.
# Комментарии,
понятное дело, убрать
# Строка говорит, что любой бот может индексить
ресурс
# Между первой и последующими -
# не должно быть переводов
строк
Disallow: /cgi-bin/ #Не индексировать то, что в каталоге
cgi-bin
Disallow: /images/ #Не индексировать то, что в каталоге
images
Disallow: /scripts/ #Не индексировать то, что в каталоге scripts
#
И далее по смыслу. В конце каждого имени каталога - слеш.
# Нече там ботам
ползать. Нагрузку на сервак повышать. :)
Вот, собственно. Хотя,
можно еще много фантазировать на тему.
Имя автора : RU-board