Как запретить индексацию нужных страниц

Как запретить индексацию определенных страниц?

Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI или ISAPI скрипты - наш робот индексирует их наравне с другими документами.

В простейшем виде (разрешено все, кроме директории скриптов) файл robots.txt выглядит следующим образом:

User-Agent: *
Disallow: /cgi-bin/

Детальное описание спецификации файла можно прочитать на странице: «Стандарт исключений для роботов».

При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки:

1. Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает ничего:

Disallow: /cgi-bin
Disallow: /forum

2. Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам. Например, в следующем фрагменте файла robots.txt строка Disallow: /forum игнорируется, поскольку перед ней нет строки с полем User-Agent.

User-Agent: *
Disallow: /cgi-bin 
Disallow: /forum

3. Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк. Например, нижеприведенный файл запрещает индексирование документов, начинающихся с “/cgi-bin /forum”, которых, скорее всего, не существует (а не документов с префиксами /cgi-bin и /forum).

User-Agent: *
Disallow: /cgi-bin /forum

4. В строках с полем Disallowзаписываются не абсолютные, а относительные префиксы. То есть файл

User-Agent: *
Disallow: www.myhost.ru/cgi-bin

запрещает, например, индексирование документа http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi, но НЕ запрещает индексирование документа http://www.myhost.ru/cgi-bin/counter.cgi.

5. В строках с полем Disallowуказываются именно префиксы, а не что-нибудь еще. Так, файл:

User-Agent: *
Disallow: *

запрещает индексирование документов, начинающихся с символа «*» (которых в природе не существует), и сильно отличается от файла:

User-Agent: *
Disallow: /

который запрещает индексирование всего сайта.

Если вы не можете создать/изменить файл robots.txt, то еще не все потеряно — достаточно добавить дополнительный тег <META> в HTML-код вашей страницы (внутри тега <HEAD>):

<META NAME="ROBOTS" CONTENT="NOINDEX">

Тогда данный документ также не будет проиндексирован.

Вы также можете использовать тэг

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

Он означает, что робот поисковой машины не должен идти по ссылкам с данной страницы.

Для одновременного запрета индексирования страницы и обхода ссылок с нее используется тэг

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

Как запретить индексацию определенных частей текста?

Чтобы запретить индексирование определенных фрагментов текста в документе, пометьте их тегами

<NOINDEX></NOINDEX>

Внимание! Тег NOINDEX не должен нарушать вложенность других тегов. Если указать следующую ошибочную конструкцию:

<NOINDEX>
…код1…
<TABLE><TR><TD>
…код2…
</NOINDEX>
…код3…
</TD></TR></TABLE>

запрет на индексирование будет включать не только «код1» и «код2», но и «код3».

Как выбрать главный виртуальный хост из нескольких зеркал?

Если ваш сайт находится на одном сервере (одном IP), но виден во внешнем мире под разными именами (зеркала, разные виртуальные хосты), Яндекс рекомендует вам выбрать то имя, под которым вы хотите быть проиндексированы. В противном случае Яндекс выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.

Для того, чтобы индексировалось выбранное вами зеркало, достаточно запретить индексацию всех остальных зеркал при помощи robots.txt. Это можно сделать, используя нестандартное расширение robots.txt — директиву Host, в качестве ее параметра указав имя основного зеркала. Если www.glavnoye-zerkalo.ru — основное зеркало, то robots.txt должен выглядеть примерно так:

User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow.

Аргументом директивы Host является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы одной корректной директивы Host). Таким образом, файлы robots.txt вида

User-Agent: *
Host: www.myhost.ru

и

User-Agent: *
Host: www.myhost.ru:80

эквивалентны и запрещают индексирование как www.otherhost.ru, так и www.myhost.ru:8080.

Параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки Host игнорируются.

# Примеры игнорируемых директив Host
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:0
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: www.mysi.te
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru

Если у вас сервер Apache, то можно вместо использования директивы Host задать robots.txt с использованием директив SSI:

<!--#if expr=" "${HTTP_HOST}" != "www.главное_имя.ru" " -->
User-Agent: *
Disallow: /
<!--#endif -->

В этом файле роботу запрещен обход всех хостов, кроме www.главное_имя.ru

Как включать SSI, можно прочесть в документации по вашему серверу или обратиться к вашему системному администратору. Проверить результат можно, просто запросив страницы:

http://www.главное_имя.ru/robots.txt
http://www.другое_имя.ru/robots.txt
и т.д. Результаты должны быть разные.

Рекомендации для веб-сервера Русский Apache

В robots.txt на сайтах с русским апачем должны быть запрещены для роботов все кодировки, кроме основной.

Если кодировки разложены по портам (или серверам), то надо выдавать на разных портах (серверах) РАЗНЫЙ robots.txt. А именно, во всех файлах robots.txt для всех портов/серверов, кроме «основного», должно быть написано:

User-Agent: *
Disallow: /

Для этого можно использовать механизм SSI, описанный выше.

Если кодировки в вашем Apache выделяются по именам «виртуальных» директорий, то надо написать один robots.txt, в котором должны быть примерно такие строчки (в зависимости от названий директорий):

User-Agent: *
Disallow: /dos
Disallow: /mac
Disallow: /koi

Удачки.

Оцени публикацию:
  • 57,258
Оценили человек: 57

Похожие статьи:

Справочники и учебники:


Комментарии посетителей:
  • а как такую страницу запретить  ?? ....    http://sait.ru/index.php?option=com_content&task=view&id=222&Itemid=
    02 августа 2009, 21:38 коммент полезен : 0 # Гость
  • наверное так: Disallow: /index.php?option=com_content&task=view&id=222&Itemid=
    03 августа 2009, 19:20 коммент полезен : +2 # Гость
  • Гость:
    а как такую страницу запретить ?? .... http://sait.ru/index.php?option=com_content&task=view&id=222&Itemid=
    все же написано подробно. Ставь на странице метатег <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

    я у себя на сайте http://web-prime.ru/ так скрыл от поисковиков страничку с обратными ссылками на каталоги.
    10 августа 2009, 23:54 коммент полезен : +3 # Гость
  • Асли я хочу всесь саит запретить то www писать? http://www.pchelenok.com/
    05 января 2010, 19:18 коммент полезен : 0 # Гость
  • Друзья, помогите, кто может, новичку ! Есть сайт  timflair.ru
    На сайте порядка 900 видео (с ютюба) и около 50 статей (из них только 10 (пока)) уникальные,
    ост. копии с других сайтов (людям в озноком. целях). Яндекс же проиндексировал 19000 страниц !!!!
    По началу не парило, но в последнее время начал терять позиции по главным запросам.
    Сделал свой файл robots. Не могли вы его посмотреть и
    сказать правильно ли я запретил к индексации каталоги и статьи (две последнии) ??
    И может посоветуете,что еще следут скрыть от роботов ??? Копированные статьи я скрываю через noindex,nofollow ....
    Буду вам безмерно благодарен !! Я сайт сам делал, но далеко не ас))) все методом тыка и помощи яндекса)))
    Да, и еще забыл спросить, являются ли мои видео ролики с ютюба (по средствам компонента hwdVideoShare) плагиатом
    (или как правильно...дублем)) ??? И если да, то Может есть смысл закрыть полностью от индексации компонент и
    продвигать лишь уникальные статьи... а если закрыть, то как ????
    10 апреля 2011, 17:26 коммент полезен : -4 # Дмитрий3
  • Подскажите, как запретить яндексу индексировать и отображать в поиске страницу, которой уже месяц как не существует!?
    23 октября 2011, 06:57 коммент полезен : 0 # Маша
  • А как запретить индексировать страницу, не затронув другие? <a href="http://proigry.16mb.com/404.html"></a>
    02 ноября 2012, 18:51 коммент полезен : +1 # Proigry
  • Я запретил индексацию поста - но в тексте robots.txt ничего не изменилось , как можно проверить попала такая страница в поиск или нет, и можно так писать в robots.txt на запрет индексации?
    Disallow: http://kzn-soft.ru/11-abbyy-finereader-10-professional-edition-klyuch.html
    04 апреля 2013, 09:56 коммент полезен : 0 # Redis
  • Чтобы проверить индексацию страницы сайта в Яндексе или Google, воспользуйтесь нашим SEO-инструментом в виде сайта и программы iChecker.biz для массовой проверки индексации URL-s в поисковых системах Яндекс и Google.
    03 декабря 2014, 09:14 коммент полезен : 0 # Роман
  • Жалко, что 2 года назад я это не прочитал:O(
    02 апреля 2017, 15:16 коммент полезен : 0 # Ronnievek
Предложения и пожелания:
Ваше имя:
Ваш E-mail:
Сколько будет Οдин + Τри
Главная
X

youtube.com/watch?v=7hFivbgIEqk

При полном или частичном использовании материалов данного сайта, ссылка на сайт "yapro.ru" обязательна как на источник информации.
Автоматический импорт материалов и информации с сайта запрещен.
Copyrights © 2007 - 2017 YaPro.Ru

Главная » Веб-мастеру » HTML »