ак, теперь поговорим об управлении индексацией.
Так, теперь поговорим об управлении индексацией.
Все документы на вашем сайте можно разделить на два типа: рабочие, с релевантным содержанием, и вспомогательные (графика, архивы, страницы, где текста мало и он неинформативный, служебные каталоги). Индексацию последних лучше запретить, т.к. она снизит общую релевантность сайта. Да и индексация рабочей группы затормозится. Кроме того, на вашем сайте могут оказаться папки с секретными материалами, которые вам захочется спрятать.
Для таких случаев существует файл robots.txt. Точнее, будет существовать, когда вы его создадите :) С его помощью можно запретить индексировать отдельные файлы и каталоги (или все сразу) всем поисковикам, либо некоторым, выборочно.
Содержание файла robots.txt формируется всего из 2 строчек: User-agent – имя робота, и Disallow – перечень закрываемых каталогов. Если в строке User-agent стоит * – значит рекомендация относится ко всем поисковым роботам, если, скажем, Yandex – то только к Яндексу. Слэш (/) в строке Disallow означает, что запрещается индексировать все файлы и каталоги на сайте. Пустая строка Disallow – значит индексировать можно все.
Запрещаем Яндексу индексировать все:
User-agent: Yandex
Disallow: /
Запрещаем Яндексу и Апорту индексировать каталог /cgi-bin/:
User-agent: Yandex Aport
Disallow: /cgi-bin/
Запрещаем всем индексировать каталоги /cgi-bin/, /img/ и /faq/ и файл faq.htm:
User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: faq
Если вы пишете в строке Disallow слово, не обрамляя его слэшиками, то под запретом на индексацию окажется не только каталог, но и все файлы, в названии которых это слово присутствует.
Можно накладывать ограничения и на отдельные файлы:
User-agent: *
Disallow: /zoo/slon.html
Запрещаем всем все, кроме Яндекса:
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
Ну, думаю здесь все ясно.
Управлять индексацией можно и с помощью мета-тэга .
Выглядит это дело так:
В content должно стоять что-то из следующего:
Index – эту страницу нужно индексировать
Noindex – эту нельзя индексировать
Follow – прослеживать ссылки на странице
Nofollow – не прослеживать
All - = index, follow
None - = noindex, nofollow
Для примера, если эта строка у вас будет выглядеть так:
… то сама страница индексироваться не будет, но робот будет прослеживать на ней ссылки, чтобы проиндексировать по ним остальную часть сайта.
Мета-тэг имеет приоритет над указаниями, содержащимися в файле robots.txt. Если в robots.txt разрешается индексировать все файлы в каталоге, то мета-тэг может запретить индексирование конкретной страницы в этом каталоге.
Ваша оценка:
Так, теперь поговорим об управлении индексацией.
Все документы на вашем сайте можно разделить на два типа: рабочие, с релевантным содержанием, и вспомогательные (графика, архивы, страницы, где текста мало и он неинформативный, служебные каталоги). Индексацию последних лучше запретить, т.к. она снизит общую релевантность сайта. Да и индексация рабочей группы затормозится. Кроме того, на вашем сайте могут оказаться папки с секретными материалами, которые вам захочется спрятать.
Для таких случаев существует файл robots.txt. Точнее, будет существовать, когда вы его создадите :) С его помощью можно запретить индексировать отдельные файлы и каталоги (или все сразу) всем поисковикам, либо некоторым, выборочно.
Содержание файла robots.txt формируется всего из 2 строчек: User-agent – имя робота, и Disallow – перечень закрываемых каталогов. Если в строке User-agent стоит * – значит рекомендация относится ко всем поисковым роботам, если, скажем, Yandex – то только к Яндексу. Слэш (/) в строке Disallow означает, что запрещается индексировать все файлы и каталоги на сайте. Пустая строка Disallow – значит индексировать можно все.
Запрещаем Яндексу индексировать все:
User-agent: Yandex
Disallow: /
Запрещаем Яндексу и Апорту индексировать каталог /cgi-bin/:
User-agent: Yandex Aport
Disallow: /cgi-bin/
Запрещаем всем индексировать каталоги /cgi-bin/, /img/ и /faq/ и файл faq.htm:
User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: faq
Если вы пишете в строке Disallow слово, не обрамляя его слэшиками, то под запретом на индексацию окажется не только каталог, но и все файлы, в названии которых это слово присутствует.
Можно накладывать ограничения и на отдельные файлы:
User-agent: *
Disallow: /zoo/slon.html
Запрещаем всем все, кроме Яндекса:
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
Ну, думаю здесь все ясно.
Управлять индексацией можно и с помощью мета-тэга .
Выглядит это дело так:
В content должно стоять что-то из следующего:
Index – эту страницу нужно индексировать
Noindex – эту нельзя индексировать
Follow – прослеживать ссылки на странице
Nofollow – не прослеживать
All - = index, follow
None - = noindex, nofollow
Для примера, если эта строка у вас будет выглядеть так:
… то сама страница индексироваться не будет, но робот будет прослеживать на ней ссылки, чтобы проиндексировать по ним остальную часть сайта.
Мета-тэг имеет приоритет над указаниями, содержащимися в файле robots.txt. Если в robots.txt разрешается индексировать все файлы в каталоге, то мета-тэг может запретить индексирование конкретной страницы в этом каталоге.
Ваша оценка:
Другие новости |
Поделиться ссылкой
|
Комментарии |
Всего комментариев: 0 | |