Регистрация

Просто о сложном: Как работать с robots.txt?

40
0
2 080 1
Текст
9 сентября 2016

Как и зачем необходимо создавать файл robots.txt? Любой сайт включает не только контент для пользователей, но и множество системных файлов. И когда робот поисковика начинает его сканировать, для него нет разницы – системный это файл или какой-то другой. Он проиндексирует все подряд. Чтобы этого не случилось, необходимо отредактировать файл robots.txt.

В видео мы расскажем о работе с основными директивами:
- «User-agent:»;
- «Disallow:»;
- «Allow:»;
- «Host:»;
- «Sitemap:».

Как работать с robots.txt?

Именно на этот вопрос мы дадим ответ в данном видео. Минимум ненужной информации, только самое важное. Обязательно досмотрите до конца! Итак, как работать с файлом robots.txt?

Любой сайт включает не только контент для пользователей, но и множество системных файлов. И когда робот поисковика начинает сканировать ваш сайт, для него нет разницы – системный это файл или какой-то другой. Он проиндексирует все подряд. Проблема в том, что на посещение каждого сайта роботу отведено определенное время, и если он начнет индексировать все файлы, то может так и не добраться до тех страниц, которые действительно должны быть в поиске. В итоге это приводит к тому, что роботы воспринимают ваш ресурс как бесполезный и понижают его в выдаче. Именно поэтому обязательно нужно создавать файл robots.txt, который содержит инструкции для поисковых машин, определяя, какие директории и страницы нельзя индексировать. Именно этот файл в первую очередь ищет любой робот, попадая на ваш сайт, а дальше уже следует указаниям, прописанным в нем.
Начинается работа с robots.txt с его создания. Для этого нужно просто открыть блокнот и сохранить файл под именем robots.txt. Сам файл помещается в корневую папку сайта.
Далее начинаем прописывать команды, с помощью которых будем управлять индексацией сайта. Эти команды называются директивами. Рассмотрим их подробнее.
Директива «User-agent:»
Эта директива указывает, для какого робота прописан следующий ниже набор команд. Например, если мы обращаемся к роботу Яндекса, то мы прописываем User-agent: Yandex, если же нас интересует робот Гугла, то пишем: User-agent: Googlebot . Если же мы обращаемся сразу ко всем поисковикам, то достаточно написать User-agent: * . При этом можно обратиться не только к главному роботу поисковой системы, но и к вспомогательным роботам. Например, в Яндексе есть робот, который индексирует медиафайлы (YandexMedia), изображения (YandexImages), комментарии постов (YandexBlogs) и т. д. Есть мнение, что роботы лучше индексируют сайты (особенно это касается Яндекса), если к ним обращаются напрямую, а не через общую директиву, хотя с точки зрения синтаксиса разницы нет.
Директива «Disallow:»
С помощью этой директивы роботу запрещают индексировать каталоги или файлы. Тут используется специальный символ слэш («/»), после которого нужно прописать путь к каталогу, файлу или URL. Например, чтобы запретить индексацию папки «wp-includes», где находятся файлы ядра WordPress, нужно прописать после директории User-agent: такую команду: Disallow: /wp-includes . После этого все файлы, которые находятся в этом каталоге, не будут проиндексированы. Также можно закрыть от индексации конкретные URL, прописав их путь после символа слэш («/»). Или же можно закрыть несколько URL, которые содержат какой-то символ, например, вопросительный знак («?»). Для этого нужно прописать директиву: Disallow: /*?* . Это далеко не все примеры использования директивы Disallow, поэтому перед работой с ней надо внимательно изучить синтаксис, чтобы не допустить ошибок.
Директива «Allow:»
Данная директива является логически противоположной предыдущей. То есть она разрешает роботам индексировать указанные папки, файлы или страницы. Часто эти директивы используются в паре. Это нужно для того, чтобы, например, открыть роботу доступ к подкаталогу в запрещенном к индексации каталоге.
Директива «Host:»
Она предназначена только для Яндекса. Дело в том, что в Яндексе есть понятие зеркала сайта – он воспринимает сайты www.имясайта.ru и просто имясайта.ru как разные ресурсы с аналогичным содержимым. Поэтому нужно в Яндекс Вебмастере указать главное зеркало сайта и его же нужно прописать в robots.txt. Делается это так: Host: имясайта.ru или Host: www.имясайта.ru – в зависимости от того, какое зеркало вы выбрали.
Директива «Sitemap:»
Она показывает роботам, где находятся файлы sitemap.xml и sitemap.xml.gz . Она нужна для ускорения индексации. Прописывается так: Sitemap: http://имясайта.ru/sitemap.xml . Эта директива идет в самом конце robots.txt.
Итак, мы ознакомились с основными директивами в robots.txt. Остается вопрос: что же именно нужно закрывать от индексации? Прежде всего, нужно закрывать системные файлы сайта. Но поисковики, в частности, Гугл, рекомендуют открывать доступ к файлам стилей .css и скриптам .js – это нужно, чтобы они могли определить форматирование вашего сайта, что тоже влияет на ранжирование.
Также можно закрыть сайт от индексации ненужными поисковиками, откуда вы не ожидаете целевой аудитории. Делается это, чтобы не нагружать лишний раз сервер.
Часто закрывают от индексации страницы пагинации, архивов, тегов, сортировки, но это не лучший вариант – для этого эффективней использовать тег robots noindex, тег rel=canonical или 301-й редирект.
Вообще же в каждом конкретном случае будет свой набор директив для robots.txt . Но если вам интересно, как тот или иной сайт справился с этой задачей, достаточно набрать в адресной строке браузера имясайта.ru/robots.txt , и вам откроется этот файл.
Итак, я рассказал, как работать с файлом robots.txt. Полезные ссылки вы найдете в описании к этому видео. Если понравилось видео подписывайтесь на канал, ставьте палец вверх и будет вам счастье!
А теперь, похождения юного-маркетолога.

Развернуть текстовую версию
Комментарии
Похожие видео
Еще видео