Поисковые роботы индексируют всё, что находят. Даже админпанель с личной информацией. Robots.txt — это специальный файл для ботов с правилами, по которым они начинают работать с вашим сайтом. В этом файле вы и прописываете всё, что разрешаете или запрещаете им делать.
Важный файл robots.txt
Для того, чтобы ваш сайт быстрее индексировался, в поиск не попадали ненужные страницы или приватная информация. «Ненужные страницы» — это дубликаты товарных категорий, личная информация, формы отправки данных, страницы с результатами поиска и т.п. Robots.txt устанавливает строгие правила для поисковиков, если же эти правила не указать, то вся ваша информация окажется в сети и удалить её из архивов интернета будет практически нереально.
Писать можно в любом удобном для вас редакторе — в обычном встроенном блокноте для Windows, NotePad или Word — не суть. Главное, чтобы этот файл был сохранён в текстовом формате, то есть с расширением .txt.
В нашей системе вставить инструкцию для поисковых ботов на сайт очень просто: выберите в левой панели управления сайтом раздел «Реклама/SEO → Управление robots.txt».
Управление robots.txt находится в разделе «Реклама/SEO»
И в открывшееся поле вы просто вставляете готовую инструкцию (с помощью функции «копировать — вставить»).
На нашем сервисе файл robots.txt автоматически генерируется системой. В большинстве случаев он полностью отвечает всем требованиям поисковых роботов и закрывает от индексации те страницы, которые не должны быть на виду. Но вы можете создать свою инструкцию или внести любые изменения в готовый файл. В случае необходимости всегда можно восстановить первоначальный вариант.
Поисковый робот учитывает только определённые выражения и алгоритмы. Поэтому инструкция составляется на понятном ему «языке». Вот основные команды, которые «понимает» робот:
Директива Allow не является обязательной, а вот Disallow нужно указывать. По умолчанию файл robots.txt разрешает всё, поэтому прописывать нужно только запрещающие команды.
Правильный синтаксис написания: команда → двоеточие → пробел → слеш (/) → точное наименование страницы.
Точное наименование страницы — это весь путь, который ведёт на указанную страницу, начиная с главной: мойсайт.рф — мода — женская мода — верхняя одежда — пальто — чёрное пальто в горошек.
Пример:
Disallow относится только к тому боту, который указан перед командой. Для каждого робота нужно прописывать команды индивидуально.
Есть удобная функция «комментарий», которую вы можете использовать при составлении robots.txt. Всё, что вы хотите прокомментировать, оставить какое-либо уточнение, отмечайте символом #. Всё, что будет написано после этого знака, роботом не учитывается.
User-Agent: Yandex
Disallow: /Price/ #Не индексировать каталог с ценами.
Чтобы уменьшить нагрузку на сервер, нужно использовать директиву (команду для робота-поисковика) Crawl-delay. Она устанавливает период, за который робот-поисковик должен обойти сайт, или время, за которое робот просмотрит все страницы сайта и внесёт их в индекс. Другими словами, эта директива позволяет ускорить обход сайта роботом. Обычно устанавливается на сайт-многостраничник. Если у вас страниц ещё немного, не больше двухсот, то этот параметр можно не указывать.
Прописывается это так:
Тайм-аут обхода вы можете указать любой. Это не гарантирует, что на ваш сайт робот будет заходить каждые 2 (3, 4, 5…) секунд, вы просто даёте ему приблизительное время обхода. Если ваш сайт уже хорошо ранжируется, то роботы будут заходить на него чаще, если сайт ещё молод, то реже. В справке Яндекс об этом параметре написано подробней.
Рассмотрим самые популярные ошибки, которые совершают пользователи при создании файла.
Ошибки |
Правильно |
Путаница в инструкциях User-Agent: / Disallow: Googlebot |
User-Agent: Googlebot Disallow: / |
Несколько каталогов в одной строке Disallow Disallow: /moda/ hat/ images |
Disallow: /moda/ Disallow: /hat/ Disallow: /images/ |
Пустая строка в указании имени поискового робота User-Agent: Disallow: |
User-Agent: * Disallow: |
Заглавные буквы USER-AGENT: YANDEX ALLOW: |
User-Agent: Yandex Allow: |
Перечисление каждого файла в категории User-Agent: Googlebot Disallow: / moda/ krasnoe-palto. Disallow: /moda/ sinee-palto.html Disallow: /moda/ zelenoe-palto.html Disallow: /moda/ seroe-palto.html Disallow: /price/ women.html Disallow: /price/ men.html |
User-Agent: Googlebot Disallow: / moda/ Disallow: /price/ |
Не забывайте про знак слеш (/). Если его не будет, то робот запретит к индексации все файлы и категории с таким же названием. Например, если вы не укажете слеш в директиве: “Disallow: moda”, то из индекса выпадут все страницы, рубрики и категории, где встречается это название.
Есть специальные сервисы, которые проверяют, правильно ли составлен разрешающий файл. Проверьте свой robots.txt на сайте Яндекс или в Гугл.
Если для вас сложно самостоятельно написать инструкцию для ботов, то создайте её автоматически. На сайте pr-cy файл будет сгенерирован за 10 секунд, просто укажите нужные вам параметры, потом скопируйте текст и вставьте его в поле для robots.txt на нашем сервисе.
Директивы – это своеобразный свод правил поведения на страничках сайта для robots. txt. Считывая их, поисковый агент и понимает, какой контент можно использовать для индексации сайта, а какой нельзя.
Если директивы не прописать вовсе, поисковик скачает с вашего сайта всю информацию и проиндексирует. Последствием этих действий станет его медленная загрузка. Очевидно, что такие сайты меньше посещают пользователи и не помещают в вершинах выдачи поисковые системы.
Ниже перечислим разные типы директив, с пояснениями.
User-agent
Если перевести на простой язык, то «User-agent» — это призыв к некоему действию. После этого директива обычно прописывается наименование robots.txt, которому сообщается информация, а далее — уже сама информация. Иными словами, User-agent — самая важная директива для robots.txt.
Вот так выглядят директивы User-agent для разных поисковых машин:
Disallow
Директива, запрещающая индексировать те или иные странички веб-сайта. Веб-мастера советуют прописывать ее для следующих типов страниц:
Allow
Это директива, наоборот, открывает страничку сайта для чтения роботом.
Sitemap
Простыми словами — директива, отображающая карту вашего сайта. Сообщая роботу структуру вашего сайта, вы ускоряете его индексацию.
Host
Указывает поисковому роботу на зеркало вашего сайта, куда будут попадать пользователи.
Crawl-delay
Помогает снижать нагрузку на сервер, задавая минимальный временной интервал между обращениями к сервису.
Общие рекомендации любых директив:
Robots.txt напрямую влияет на индексацию сайта, поэтому обязательно установите свои правила для поисковых ботов. Успешного вам продвижения!
Файл robots.txt — текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере.
Как определение, Robots.txt — это стандарт исключений для роботов, который был принят консорциумом W3C 30 января 1994 года, и который добровольно использует большинство поисковых систем. Файл robots.txt состоит из набора инструкций для поисковых роботов, которые запрещают индексацию определенных файлов, страниц или каталогов на сайте. Рассмотрим описание robots.txt для случая, когда сайт не ограничивает доступ роботам к сайту.
Простой пример:
User-agent: * Allow: /
Здесь роботс полностью разрешает индексацию всего сайта.
Файл robots.txt необходимо загрузить в корневой каталог вашего сайта, чтобы он был доступен по адресу:
ваш_сайт.ru/robots.txt
Для размещения файла в корне сайта обычно необходим доступ через FTP. Однако, некоторые системы управления (CMS) дают возможность создать robots.txt непосредственно из панели управления сайтом или через встроенный FTP-менеджер.
Если файл доступен, то вы увидите содержимое в браузере.
Сформированный файл для сайта является важным аспектом поисковой оптимизации. Зачем нужен robots.txt? Например, в SEO robots.txt нужен для того, чтобы исключать из индексации страницы, не содержащие полезного контента и многое другое. Как, что, зачем и почему исключается уже было описано в статье про запрет индексации страниц сайта, здесь не будем на этом останавливаться. Нужен ли файл robots.txt всем сайтам? И да и нет. Если использование подразумевает исключение страниц из поиска, то для небольших сайтов с простой структурой и статичными страницами подобные исключения могут быть лишними. Однако, и для небольшого сайта могут быть полезны некоторые директивы, например директива Host или Sitemap, но об этом ниже.
Поскольку это текстовый файл, нужно воспользоваться любым текстовым редактором, например Блокнотом. Как только вы открыли новый текстовый документ, вы уже начали создание robots. txt, осталось только составить его содержимое, в зависимости от ваших требований, и сохранить в виде текстового файла с названием robots в формате txt. Все просто, и создание файла не должно вызвать проблем даже у новичков. О том, как составить и что писать в роботсе на примерах покажу ниже.
Вариант для ленивых: скачать в уже в готовом виде. Создание robots txt онлайн предлагает множество сервисов, выбор за вами. Главное — четко понимать, что будет запрещено и что разрешено, иначе создание файла robots.txt online может обернуться трагедией, которую потом может быть сложно исправить. Особенно, если в поиск попадет то, что должно было быть закрытым. Будьте внимательны — проверьте свой файл роботс, прежде чем выгружать его на сайт. Все же пользовательский файл robots.txt точнее отражает структуру ограничений, чем тот, что был сгенерирован автоматически и скачан с другого сайта. Читайте дальше, чтобы знать, на что обратить особое внимание при редактировании robots. txt.
После того, как вам удалось создать файл robots.txt онлайн или своими руками, вы можете редактировать robots.txt. Изменить его содержимое можно как угодно, главное — соблюдать некоторые правила и синтаксис robots.txt. В процессе работы над сайтом, файл роботс может меняться, и если вы производите редактирование robots.txt, то не забывайте выгружать на сайте обновленную, актуальную версию файла со всем изменениями. Далее рассмотрим правила настройки файла, чтобы знать, как изменить файл robots.txt и «не нарубить дров».
Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем. Однако, не стоит забывать, что команды robots.txt не более чем руководство к действию, а не защита. Роботы надежных поисковых систем, вроде Яндекс или Google, следуют инструкциям robots.txt, однако прочие роботы могут легко игнорировать их. Правильное понимание и применение robots.txt — залог получения результата.
Чтобы понять, как сделать правильный robots txt, для начала необходимо разобраться с общими правилами, синтаксисом и директивами файла robots.txt.
Правильный robots.txt начинается с директивы User-agent, которая указывает, к какому роботу обращены конкретные директивы.
Примеры User-agent в robots.txt:
# Указывает директивы для всех роботов одновременно User-agent: * # Указывает директивы для всех роботов Яндекса User-agent: Yandex # Указывает директивы для только основного индексирующего робота Яндекса User-agent: YandexBot # Указывает директивы для всех роботов Google User-agent: Googlebot
Учитывайте, что подобная настройка файла robots.txt указывает роботу использовать только директивы, соответствующие user-agent с его именем.
Пример robots.txt с несколькими вхождениями User-agent:
# Будет использована всеми роботами Яндекса User-agent: Yandex Disallow: /*utm_ # Будет использована всеми роботами Google User-agent: Googlebot Disallow: /*utm_ # Будет использована всеми роботами кроме роботов Яндекса и Google User-agent: * Allow: /*utm_
Директива User-agent создает лишь указание конкретному роботу, а сразу после директивы User-agent должна идти команда или команды с непосредственным указанием условия для выбранного робота. В примере выше используется запрещающая директива «Disallow», которая имеет значение «/*utm_». Таким образом, закрываем все страницы с UTM-метками. Правильная настройка robots.txt запрещает наличие пустых переводов строки между директивами «User-agent», «Disallow» и директивами следующими за «Disallow» в рамках текущего «User-agent».
Пример неправильного перевода строки в robots.txt:
User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=
Пример правильного перевода строки в robots.txt:
User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=
Как видно из примера, указания в robots.txt поступают блоками, каждый из которых содержит указания либо для конкретного робота, либо для всех роботов «*».
Кроме того, важно соблюдать правильный порядок и сортировку команд в robots.txt при совместном использовании директив, например «Disallow» и «Allow». Директива «Allow» — разрешающая директива, является противоположностью команды robots. txt «Disallow» — запрещающей директивы.
Пример совместного использования директив в robots.txt:
User-agent: * Allow: /blog/page Disallow: /blog
Данный пример запрещает всем роботам индексацию всех страниц, начинающихся с «/blog», но разрешает индексации страниц, начинающиеся с «/blog/page».
Прошлый пример robots.txt в правильной сортировке:
User-agent: * Disallow: /blog Allow: /blog/page
Сначала запрещаем весь раздел, потом разрешаем некоторые его части.
Еще один правильный пример robots.txt с совместными директивами:
User-agent: * Allow: / Disallow: /blog Allow: /blog/page
Обратите внимание на правильную последовательность директив в данном robots.txt.
Директивы «Allow» и «Disallow» можно указывать и без параметров, в этом случае значение будет трактоваться обратно параметру «/».
Пример директивы «Disallow/Allow» без параметров:
User-agent: * Disallow: # равнозначно Allow: / Disallow: /blog Allow: /blog/page
Как составить правильный robots. txt и как пользоваться трактовкой директив — ваш выбор. Оба варианта будут правильными. Главное — не запутайтесь.
Для правильного составления robots.txt необходимо точно указывать в параметрах директив приоритеты и то, что будет запрещено для скачивания роботам. Более полно использование директив «Disallow» и «Allow» мы рассмотрим чуть ниже, а сейчас рассмотрим синтаксис robots.txt. Знание синтаксиса robots.txt приблизит вас к тому, чтобы создать идеальный robots txt своими руками.
Роботы поисковых систем добровольно следуют командам robots.txt — стандарту исключений для роботов, однако не все поисковые системы трактуют синтаксис robots.txt одинаково. Файл robots.txt имеет строго определённый синтаксис, но в то же время написать robots txt не сложно, так как его структура очень проста и легко понятна.
Вот конкретные список простых правил, следуя которым, вы исключите частые ошибки robots.txt:
Поскольку разные поисковые системы могут трактовать синтаксис robots.txt по-разному, некоторые пункты можно опустить. Так например, если прописать несколько директив «User-agent» без пустого перевода строки, все директивы «User-agent» будут восприняты корректно Яндексом, так как Яндекс выделяет записи по наличию в строке «User-agent».
В роботсе должно быть указано строго только то, что нужно, и ничего лишнего. Не думайте, как прописать в robots txt все, что только можно и чем его заполнить. Идеальный robots txt — это тот, в котором меньше строк, но больше смысла. «Краткость — сестра таланта». Это выражение здесь как нельзя кстати.
Для того, чтобы проверить robots.txt на корректность синтаксиса и структуры файла, можно воспользоваться одной из онлайн-служб. К примеру, Яндекс и Google предлагают собственные сервисы анализа сайта для вебмастеров, которые включают анализ robots.txt:
Проверка файла robots.txt в Яндекс.Вебмастер: http://webmaster.yandex.ru/robots.xml
Проверка файла robots.txt в Google: https://www.google.com/webmasters/tools/siteoverview?hl=ru
Для того, чтобы проверить robots.txt онлайн необходимо загрузить robots.txt на сайт в корневую директорию. Иначе, сервис может сообщить, что не удалось загрузить robots.txt. Рекомендуется предварительно проверить robots.txt на доступность по адресу где лежит файл, например: ваш_сайт.ru/robots.txt.
Кроме сервисов проверки от Яндекс и Google, существует множество других онлайн валидаторов robots. txt.
Есть субъективное мнение, что указание отдельного блока директив «User-agent: Yandex» в robots.txt Яндекс воспринимает более позитивно, чем общий блок директив с «User-agent: *». Аналогичная ситуация robots.txt и Google. Указание отдельных директив для Яндекс и Google позволяет управлять индексацией сайта через robots.txt. Возможно, им льстит персонально обращение, тем более, что для большинства сайтов содержимое блоков robots.txt Яндекса, Гугла и для других поисковиков будет одинаково. За редким исключением, все блоки «User-agent» будут иметь стандартный для robots.txt набор директив. Так же, используя разные «User-agent» можно установить запрет индексации в robots.txt для Яндекса, но, например не для Google.
Отдельно стоит отметить, что Яндекс учитывает такую важную директиву, как «Host», и правильный robots.txt для яндекса должен включать данную директиву для указания главного зеркала сайта. Подробнее директиву «Host» рассмотрим ниже.
Disallow — запрещающая директива, которая чаще всего используется в файле robots.txt. Disallow запрещает индексацию сайта или его части, в зависимости от пути, указанного в параметре директивы Disallow.
Пример как в robots.txt запретить индексацию сайта:
User-agent: * Disallow: /
Данный пример закрывает от индексации весь сайт для всех роботов.
В параметре директивы Disallow допускается использование специальных символов * и $:
* — любое количество любых символов, например, параметру /page* удовлетворяет /page, /page1, /page-be-cool, /page/kak-skazat и т.д. Однако нет необходимости указывать * в конце каждого параметра, так как например, следующие директивы интерпретируются одинаково:
User-agent: Yandex Disallow: /page
User-agent: Yandex Disallow: /page*
$ — указывает на точное соответствие исключения значению параметра:
User-agent: Googlebot Disallow: /page$
В данном случае, директива Disallow будет запрещать /page, но не будет запрещать индексацию страницы /page1, /page-be-cool или /page/kak-skazat.
Если закрыть индексацию сайта robots.txt, в поисковые системы могут отреагировать на так ход ошибкой «Заблокировано в файле robots.txt» или «url restricted by robots.txt» (url запрещенный файлом robots.txt). Если вам нужно запретить индексацию страницы, можно воспользоваться не только robots txt, но и аналогичными html-тегами:
Allow — разрешающая директива и противоположность директиве Disallow. Эта директива имеет синтаксис, сходный с Disallow.
Пример, как в robots. txt запретить индексацию сайта кроме некоторых страниц:
User-agent: * Disallow: / Allow: /page
Запрещается индексировать весь сайт, кроме страниц, начинающихся с /page.
Пустая директива Disallow:
User-agent: * Disallow:
Не запрещать ничего или разрешить индексацию всего сайта и равнозначна:
User-agent: * Allow: /
Пустая директива Allow:
User-agent: * Allow:
Разрешить ничего или полный запрет индексации сайта, равнозначно:
User-agent: * Disallow: /
Директива Host служит для указания роботу Яндекса главного зеркала Вашего сайта. Из всех популярных поисковых систем, директива Host распознаётся только роботами Яндекса. Директива Host полезна в том случае, если ваш сайт доступен по нескольким доменам, например:
mysite.ru mysite.com
Или для определения приоритета между:
mysite.ru www.mysite.ru
Роботу Яндекса можно указать, какое зеркало является главным. Директива Host указывается в блоке директивы «User-agent: Yandex» и в качестве параметра, указывается предпочтительный адрес сайта без «http://».
Пример robots.txt с указанием главного зеркала:
User-agent: Yandex Disallow: /page Host: mysite.ru
В качестве главного зеркала указывается доменное имя mysite.ru без www. Таки образом, в результатах поиска буде указан именно такой вид адреса.
User-agent: Yandex Disallow: /page Host: www.mysite.ru
В качестве основного зеркала указывается доменное имя www.mysite.ru.
Директива Host в файле robots.txt может быть использована только один раз, если же директива Хост будет указана более одного раза, учитываться будет только первая, прочие директивы Host будут игнорироваться.
Если вы хотите указать главное зеркало для робота Google, воспользуйтесь сервисом Google Инструменты для вебмастеров.
При помощи директивы Sitemap, в robots.txt можно указать расположение на сайте файла карты сайта sitemap.xml.
Пример robots.txt с указанием адреса карты сайта:
User-agent: * Disallow: /page Sitemap: http://www.mysite.ru/sitemap.xml
Указание адреса карты сайта через директиву Sitemap в robots.txt позволяет поисковому роботу узнать о наличии карты сайта и начать ее индексацию.
Директива Clean-param позволяет исключить из индексации страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL страницы. Проще говоря, будто страница доступна по разным адресам. Наша задача убрать все лишние динамические адреса, которых может быть миллион. Для этого исключаем все динамические параметры, используя в robots.txt директиву Clean-param.
Синтаксис директивы Clean-param:
Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]
Рассмотрим на примере страницы со следующим URL:
www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3
Пример robots.txt Clean-param:
Clean-param: parm1&parm2&parm3 /page.html # только для page.html
или
Clean-param: parm1&parm2&parm3 / # для всех
Данная инструкция позволяет снизить нагрузку на сервер, если роботы слишком часто заходят на ваш сайт. Данная директива актуальна в основном для сайтов с большим объемом страниц.
Пример robots.txt Crawl-delay:
User-agent: Yandex Disallow: /page Crawl-delay: 3
В данном случае мы «просим» роботов яндекса скачивать страницы нашего сайта не чаще, чем один раз в три секунды. Некоторые поисковые системы поддерживают формат дробных чисел в качестве параметра директивы Crawl-delay robots.txt.
Комментарий в robots.txt начинаются с символа решетки — #, действует до конца текущей строки и игнорируются роботами.
Примеры комментариев в robots.txt:
User-agent: * # Комментарий может идти от начала строки Disallow: /page # А может быть продолжением строки с директивой # Роботы # игнорируют # комментарии Host: www.mysite.ru
Файл robots.txt — очень важный и нужный инструмент взаимодействия с поисковыми роботами и один из важнейших инструментов SEO, так как позволяет напрямую влиять на индексацию сайта. Используйте роботс правильно и с умом.
Если у вас есть вопросы — пишите в комментариях.
Рекомендуйте статью друзьям и не забывайте подписываться на блог.
Новые интересные статьи каждый день.
Robots.txt — это текстовый файл, который веб-мастера создают для того, чтобы проинструктировать веб-роботов (обычно роботов поисковых систем) о том, как сканировать страницы на их веб-сайте. Файл robots.txt является частью протокола исключения роботов (REP), группы веб-стандартов, которые регулируют, как роботы сканируют Интернет, получают доступ и индексируют контент, а также предоставляют этот контент пользователям. REP также включает в себя такие директивы, как метароботы, а также инструкции для страницы, подкаталога или сайта о том, как поисковые системы должны обрабатывать ссылки (например, «follow» или «nofollow»).
На практике файлы robots.txt указывают, могут ли определенные пользовательские агенты (программное обеспечение для веб-сканирования) сканировать части веб-сайта. Эти инструкции по обходу указываются путем «запрета» или «разрешения» поведения определенных (или всех) пользовательских агентов.
Базовый формат:User-agent: [имя user-agent]Disallow: [строка URL не сканируется]
Вместе эти две строки считаются полным файлом robots.txt — хотя один файл robots может содержать несколько строк пользовательских агентов и директив (например, запрещает, разрешает, задержки сканирования и т. д.).
В файле robots.txt каждый набор директив агента пользователя отображается как отдельный набор , разделенных разрывом строки:
В файле robots.txt с несколькими директивами агента пользователя каждое правило запрещает или разрешает Только применяется к агентам пользователя, указанным в этом конкретном наборе, разделенном разрывом строки. Если файл содержит правило, которое применяется более чем к одному пользовательскому агенту, сканер будет обращать внимание (и следовать указаниям) только на наиболее конкретные группа инструкций.
Вот пример:
Msnbot, discobot и Slurp вызываются специально, поэтому эти пользовательские агенты будут только обращать внимание на директивы в своих разделах файла robots.txt. Все остальные пользовательские агенты будут следовать директивам в группе пользовательских агентов: *.
Вот несколько примеров robots. txt в действии для сайта www.example.com:
User-agent: * Disallow: /
Использование этого синтаксиса в файле robots.txt означает, что все поисковые роботы не будут сканировать какие-либо страницы на www.example. com, включая домашнюю страницу.
Разрешение всем поисковым роботам доступа ко всему контентуАгент пользователя: * Disallow:
Использование этого синтаксиса в файле robots.txt указывает поисковым роботам просканировать все страницы на www.example.com, включая главную страницу.
Блокировка определенного поискового робота из определенной папкиАгент пользователя: Googlebot Запретить: /example-subfolder/
Этот синтаксис указывает только сканеру Google (имя пользовательского агента Googlebot) не сканировать любые страницы, которые содержать строку URL www. example.com/example-subfolder/.
Агент пользователя: Bingbot Запретить: /example-subfolder/blocked-page.html
Этот синтаксис указывает, что следует избегать сканирование конкретной страницы по адресу www.example.com/example-subfolder/blocked-page.html.
Поисковые системы выполняют две основные функции:
Для обхода сайтов поисковые системы следуют ссылкам, чтобы перейти с одного сайта на другой — в конечном счете, сканируя многие миллиарды ссылок и веб-сайтов. Такое поведение сканирования иногда называют «пауками».
После перехода на веб-сайт, но до его сканирования поисковый робот будет искать файл robots.txt. Если он найдет его, сканер сначала прочитает этот файл, прежде чем продолжить просмотр страницы. Поскольку файл robots.txt содержит информацию о как поисковая система должна сканировать, найденная там информация будет указывать дальнейшие действия сканера на этом конкретном сайте. Если файл robots.txt , а не содержит какие-либо директивы, запрещающие деятельность пользовательского агента (или если на сайте нет файла robots.txt), он продолжит сканирование другой информации на сайте.
(более подробно обсуждается ниже)
Чтобы найти файл robots.txt, его необходимо поместить в каталог верхнего уровня веб-сайта.
Robots.txt чувствителен к регистру: файл должен иметь имя «robots.txt» (не Robots.txt, robots.TXT или другое).
Некоторые пользовательские агенты (роботы) могут игнорировать ваш файл robots.txt. Это особенно характерно для более гнусных поисковых роботов, таких как вредоносные роботы или скребки адресов электронной почты.
Файл /robots.txt является общедоступным: просто добавьте /robots.txt в конец любого корневого домена, чтобы увидеть директивы этого сайта (если этот сайт имеет файл robots.txt!). Это означает, что любой может видеть, какие страницы вы сканируете или не хотите, поэтому не используйте их для сокрытия личной информации пользователя.
Каждый поддомен в корневом домене использует отдельные файлы robots.txt. Это означает, что и у blog.example.com, и у example.com должны быть свои собственные файлы robots.txt (по адресу blog.example.com/robots.txt и example.com/robots.txt).
Обычно рекомендуется указывать местоположение любых карт сайта, связанных с этим доменом, в нижней части файла robots.txt. Вот пример:
Функция сканирования сайта Moz Pro проверяет ваш сайт на наличие проблем и выделяет срочные ошибки, которые могут помешать вам появиться в Google. Воспользуйтесь 30-дневной бесплатной пробной версией и посмотрите, чего вы можете достичь:
Начать мою бесплатную пробную версию
Синтаксис robots.txt можно рассматривать как «язык» файлов robots.txt . Есть пять общих терминов, которые вы, вероятно, встретите в файле robots. Среди них:
Агент пользователя: Конкретный поисковый робот, которому вы даете инструкции по сканированию (обычно это поисковая система). Список большинства пользовательских агентов можно найти здесь.
Disallow: Команда, используемая для указания агенту пользователя не сканировать определенный URL-адрес. Для каждого URL разрешена только одна строка «Запретить:».
Разрешить (применимо только для робота Google): команда, сообщающая роботу Google, что он может получить доступ к странице или вложенной папке, даже если ее родительская страница или вложенная папка могут быть запрещены.
Crawl-delay: Сколько секунд сканер должен ждать перед загрузкой и сканированием содержимого страницы. Обратите внимание, что Googlebot не подтверждает эту команду, но скорость сканирования можно установить в Google Search Console.
Карта сайта: Используется для вызова местоположения любой карты сайта XML, связанной с этим URL-адресом. Обратите внимание, что эта команда поддерживается только Google, Ask, Bing и Yahoo.
Когда дело доходит до фактических URL-адресов для блокировки или разрешения, файлы robots.txt могут быть довольно сложными, поскольку они позволяют использовать сопоставление с шаблоном для охвата диапазона возможных параметров URL. Google и Bing поддерживают два регулярных выражения, которые можно использовать для идентификации страниц или подпапок, которые SEO хочет исключить. Этими двумя символами являются звездочка (*) и знак доллара ($).
Всякий раз, когда они заходят на сайт, поисковые системы и другие поисковые роботы (например, поисковый робот Facebook, Facebot) знают, что нужно искать файл robots.txt. Но они будут искать этот файл только в одном конкретном месте : в основном каталоге (обычно это ваш корневой домен или домашняя страница). Если пользовательский агент посещает www.example.com/robots.txt и не находит там файл robots, он предполагает, что на сайте его нет, и продолжает сканировать все на странице (и, возможно, даже на всем сайте). Даже если страница robots.txt существует по адресу , скажем, example.com/index/robots.txt или www.example.com/homepage/robots.txt, она не будет обнаружена пользовательскими агентами, и, следовательно, сайт будет рассматриваться так, как если бы у него вообще не было файла robots.
Чтобы ваш файл robots.txt был найден, всегда включайте его в свой основной каталог или корневой домен.
Файлы robots.txt контролируют доступ поисковых роботов к определенным областям вашего сайта. Хотя это может быть очень опасно, если вы случайно запретите роботу Googlebot сканировать весь ваш сайт (!!), в некоторых ситуациях файл robots.txt может оказаться очень полезным.
Некоторые распространенные варианты использования включают:
Если на вашем сайте нет областей, к которым вы хотите контролировать доступ агента пользователя, возможно, вам вообще не нужен файл robots.txt.
Не уверены, есть ли у вас файл robots.txt? Просто введите свой корневой домен, а затем добавьте /robots.txt в конец URL-адреса. Например, файл robots Moz находится по адресу moz.com/robots.txt.
Если страница .txt не отображается, у вас в настоящее время нет (действующей) страницы robots.txt.
Если вы обнаружили, что у вас нет файла robots.txt или вы хотите изменить свой, создать его — простой процесс. В этой статье от Google рассматривается процесс создания файла robots.txt, и этот инструмент позволяет вам проверить, правильно ли настроен ваш файл.
Хотите попрактиковаться в создании файлов robots? В этом сообщении блога рассматриваются некоторые интерактивные примеры.
Убедитесь, что вы не блокируете какой-либо контент или разделы вашего веб-сайта, которые вы хотите сканировать.
Ссылки на страницы, заблокированные robots.txt, не будут переходить. Это означает 1.) Если на них также не ссылаются другие страницы, доступные для поисковых систем (т. е. страницы, не заблокированные с помощью robots.txt, мета-роботов или иным образом), связанные ресурсы не будут сканироваться и не могут быть проиндексированы. 2.) Никакой вес ссылок не может быть передан с заблокированной страницы на место назначения ссылки. Если у вас есть страницы, на которые вы хотите передать право собственности, используйте другой механизм блокировки, отличный от robots.txt.
Не используйте robots.txt, чтобы предотвратить появление конфиденциальных данных (например, личной информации пользователя) в результатах поисковой выдачи. Поскольку другие страницы могут напрямую ссылаться на страницу, содержащую личную информацию (таким образом, в обход директив robots. txt на вашем корневом домене или домашней странице), она все равно может быть проиндексирована. Если вы хотите заблокировать свою страницу в результатах поиска, используйте другой метод, например защиту паролем или мета-директиву noindex.
Некоторые поисковые системы имеют несколько пользовательских агентов. Например, Google использует Googlebot для обычного поиска и Googlebot-Image для поиска изображений. Большинство пользовательских агентов из одной и той же поисковой системы следуют одним и тем же правилам, поэтому нет необходимости указывать директивы для каждого из нескольких сканеров поисковой системы, но возможность сделать это позволяет вам точно настроить сканирование содержимого вашего сайта.
Поисковая система кэширует содержимое robots.txt, но обычно обновляет кэшированное содержимое не реже одного раза в день. Если вы изменили файл и хотите обновить его быстрее, чем это происходит, вы можете отправить URL-адрес robots.txt в Google.
Так много роботов! В чем разница между этими тремя типами инструкций для роботов? Во-первых, robots.txt — это настоящий текстовый файл, тогда как meta и x-robots — это метадирективы. Помимо того, чем они на самом деле являются, все три выполняют разные функции. Robots.txt определяет поведение сканирования сайта или всего каталога, тогда как meta и x-robots могут определять поведение индексации на уровне отдельной страницы (или элемента страницы).
Все любят «хаки».
Я не исключение — мне нравится находить способы сделать свою жизнь лучше и проще.
Вот почему техника, о которой я собираюсь рассказать вам сегодня, является одной из моих самых любимых. Это законный SEO-хак, который вы можете начать использовать прямо сейчас.
Это способ улучшить SEO, используя естественную часть каждого веб-сайта, о которой редко говорят. Тоже не сложно реализовать.
Это файл robots.txt (также называемый протоколом исключения роботов или стандартом).
Этот крошечный текстовый файл является частью каждого веб-сайта в Интернете, но большинство людей даже не знают о нем.
Он предназначен для работы с поисковыми системами, но, что удивительно, это источник SEO-сока, который только и ждет, чтобы его разблокировали.
Я видел, как клиент за клиентом из кожи вон лезут, пытаясь улучшить свое SEO. Когда я говорю им, что они могут редактировать небольшой текстовый файл, они почти не верят мне.
Однако существует множество несложных и не требующих много времени методов улучшения SEO, и это один из них.
Вам не нужно иметь никакого технического опыта, чтобы использовать возможности robots. txt. Если вы можете найти исходный код своего веб-сайта, вы можете использовать это.
Итак, когда вы будете готовы, следуйте за мной, и я покажу вам, как именно изменить файл robots.txt, чтобы поисковые системы полюбили его.
Чем важен файл robots.txtПрежде всего, давайте посмотрим, почему файл robots.txt так важен.
Файл robots.txt, также известный как протокол или стандарт исключения роботов, представляет собой текстовый файл, который сообщает веб-роботам (чаще всего поисковым системам), какие страницы вашего сайта следует сканировать.
Он также сообщает веб-роботам, какие страницы , а не сканировать.
Допустим, поисковая система собирается посетить сайт. Прежде чем посетить целевую страницу, он проверит инструкции в файле robots.txt.
Существуют разные типы файлов robots.txt, поэтому давайте рассмотрим несколько различных примеров того, как они выглядят.
Допустим, поисковая система находит этот пример файла robots. txt:
Это основной скелет файла robots.txt.
Звездочка после «user-agent» означает, что файл robots.txt применяется ко всем веб-роботам, посещающим сайт.
Косая черта после «Запретить» указывает роботу не посещать никакие страницы сайта.
Вам может быть интересно, зачем кому-то запрещать веб-роботам посещать их сайты.
В конце концов, одна из основных целей поисковой оптимизации — заставить поисковые системы легко сканировать ваш сайт, чтобы повысить его рейтинг.
Вот где раскрывается секрет этого SEO-хака.
Вероятно, на вашем сайте много страниц, верно? Даже если вам так не кажется, проверьте. Вы можете быть удивлены.
Если поисковая система сканирует ваш сайт, она будет сканировать каждую из ваших страниц.
А если у вас много страниц, поисковому роботу потребуется некоторое время, чтобы их просканировать, что может негативно сказаться на вашем рейтинге.
Это потому, что Googlebot (робот поисковой системы Google) имеет «краулинговый бюджет».
Он состоит из двух частей. Во-первых, это ограничение скорости сканирования. Вот как это объясняет Google:
Вторая часть — потребность в сканировании:
По сути, краулинговый бюджет — это «количество URL-адресов, которые робот Googlebot может и хочет сканировать».
Вы хотите помочь роботу Googlebot расходовать свой краулинговый бюджет для вашего сайта наилучшим образом. Другими словами, он должен сканировать ваши самые ценные страницы.
Существуют определенные факторы, которые, по мнению Google, «отрицательно влияют на сканирование и индексацию сайта».
Вот эти факторы:
Вернемся к файлу robots.txt.
Если вы создадите правильную страницу robots.txt, вы можете запретить роботам поисковых систем (и особенно роботу Googlebot) избегать определенных страниц.
Подумайте о последствиях. Если вы скажете ботам поисковых систем сканировать только ваш самый полезный контент, боты будут сканировать и индексировать ваш сайт только на основе этого контента.
Как говорит Google:
«Вы не хотите, чтобы ваш сервер был перегружен поисковым роботом Google или чтобы вы тратили краулинговый бюджет на сканирование неважных или похожих страниц на вашем сайте».
Правильно используя файл robots.txt, вы можете убедить роботов поисковых систем разумно расходовать свой краулинговый бюджет. И именно это делает файл robots.txt таким полезным в контексте SEO.
Заинтригованы возможностями файла robots.txt?
Так и должно быть! Поговорим о том, как его найти и использовать.
Поиск файла robots.txtЕсли вы просто хотите быстро просмотреть файл robots.txt, есть очень простой способ его просмотра.
На самом деле этот метод будет работать для любого сайта . Таким образом, вы можете заглянуть в файлы других сайтов и посмотреть, что они делают.
Все, что вам нужно сделать, это ввести основной URL-адрес сайта в строку поиска вашего браузера (например, neilpatel. com, quicksprout.com и т. д.). Затем добавьте /robots.txt в конец.
Произойдет одна из трех ситуаций:
1) Вы найдете файл robots.txt.
2) Вы найдете пустой файл.
Например, у Disney не хватает файла robots.txt:
3) Вы получите 404.
Метод возвращает 404 для robots.txt:
Найдите секунду и просмотрите файл robots.txt вашего собственного сайта.
Если вы найдете пустой файл или ошибку 404, вы захотите это исправить.
Если вы найдете действительный файл, возможно, для него установлены настройки по умолчанию, созданные при создании сайта.
Мне особенно нравится этот метод для просмотра файлов robots.txt других сайтов. Как только вы изучите все тонкости robots.txt, это может стать ценным упражнением.
Теперь давайте посмотрим на реальное изменение файла robots.txt.
Поиск файла robots.txt Дальнейшие действия будут зависеть от того, есть ли у вас файл robots. txt. (Проверьте, есть ли у вас, используя метод, описанный выше.)
Если у вас нет файла robots.txt, вам нужно создать его с нуля. Откройте обычный текстовый редактор, например Блокнот (Windows) или TextEdit (Mac).
Используйте для этого только текстовый редактор . Если вы используете такие программы, как Microsoft Word, программа может вставлять в текст дополнительный код.
Editpad.org — отличный бесплатный вариант, и вы увидите, как я его использую в этой статье.
Назад к файлу robots.txt. Если у вас есть файл robots.txt, вам нужно найти его в корневом каталоге вашего сайта.
Если вы не привыкли копаться в исходном коде, вам может быть немного сложно найти редактируемую версию вашего файла robots.txt.
Обычно вы можете найти свой корневой каталог, зайдя на веб-сайт своей учетной записи хостинга, войдя в систему и перейдя в раздел управления файлами или FTP вашего сайта.
Вы должны увидеть примерно следующее:
Найдите файл robots. txt и откройте его для редактирования. Удалите весь текст, но сохраните файл.
Примечание. Если вы используете WordPress, вы можете увидеть файл robots.txt при переходе на сайт yoursite.com/robots.txt, но вы не сможете найти его в своих файлах.
Это связано с тем, что WordPress создает виртуальный файл robots.txt, если в корневом каталоге нет robots.txt.
Если это произойдет с вами, вам потребуется создать новый файл robots.txt.
Создание файла robots.txtВы можете создать новый файл robots.txt с помощью любого текстового редактора по вашему выбору. (Помните, используйте только текстовый редактор.)
Если у вас уже есть файл robots.txt, убедитесь, что вы удалили текст (но не файл).
Во-первых, вам необходимо ознакомиться с некоторыми элементами синтаксиса, используемыми в файле robots.txt.
В Google есть хорошее объяснение некоторых основных терминов robots.txt:
Я собираюсь показать вам, как настроить простой файл robot. txt, а затем мы посмотрим, как его настроить. для SEO.
Начните с установки пользовательского агента. Мы собираемся установить его так, чтобы он применялся ко всем веб-роботам.
Сделайте это, поставив звездочку после термина пользовательского агента, например:
Затем введите «Disallow:», но после этого ничего не вводите.
Поскольку после запрета ничего нет, веб-роботы будут направлены на сканирование всего вашего сайта. Прямо сейчас все на вашем сайте является честной игрой.
На данный момент ваш файл robots.txt должен выглядеть так:
Я знаю, что это выглядит очень просто, но эти две строки уже многое делают.
Вы также можете сделать ссылку на карту сайта в формате XML, но это не обязательно. Если хотите, вот что наберите:
Хотите верьте, хотите нет, но вот как выглядит базовый файл robots.txt.
Теперь давайте перейдем на следующий уровень и превратим этот маленький файл в SEO-бустер.
То, как вы оптимизируете файл robots.txt, зависит от содержания вашего сайта. Есть множество способов использовать robots.txt в своих интересах.
Я расскажу о некоторых наиболее распространенных способах его использования.
(Имейте в виду, что вам следует , а не использовать robots.txt для блокировки страниц от поисковых систем . Это большое нет-нет.)
Одно из лучших применений файла robots.txt состоит в том, чтобы максимизировать краулинговые бюджеты поисковых систем, сказав им не сканировать те части вашего сайта, которые не отображаются для широкой публики.
Например, если вы откроете файл robots.txt для этого сайта (neilpatel.com), вы увидите, что он запрещает страницу входа (wp-admin).
Поскольку эта страница используется только для входа в серверную часть сайта, роботам поисковых систем не имеет смысла тратить свое время на ее сканирование.
(Если у вас есть WordPress, вы можете использовать точно такую же строку запрета.)
Вы можете использовать аналогичную директиву (или команду), чтобы запретить ботам сканировать определенные страницы. После запрета введите часть URL-адреса после .com. Поместите это между двумя косыми чертами.
Итак, если вы хотите запретить боту сканировать вашу страницу http://yoursite.com/page/, введите следующее:
Вам может быть интересно, какие именно типы страниц следует исключить из индексации. Вот несколько распространенных сценариев, в которых это может произойти:
Намеренное дублирование контента. Хотя дублированный контент — это в основном плохо, есть несколько случаев, когда он необходим и приемлем.
Например, если у вас есть версия страницы для печати, технически у вас есть дублированный контент. В этом случае вы можете указать ботам не сканировать одну из этих версий (как правило, версию для печати).
Это также удобно, если вы проводите сплит-тестирование страниц с одинаковым содержимым, но разным дизайном.
Страницы благодарности. Страница благодарности — одна из любимых страниц маркетологов, потому что она означает новый лид.
…Правильно?
Как оказалось, некоторые страницы с благодарностью доступны через Google . Это означает, что люди могут получить доступ к этим страницам, не проходя процесс захвата лидов, и это плохие новости.
Заблокировав страницы благодарности, вы можете убедиться, что их видят только квалифицированные лиды.
Допустим, ваша страница благодарности находится по адресу https://yoursite.com/thank-you/. В вашем файле robots.txt блокировка этой страницы будет выглядеть так:
Поскольку не существует универсальных правил для запрещенных страниц, ваш файл robots.txt будет уникальным для вашего сайта. Используйте свое суждение здесь.
Есть еще две директивы, которые вам следует знать: noindex и nofollow .
Вы знаете директиву disallow, которую мы использовали? На самом деле это не предотвращает индексацию страницы.
Теоретически вы можете запретить страницу, но она все равно может оказаться в индексе.
Как правило, вам это не нужно.
Вот почему вам нужна директива noindex. Он работает с директивой disallow, чтобы боты не посещали или , индексируя определенные страницы.
Если у вас есть какие-либо страницы, которые вы не хотите индексировать (например, эти драгоценные страницы с благодарностью), вы можете использовать директиву disallow и noindex:
Теперь эта страница не будет отображаться в поисковой выдаче.
Наконец, директива nofollow. Фактически это то же самое, что и nofollow-ссылка. Короче говоря, он говорит веб-роботам не сканировать ссылки на странице.
Но директива nofollow будет реализована немного по-другому, потому что на самом деле она не является частью файла robots.txt.
Однако директива nofollow по-прежнему инструктирует веб-роботов, так что это та же концепция. Разница только в том, где это происходит.
Найдите исходный код страницы, которую вы хотите изменить, и убедитесь, что вы находитесь между тегами .
Затем вставьте эту строку:
Итак, это должно выглядеть так:
Убедитесь, что вы не помещаете эту строку между другие теги — только теги
.Это еще один хороший вариант для страниц благодарности, поскольку веб-роботы не будут сканировать ссылки на какие-либо лид-магниты или другой эксклюзивный контент.
Если вы хотите добавить директивы noindex и nofollow, используйте следующую строку кода:
Это даст веб-роботам обе директивы одновременно.
Проверка всегоНаконец, проверьте файл robots.txt, чтобы убедиться, что все работает правильно.
Google предоставляет бесплатный тестер robots.txt в составе инструментов для веб-мастеров.
Сначала войдите в свою учетную запись Webmasters, нажав «Войти» в правом верхнем углу.
Выберите свой ресурс (например, веб-сайт) и нажмите «Сканировать» на левой боковой панели.
Вы увидите «тестер robots.txt». Нажмите на это.
Если в поле уже есть код, удалите его и замените новым файлом robots.txt.
Нажмите «Тест» в нижней правой части экрана.
Если текст «Тест» изменится на «Разрешено», это означает, что файл robots.txt действителен.
Вот дополнительная информация об этом инструменте, чтобы вы могли подробно узнать, что все это значит.
Наконец, загрузите файл robots.txt в корневой каталог (или сохраните его там, если он у вас уже есть). Теперь вы вооружены мощным файлом, и вы должны увидеть увеличение видимости в поиске.
Заключение Я всегда люблю делиться малоизвестными SEO-лайками, которые могут дать вам реальное преимущество во многих отношениях.
Правильно настроив файл robots.txt, вы не только улучшите собственное SEO. Вы также помогаете своим посетителям.
Если роботы поисковых систем смогут разумно расходовать свой краулинговый бюджет, они организуют и отобразят ваш контент в поисковой выдаче наилучшим образом, а это значит, что вы будете более заметны.
Также не требуется много усилий для настройки файла robots.txt. В основном это одноразовая настройка, и вы можете внести небольшие изменения по мере необходимости.
Независимо от того, запускаете ли вы свой первый или пятый сайт, использование файла robots.txt может иметь большое значение. Рекомендую попробовать, если вы еще этого не сделали.
Каков ваш опыт создания файлов robots.txt?
Посмотрите, как мое агентство может привлечь огромное количество трафика на ваш сайт
Об авторе