Разбор Robots.txt


Содержание

Как создать файл robots.txt для сайта — правильный robots.txt инструкция

Подробная инструкция о том, как создать файл robots.txt для сайта. Robots.txt является одним из самых необходимых аспектов полноценной поисковой оптимизации сайта. Соблюдая условия грамотного использования этого файла, можно достичь определенного положительного эффекта на сайт. Возможно указание разнообразных инструкций для большинства PS. Которые указывают поисковому боту необходимые ограничения или разрешения на сканирование страниц, каталогов или разделов сайта.

Содержание статьи:

Файл Robots.txt — основное определение

Robots.txt — имеет определенные стандарты исключений для поисковых агентов (ботов), который был принят в январе 1944 года. Правилам этого файла добровольно следуют самые распространенные PS. Файл может состоять из одного или нескольких правил, каждое из которых блокирует или разрешает поисковому роботу доступ к определенным путям на сайте.

Для чего нужен Robots.txt на сайте — его влияние на продвижение в поисковиках

Robots.txt — это наиважнейший фактор поисковой оптимизации сайта. Благодаря правильно прописанному набору правил для поисковых ботов, можно достичь определенного повышения ранжирования сайта в поиске. Что дают такие инструкции:

  1. Заперты на индексирование определенных страниц, разделов, каталогов сайта.
  2. Исключение страниц не содержащих полезного контента.
  3. Исключение дублей страниц и прочее.

Для большинства сайтов, такие ограничения на индексирование просто необходимы для небольших полностраничных необязательны. Тем не менее определенные директивы, необходимо добавлять каждому сайту. К примеру запреты на индексацию:

  1. Страниц регистрации, входа в админку, восстановления пароля.
  2. Технических каталогов.
  3. Rss — ленты сайта.
  4. Replytocom и прочего.

Как создать правильный Robors.txt самостоятельно

Затруднений при создании файла Robots.txt не может возникнуть даже у начинающих. Достаточно следовать определенной последовательности действий:

  1. Robots.txt — текстовый документ и создается любым доступным текстовым редактором.
  2. Расширение файла должно быть обязательно .txt.
  3. Название обязательно robots.
  4. На одном сайте, разрешен только один такой файл.
  5. Размещается только в корневом каталоге сайта.

Вам необходимо воспользоваться обыкновенным текстовым редактором (блокнотом как альтернативой). Создаем документ формата .txt и названием robots. Затем сохраняем и переносим этот документ с помощью FTP клиента в корневой каталог сайта. Это основные действия которые необходимо выполнить.

Создание Robots.txt с помощью онлайн сервисов

Этот метод самый простой и быстрый, подойдет тем кто боится самостоятельно создавать Robots.txt или просто ленится. Сервисов предлагающих создание этого файла огромное множество. Но стоит учитывать некоторые нюансы касательно этого способа. К примеру:

  1. Необходимо заранее учесть, что именно Вы желаете запретить, либо разрешить агенту.
  2. Необходима обязательная проверка готового файла перед загрузкой его на сайт.
  3. Будьте внимательны, ведь некорректно созданный файл Robots.txt online, приведет к плачевной ситуации. Таким образом в поиск могут попасть, технические и прочие страницы сайта, которых там быть в априори не должно.

Все таки, лучше потратить время и усилия для создания корректного пользовательского роботса. Таким образом можно воссоздать четко обоснованную структуру запретов и разрешений соответствующую вашему сайту.

Редактирование и правильный синтаксис файла Robots.txt

После успешно созданного Robots.txt, его можно спокойно редактировать и изменять как Вам будет угодно. При этом следует учесть некоторые правила и грамотный синтаксис. По прошествии некоторого времени вы неоднократно будете изменять этот файл. Но не забывайте, после проведения работ по редактированию, Вам необходимо будет выгрузить этот файл на сайт. Тем самым обновив его содержимое для поисковых роботов.

Написать Robots.txt очень просто, причина этому достаточно простая структура оформления данного файла. Главное при написании правил, использовать строго определенный синтаксис. Данным правилам добровольно следуют, практически все основные ПС. Вот список некоторых правил, для избежания большинства ошибок в файле Robots.txt:

  1. В одной строке не должно быть более одной указанной директивы.
  2. Каждое правило начинается с новой строки.
  3. Исключен пробел в начале строки.
  4. Допустимы комментарии после символа #.
  5. Пустой Роботс будет считаться как полное разрешение на индексацию.
  6. Название этого файла возможно только в допустимом формате «robots».
  7. Размер файла не должен превышать 32кб.
  8. В директивах Allow и Disallow допустимо только одно правило. Пустое значение после Allow: или Disallow: равносильны полному разрешению.
  9. Все правила должны быть прописаны в нижнем регистре.
  10. Файл должен быть доступен всегда.
  11. Пустая строка после указанных правил, указывает на полное окончание правил директивы User-agent.
  12. Желательно прописывать правила, каждой ПС по отдельности.
  13. Если правило это директория сайта, то обязательно ставьте слеш (/) перед ее началом.
  14. Кавычек в строке или в правиле быть не должно.
  15. Необходимо учитывать строгую структуру правил, соответствующую Вашему сайту не более.
  16. Robots.txt должен быть минималистичен и четко отображать передаваемый смысл.

Грамотная настройка файла Robots.txt — правильное написание команд

Чтобы получить позитивный результат при использовании роботс, необходимо правильно его настроить. Всем основным командам данного файла с инструкциями, следуют самые масштабные поисковые системы Google and Yandex. Остальные PS могут игнорировать некоторые инструкции. Как сделать robots.txt наиболее отзывчивым большинству поисковиков? Здесь необходимо понимание основных правил работы с этим файлом о которых говорилось выше.
Рассмотрим основные команды:

User-Agent: * — инструкции будут касаться абсолютно всех ps ботов. Также возможно указание определенных поисковых систем по отдельности к примеру: User-Agent: GoogleBot и User-Agent: YandexBot. Таким образом корректно обозначаются правила для важных ПС.

Disallow: — полностью запрещает обход и индексацию (страницы, каталога или файлов).

Allow: — полностью разрешает обход и индексацию (страницы, каталога или файлов).

Clean-param: — нужен для исключения страниц сайта с динамическим контентом. Благодаря этому правилу можно избавиться от дублей контента на сайте.

Crawl-delay: — правило указывает интервал времени п-ботам для выгрузки документов с сайта. Позволяет значительно уменьшить нагрузки на сервер. К примеру: «Crawl-delay: 5» — скажет п-роботу, что скачивание документов с сайта возможно не чаще 1-го раза в 5 секунд.

Host: ваш_сайт.ru — отвечает за главное зеркало сайта. В этой директиве необходимо прописать приоритетную версию сайта.

Sitemap: http://ваш_сайт.ru/sitemap.xml — как Вы могли догадаться данная директива подсказывает п-боту о наличие Sitemap на сайте.

# — позволяет оставлять комментарии. Комментировать можно, только после знака решетки. Размещать ее можно как в новой строке, так и продолжением директивы. Все эти варианты будут игнорироваться ботами при проходе инструкций.

Примеры Robots.txs для всех основных систем управления контентом (CMS)

Чтобы скопировать инструкции, Вам необходимо нажать на кнопку с подсказкой.

Как правильно прописать Robots.txt

Время чтения: 16 минут Нет времени читать?

Сначало расскажу, что такое robots.txt.

Robots.txt – файл, который находится в корневой папки сайта, где прописываются специальные инструкции для поисковых роботов. Эти инструкции необходимы для того, чтобЫ при заходе на сайт, робот не учитывал страницу/раздел, другими словами мы закрываем страницу от индексации.

Зачем нужен robots.txt

Файл robots.txt считается ключевым требованием при SEO-оптимизации абсолютно любого сайта. Отсутствие этого файла может негативно сказаться на нагрузку со стороны роботов и медленной индексации и, даже более того, сайт полностью не будет проиндексирован. Соответственно пользователи не смогут перейти на страницы через Яндекс и Google.

Влияние robots.txt на поисковые системы?


Поисковые системы (в особенности Google) проиндексируют cайт, но если файла robots.txt нет, то, как и говорил не все страницы. Если имеется такой файл, то роботы руководствуются правилами, которые указываются в этом файле. Причем существует несколько видов поисковых роботов, если одни могут учитывать правило, то другие игнорируют. В частности, робот GoogleBot не учитывает директиву Host и Crawl-Delay, робот YandexNews совсем недавно перестал учитывать директиву Crawl-Delay, а роботы YandexDirect и YandexVideoParser игнорируют общепринятые директивы в robots.txt (но учитывают те, которые прописаны специально для них).

Нагружают сайт больше всего роботы, которые подгружают контент с вашего сайта. Соответственно, если мы укажем роботу, какие страницы индексировать, а какие игнорировать, а также с какими временными промежутками подгружать контент со страниц (это больше качается крупных сайтов у которых имеется более 100 000 страниц в индексе поисковых систем). Это позволит значительно облегчить роботу индексацию и процесс подгружения контента с сайта.

К ненужным для поисковых систем можно отнести файлы которые относятся к CMS, например, в WordPress – /wp-admin/. Помимо этого, скрипты ajax, json, отвечающие за всплывающие формы, баннеры, вывод каптчи и так далее.

Для большинства роботов также рекомендую закрыть от индексации все файлы Javascript и CSS. Но для GoogleBot и Yandex такие файлы лучше индексировать, так как они используются поисковыми системами для анализа удобства сайта и его ранжирования.

Что такое директива robots.txt?

Директивы – это и есть правила для поисковых роботов. Первые стандарты по написанию robots.txt и соответственно появились в 1994, а расширенный стандарт в 1996 году. Однако, как вы уже знаете, что не все роботы поддерживают те или иные директивы. Поэтому ниже я расписал чем руководствуются основные роботы при индексации страниц сайта.

Что означает User-agent?

Это самая главная директива, которая определяет для каких поисковых роботов будут действовать следовать дальнейшие правила.

Директивы и настройка robots.txt

Robots.txt – это служебный файл, который служит рекомендацией по ограничению доступа к содержимому веб-документов для поисковых систем. В данной статье мы разберем настройку Robots.txt, описание директив и составление его для популярных CMS.

Находится данный файл Робота в корневом каталоге вашего сайта и открывается/редактируется простым блокнотом, я рекомендую Notepad++. Для тех, кто не любит читать — есть ВИДЕО, смотрите в конце статьи ��

Зачем нужен robots.txt

Как я уже говорил выше – с помощью файла robots.txt мы можем ограничить доступ поисковых ботов к документам, т.е. мы напрямую влияем на индексацию сайта. Чаще всего закрывают от индексации:

  • Служебные файлы и папки CMS
  • Дубликаты
  • Документы, которые не несут пользу для пользователя
  • Не уникальные страницы

Разберем конкретный пример:

Интернет-магазин по продаже обуви и реализован на одной из популярных CMS, причем не лучшим образом. Я могу сразу сказать, что будут в выдаче страницы поиска, пагинация, корзина, некоторые файлы движка и т.д. Все это будут дубли и служебные файлы, которые бесполезны для пользователя. Следовательно, они должны быть закрыты от индексации, а если еще есть раздел «Новости» в которые копипастятся разные интересные статьи с сайтов конкурентов – то и думать не надо, сразу закрываем.

Поэтому обязательно получаемся файлом robots.txt, чтобы в выдачу не попадал мусор. Не забываем, что файл должен открываться по адресу http://site.ru/robots.txt.

Директивы robots.txt и правила настройки

User-agent. Это обращение к конкретному роботу поисковой системы или ко всем роботам. Если прописывается конкретное название робота, например «YandexMedia», то общие директивы user-agent не используются для него. Пример написания:

Disallow/Allow. Это запрет/разрешение индексации конкретного документа или разделу. Порядок написания не имеет значения, но при 2 директивах и одинаковом префиксе приоритет отдается «Allow». Считывает поисковый робот их по длине префикса, от меньшего к большему. Если вам нужно запретить индексацию страницы — просто введи относительный путь до нее (Disallow: /blog/post-1).

Регулярные выражения с * и $. Звездочка означает любую последовательность символов (в том числе и пустую). Знак доллара означает прерывание. Примеры использования:

Директива Sitemap. Если вы используете карту сайта (sitemap.xml) – то в robots.txt она должна указываться так:

Директива Host. Как вам известно у сайтов есть зеркала (читаем, Как склеить зеркала сайта). Данное правило указывает поисковому боту на главное зеркало вашего ресурса. Относится к Яндексу. Если у вас зеркало без WWW, то пишем:

Crawl-delay. Задает задержу (в секундах) между скачками ботом ваших документов. Прописывается после директив Disallow/Allow.

Clean-param. Указывает поисковому боту, что не нужно скачивать дополнительно дублирующую информацию (идентификаторы сессий, рефереров, пользователей). Прописывать Clean-param следует для динамических страниц:

Главное правило: robots.txt должен быть написан в нижнем регистре и лежать в корне сайта. Пример структуры файла:

Мета-тег robots и как он прописывается

Данный вариант запрета страниц лучше учитывается поисковой системой Google. Яндекс одинаково хорошо учитывает оба варианта.

Директив у него 2: follow/nofollow и index/noindex. Это разрешение/запрет перехода по ссылкам и разрешение/запрет на индексацию документа. Директивы можно прописывать вместе, смотрим пример ниже.

Для любой отдельной страницы вы можете прописать в теге следующее:

Правильные файлы robots.txt для популярных CMS

Пример Robots.txt для WordPress

Ниже вы можете увидеть мой вариант с данного Seo блога.

Трэкбэки запрещаю потому что это дублирует кусок статьи в комментах. А если трэкбэков много — вы получите кучу одинаковых комментариев.

Служебные папки и файлы любой CMS я стараюсь я закрываю, т.к. не хочу чтобы они попадали в индекс (хотя поисковики уже и так не берут, но хуже не будет).

Фиды (feed) стоит закрывать, т.к. это частичные либо полные дубли страниц.

Теги закрываем, если мы их не используем или нам лень их оптимизировать.

Примеры для других CMS

Чтобы скачать правильный robots для нужной CMS просто кликните по соответствующей ссылке.

Как проверить корректность работы файла

Анализ robots.txt в Яндекс Вебмастере – тут.

Указываем адрес своего сайта, нажимаем кнопку «Загрузить» (или вписываем его вручную) – бот качает ваш файл. Далее просто указываем нужные нам УРЛы в списке, которые мы хотим проверить и жмем «Проверить».

Смотрим и корректируем, если это нужно.

Популярные вопросы о robots.txt

Как закрыть сайт от индексации?


Как запретить индексацию страницы?

Как запретить индексацию зеркала?

Для магазина стоит закрывать cart (корзину)?

У меня сайт без CMS, нужен ли мне robots?

  • Да, чтобы указать Host и Sitemap. Если у вас есть дубли — то исходя из ситуации закрывайте их.

Файл robots.txt или как сделать робота своими руками

Файл robots.txt — текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере. Как определение, Robots.txt — это стандарт исключений для роботов, который был принят консорциумом W3C 30 января 1994 года, и который добровольно использует большинство поисковых систем. Файл robots.txt состоит из набора инструкций для поисковых роботов, которые запрещают индексацию определенных файлов, страниц или каталогов на сайте. Рассмотрим описание robots.txt для случая, когда сайт не ограничивает доступ роботам к сайту.

Простой пример robots.txt:

Здесь роботс полностью разрешает индексацию всего сайта.

Файл robots.txt необходимо загрузить в корневой каталог вашего сайта , чтобы он был доступен по адресу:

Для размещения файла robots.txt в корне сайта обычно необходим доступ через FTP. Однако, некоторые системы управления (CMS) дают возможность создать robots.txt непосредственно из панели управления сайтом или через встроенный FTP-менеджер.

Если файл доступен, то вы увидите содержимое robots.txt в браузере.

Для чего нужен robots.txt

Roots.txt для сайта является важным аспектом поисковой оптимизации. Зачем нужен robots.txt? Например, в SEO robots.txt нужен для того, чтобы исключать из индексации страницы, не содержащие полезного контента и многое другое . Как, что, зачем и почему исключается уже было описано в статье про запрет индексации страниц сайта, здесь не будем на этом останавливаться. Нужен ли файл robots.txt всем сайтам? И да и нет. Если использование robots.txt подразумевает исключение страниц из поиска, то для небольших сайтов с простой структурой и статичными страницами подобные исключения могут быть лишними. Однако, и для небольшого сайта могут быть полезны некоторые директивы robots.txt, например директива Host или Sitemap, но об этом ниже.

Илон Маск рекомендует:  Несколько фоновых рисунков

Как создать robots.txt

Поскольку robots.txt — это текстовый файл, и чтобы создать файл robots.txt, можно воспользоваться любым текстовым редактором, например Блокнотом. Как только вы открыли новый текстовый документ, вы уже начали создание robots.txt, осталось только составить его содержимое, в зависимости от ваших требований, и сохранить в виде текстового файла с названием robots в формате txt. Все просто, и создание файла robots.txt не должно вызвать проблем даже у новичков. О том, как составить robots.txt и что писать в роботсе на примерах покажу ниже.

Cоздать robots.txt онлайн

Вариант для ленивых — создать роботс онлайн и скачать файл robots.txt уже в готовом виде. Создание robots txt онлайн предлагает множество сервисов, выбор за вами. Главное — четко понимать, что будет запрещено и что разрешено, иначе создание файла robots.txt online может обернуться трагедией, которую потом может быть сложно исправить. Особенно, если в поиск попадет то, что должно было быть закрытым. Будьте внимательны — проверьте свой файл роботс, прежде чем выгружать его на сайт. Все же пользовательский файл robots.txt точнее отражает структуру ограничений, чем тот, что был сгенерирован автоматически и скачан с другого сайта. Читайте дальше, чтобы знать, на что обратить особое внимание при редактировании robots.txt.

Редактирование robots.txt

После того, как вам удалось создать файл robots.txt онлайн или своими руками, вы можете редактировать robots.txt. Изменить его содержимое можно как угодно, главное — соблюдать некоторые правила и синтаксис robots.txt. В процессе работы над сайтом, файл роботс может меняться, и если вы производите редактирование robots.txt, то не забывайте выгружать на сайте обновленную, актуальную версию файла со всем изменениями. Далее рассмотрим правила настройки файла, чтобы знать, как изменить файл robots.txt и «не нарубить дров».

Правильная настройка robots.txt

Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем. Однако, не стоит забывать, что команды robots.txt не более чем руководство к действию, а не защита. Роботы надежных поисковых систем, вроде Яндекс или Google, следуют инструкциям robots.txt, однако прочие роботы могут легко игнорировать их. Правильное понимание и применение robots.txt — залог получения результата.

Чтобы понять, как сделать правильный robots txt, для начала необходимо разобраться с общими правилами, синтаксисом и директивами файла robots.txt.

Правильный robots.txt начинается с директивы User-agent , которая указывает, к какому роботу обращены конкретные директивы.

Примеры User-agent в robots.txt:

Учитывайте, что подобная настройка файла robots.txt указывает роботу использовать только директивы, соответствующие user-agent с его именем.

Пример robots.txt с несколькими вхождениями User-agent:

Директива User-agent создает лишь указание конкретному роботу, а сразу после директивы User-agent должна идти команда или команды с непосредственным указанием условия для выбранного робота. В примере выше используется запрещающая директива «Disallow», которая имеет значение «/*utm_». Таким образом, закрываем все страницы с UTM-метками. Правильная настройка robots.txt запрещает наличие пустых переводов строки между директивами «User-agent», «Disallow» и директивами следующими за «Disallow» в рамках текущего «User-agent».

Пример неправильного перевода строки в robots.txt:

Пример правильного перевода строки в robots.txt:

Как видно из примера, указания в robots.txt поступают блоками, каждый из которых содержит указания либо для конкретного робота, либо для всех роботов «*».

Кроме того, важно соблюдать правильный порядок и сортировку команд в robots.txt при совместном использовании директив, например «Disallow» и «Allow». Директива «Allow» — разрешающая директива, является противоположностью команды robots.txt «Disallow» — запрещающей директивы.

Пример совместного использования директив в robots.txt:

Данный пример запрещает всем роботам индексацию всех страниц, начинающихся с «/blog», но разрешает индексации страниц, начинающиеся с «/blog/page».

Прошлый пример robots.txt в правильной сортировке:

Сначала запрещаем весь раздел, потом разрешаем некоторые его части.

Еще один правильный пример robots.txt с совместными директивами:

Обратите внимание на правильную последовательность директив в данном robots.txt.

Директивы «Allow» и «Disallow» можно указывать и без параметров, в этом случае значение будет трактоваться обратно параметру «/».

Пример директивы «Disallow/Allow» без параметров:

Как составить правильный robots.txt и как пользоваться трактовкой директив — ваш выбор. Оба варианта будут правильными. Главное — не запутайтесь.

Для правильного составления robots.txt необходимо точно указывать в параметрах директив приоритеты и то, что будет запрещено для скачивания роботам. Более полно использование директив «Disallow» и «Allow» мы рассмотрим чуть ниже, а сейчас рассмотрим синтаксис robots.txt. Знание синтаксиса robots.txt приблизит вас к тому, чтобы создать идеальный robots txt своими руками.

Синтаксис robots.txt

Роботы поисковых систем добровольно следуют командам robots.txt — стандарту исключений для роботов, однако не все поисковые системы трактуют синтаксис robots.txt одинаково. Файл robots.txt имеет строго определённый синтаксис, но в то же время написать robots txt не сложно, так как его структура очень проста и легко понятна.

Вот конкретные список простых правил, следуя которым, вы исключите частые ошибки robots.txt:


  1. Каждая директива начинается с новой строки;
  2. Не указывайте больше одной директивы в одной строке;
  3. Не ставьте пробел в начало строки;
  4. Параметр директивы должен быть в одну строку;
  5. Не нужно обрамлять параметры директив в кавычки;
  6. Параметры директив не требуют закрывающих точки с запятой;
  7. Команда в robots.txt указывается в формате — [Имя_директивы]:[необязательный пробел][значение][необязательный пробел];
  8. Допускаются комментарии в robots.txt после знака решетки #;
  9. Пустой перевод строки может трактоваться как окончание директивы User-agent;
  10. Директива «Disallow: » (с пустым значением) равнозначна «Allow: /» — разрешить все;
  11. В директивах «Allow», «Disallow» указывается не более одного параметра;
  12. Название файла robots.txt не допускает наличие заглавных букв, ошибочное написание названия файла — Robots.txt или ROBOTS.TXT;
  13. Написание названия директив и параметров заглавными буквами считается плохим тоном и если по стандарту, robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файлов и директорий;
  14. Если параметр директивы является директорией, то перед название директории всегда ставится слеш «/», например: Disallow: /category
  15. Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, равнозначными «Disallow: »;
  16. Недоступный по каким-либо причинам robots.txt может трактоваться как полностью разрешающий;
  17. Если robots.txt пустой, то он будет трактоваться как полностью разрешающий;
  18. В результате перечисления нескольких директив «User-agent» без пустого перевода строки, все последующие директивы «User-agent», кроме первой, могут быть проигнорированы;
  19. Использование любых символов национальных алфавитов в robots.txt не допускается.

Поскольку разные поисковые системы могут трактовать синтаксис robots.txt по-разному, некоторые пункты можно опустить. Так например, если прописать несколько директив «User-agent» без пустого перевода строки, все директивы «User-agent» будут восприняты корректно Яндексом, так как Яндекс выделяет записи по наличию в строке «User-agent».

В роботсе должно быть указано строго только то, что нужно, и ничего лишнего. Не думайте, как прописать в robots txt все, что только можно и чем его заполнить. Идеальный robots txt — это тот, в котором меньше строк, но больше смысла. «Краткость — сестра таланта». Это выражение здесь как нельзя кстати.

Как проверить robots.txt

Для того, чтобы проверить robots.txt на корректность синтаксиса и структуры файла, можно воспользоваться одной из онлайн-служб. К примеру, Яндекс и Google предлагают собственные сервисы анализа сайта для вебмастеров, которые включают анализ robots.txt:

Для того, чтобы проверить robots.txt онлайн необходимо загрузить robots.txt на сайт в корневую директорию. Иначе, сервис может сообщить, что не удалось загрузить robots.txt. Рекомендуется предварительно проверить robots.txt на доступность по адресу где лежит файл, например: ваш_сайт.ru/robots.txt.

Кроме сервисов проверки от Яндекс и Google, существует множество других онлайн валидаторов robots.txt.

Robots.txt vs Яндекс и Google

Есть субъективное мнение, что указание отдельного блока директив «User-agent: Yandex» в robots.txt Яндекс воспринимает более позитивно, чем общий блок директив с «User-agent: *». Аналогичная ситуация robots.txt и Google. Указание отдельных директив для Яндекс и Google позволяет управлять индексацией сайта через robots.txt. Возможно, им льстит персонально обращение, тем более, что для большинства сайтов содержимое блоков robots.txt Яндекса, Гугла и для других поисковиков будет одинаково. За редким исключением, все блоки «User-agent» будут иметь стандартный для robots.txt набор директив. Так же, используя разные «User-agent» можно установить запрет индексации в robots.txt для Яндекса, но, например не для Google.

Отдельно стоит отметить, что Яндекс учитывает такую важную директиву, как «Host», и правильный robots.txt для яндекса должен включать данную директиву для указания главного зеркала сайта. Подробнее директиву «Host» рассмотрим ниже.

Запретить индексацию: robots.txt Disallow

Disallow — запрещающая директива, которая чаще всего используется в файле robots.txt. Disallow запрещает индексацию сайта или его части, в зависимости от пути, указанного в параметре директивы Disallow.

Пример как в robots.txt запретить индексацию сайта:

Данный пример закрывает от индексации весь сайт для всех роботов.

В параметре директивы Disallow допускается использование специальных символов * и $:

* — любое количество любых символов, например, параметру /page* удовлетворяет /page, /page1, /page-be-cool, /page/kak-skazat и т.д. Однако нет необходимости указывать * в конце каждого параметра, так как например, следующие директивы интерпретируются одинаково:

$ — указывает на точное соответствие исключения значению параметра:

В данном случае, директива Disallow будет запрещать /page, но не будет запрещать индексацию страницы /page1, /page-be-cool или /page/kak-skazat.

Если закрыть индексацию сайта robots.txt, в поисковые системы могут отреагировать на так ход ошибкой «Заблокировано в файле robots.txt» или «url restricted by robots.txt» (url запрещенный файлом robots.txt). Если вам нужно запретить индексацию страницы, можно воспользоваться не только robots txt, но и аналогичными html-тегами:

  • — не индексировать содержимое страницы;
  • — не переходить по ссылкам на странице;
  • — запрещено индексировать содержимое и переходить по ссылкам на странице;
  • — аналогично content=»none».

Разрешить индексацию: robots.txt Allow

Allow — разрешающая директива и противоположность директиве Disallow. Эта директива имеет синтаксис, сходный с Disallow.

Пример, как в robots.txt запретить индексацию сайта кроме некоторых страниц:

Запрещается индексировать весь сайт, кроме страниц, начинающихся с /page.

Disallow и Allow с пустым значением параметра

Пустая директива Disallow:

Не запрещать ничего или разрешить индексацию всего сайта и равнозначна:

Пустая директива Allow:

Разрешить ничего или полный запрет индексации сайта, равнозначно:

Главное зеркало сайта: robots.txt Host

Директива Host служит для указания роботу Яндекса главного зеркала Вашего сайта. Из всех популярных поисковых систем, директива Host распознаётся только роботами Яндекса . Директива Host полезна в том случае, если ваш сайт доступен по нескольким доменам, например:

Или для определения приоритета между:

Роботу Яндекса можно указать, какое зеркало является главным . Директива Host указывается в блоке директивы «User-agent: Yandex» и в качестве параметра, указывается предпочтительный адрес сайта без «http://».

Пример robots.txt с указанием главного зеркала:

В качестве главного зеркала указывается доменное имя mysite.ru без www. Таки образом, в результатах поиска буде указан именно такой вид адреса.

В качестве основного зеркала указывается доменное имя www.mysite.ru.

Директива Host в файле robots.txt может быть использована только один раз, если же директива Хост будет указана более одного раза, учитываться будет только первая, прочие директивы Host будут игнорироваться.

Если вы хотите указать главное зеркало для робота Google, воспользуйтесь сервисом Google Инструменты для вебмастеров.

Карта сайта: robots.txt sitemap

При помощи директивы Sitemap, в robots.txt можно указать расположение на сайте файла карты сайта sitemap.xml.

Пример robots.txt с указанием адреса карты сайта:

Указание адреса карты сайта через директиву Sitemap в robots.txt позволяет поисковому роботу узнать о наличии карты сайта и начать ее индексацию.

Директива Clean-param


Директива Clean-param позволяет исключить из индексации страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL страницы. Проще говоря, будто страница доступна по разным адресам. Наша задача убрать все лишние динамические адреса, которых может быть миллион. Для этого исключаем все динамические параметры, используя в robots.txt директиву Clean-param.

Синтаксис директивы Clean-param:

Рассмотрим на примере страницы со следующим URL:

Пример robots.txt Clean-param:

Директива Crawl-delay

Данная инструкция позволяет снизить нагрузку на сервер, если роботы слишком часто заходят на ваш сайт. Данная директива актуальна в основном для сайтов с большим объемом страниц.

Пример robots.txt Crawl-delay:

В данном случае мы «просим» роботов яндекса скачивать страницы нашего сайта не чаще, чем один раз в три секунды. Некоторые поисковые системы поддерживают формат дробных чисел в качестве параметра директивы Crawl-delay robots.txt.

Комментарии в robots.txt

Комментарий в robots.txt начинаются с символа решетки — #, действует до конца текущей строки и игнорируются роботами.

Примеры комментариев в robots.txt:

В заключении

Файл robots.txt — очень важный и нужный инструмент взаимодействия с поисковыми роботами и один из важнейших инструментов SEO, так как позволяет напрямую влиять на индексацию сайта. Используйте роботс правильно и с умом.

Если у вас есть вопросы — пишите в комментариях.
Рекомендуйте статью друзьям и не забывайте подписываться на блог.
Новые интересные статьи каждый день.

Robots.txt. Подробное руководство

Почти каждый проект, который приходит к нам на аудит либо продвижение, имеет некорректный файл robots.txt, а часто он вовсе отсутствует. Так происходит, потому что при создании файла все руководствуются своей фантазией, а не правилами. Давайте разберем, как правильно составить этот файл, чтобы поисковые роботы эффективно с ним работали.

Зачем нужна настройка robots.txt?

Robots.txt — это файл, размещенный в корневом каталоге сайта, который сообщает роботам поисковых систем, к каким разделам и страницам сайта они могут получить доступ, а к каким нет.

Настройка robots.txt — важная часть SEO-работ по повышению позиций сайта в выдаче поисковых систем, правильно настроенный robots также увеличивает производительность сайта. Отсутствие Robots.txt не остановит поисковые системы сканировать и индексировать сайт, но если этого файла у вас нет, у вас могут появиться две проблемы:

Поисковый робот будет считывать весь сайт, что «подорвет» краулинговый бюджет. Краулинговый бюджет — это число страниц, которые поисковый робот способен обойти за определенный промежуток времени.

Без файла robots, поисковик получит доступ к черновым и скрытым страницам, к сотням страниц, используемых для администрирования CMS. Он их проиндексирует, а когда дело дойдет до нужных страниц, на которых представлен непосредственный контент для посетителей, «закончится» краулинговый бюджет.

В индекс может попасть страница входа на сайт, другие ресурсы администратора, поэтому злоумышленник сможет легко их отследить и провести ddos атаку или взломать сайт.

Как поисковые роботы видят сайт с robots.txt и без него:

Синтаксис robots.txt

Прежде чем начать разбирать синтаксис и настраивать robots.txt, посмотрим на то, как должен выглядеть «идеальный файл»:

Но не стоит сразу же его применять. Для каждого сайта чаще всего необходимы свои настройки, так как у всех у нас разная структура сайта, разные CMS. Разберем каждую директиву по порядку.

User-agent

User-agent — определяет поискового робота, который обязан следовать описанным в файле инструкциям. Если необходимо обратиться сразу ко всем, то используется значок *. Также можно обратиться к определенному поисковому роботу. Например, Яндекс и Google:

Disallow

С помощью этой директивы, робот понимает какие файлы и папки индексировать запрещено. Если вы хотите, чтобы весь ваш сайт был открыт для индексации оставьте значение Disallow пустым. Чтобы скрыть весь контент на сайте после Disallow поставьте “/”.

Мы можем запретить доступ к определенной папке, файлу или расширению файла. В нашем примере, мы обращаемся ко всем поисковым роботам, закрываем доступ к папке bitrix, search и расширению pdf.

Allow

Allow принудительно открывает для индексирования страницы и разделы сайта. На примере выше мы обращаемся к поисковому роботу Google, закрываем доступ к папке bitrix, search и расширению pdf. Но в папке bitrix мы принудительно открываем 3 папки для индексирования: components, js, tools.

Host — зеркало сайта

Зеркало сайта — это дубликат основного сайта. Зеркала используются для самых разных целей: смена адреса, безопасность, снижение нагрузки на сервер и т. д.

Host — одно из самых важных правил. Если прописано данное правило, то робот поймет, какое из зеркал сайта стоит учитывать для индексации. Данная директива необходима для роботов Яндекса и Mail.ru. Другие роботы это правило будут игнорировать. Host прописывается только один раз!

Для протоколов «https://» и «http://», синтаксис в файле robots.txt будет разный.

Sitemap — карта сайта

Карта сайта — это форма навигации по сайту, которая используется для информирования поисковых систем о новых страницах. С помощью директивы sitemap, мы «насильно» показываем роботу, где расположена карта.

Символы в robots.txt

Символы, применяемые в файле: «/, *, $, #».

  • Слэш «/», скрывает от обнаружения различные страницы сайта.
  • Звездочка «*» применяется для обозначения любой последовательности символов в файле.
  • Знак доллара «$» сдерживает действия знака звездочки. С помощью него, можно запретить содержимое папки, но адрес который содержит папка, разрешить.
  • Решетка «#» применяется для комментирования. Робот не учитывает эти записи при сканировании сайта.

Проверка работоспособности после настройки robots.txt

После того как вы разместили Robots.txt на своем сайте, вам необходимо добавить и проверить его в вебмастере Яндекса и Google.

  1. Перейдите по ссылке.
  2. Выберите: Настройка индексирования — Анализ robots.txt.


  1. Перейдите по ссылке.
  2. Выберите: Сканирование — Инструмент проверки файла robots.txt.

Таким образом вы сможете проверить свой robots.txt на ошибки и внести необходимые настройки, если потребуется.

В заключение приведу 6 главных рекомендаций по работе с файлом Robots.txt:

  1. Содержимое файла необходимо писать прописными буквами.
  2. В директиве Disallow нужно указывать только один файл или директорию.
  3. Строка «User-agent» не должна быть пустой.
  4. User-agent всегда должна идти перед Disallow.
  5. Не стоит забывать прописывать слэш, если нужно запретить индексацию директории.
  6. Перед загрузкой файла на сервер, обязательно нужно проверить его на наличие синтаксических и орфографических ошибок.

Как не допустить грубейших ошибок в роботсе

Вы знаете, насколько важна индексация — это основа основ в продвижении сайтов. Потому что если ваш сайт не индексируется, то хрен вы какой трафик из поиска получите. Если он индексируется некорректно — то у вас даже при прочих идеальных условиях будет обрубаться часть трафика. Тут все просто — если вы, например, запретили к индексации папку с изображениями, то у вас почти не будет по ним трафа (хотя многие сознательно идут на такой шаг).

Индексация сайта — это процесс, в ходе которого страницы вашего сайта попадают в Яндекс, Гугл или другой поисковик. И после этого пользователь может найти страницу вашего сайта по какому-нибудь запросу.

Управляете вы такой важной штукой, как индексация, именно посредством файла robots.txt. Начну с азов.

Что такое robots.txt

Robots.txt — файл, который говорит поисковой системе, какие разделы и страницы вашего сайта нужно включать в поиск, а какие — нельзя. Ну то есть он говорит не поисковой системе напрямую, а её роботу, который обходит все сайты интернета. Вот что такое роботс. Этот файл всегда создается в универсальном формате .txt, который сможет открыть даже компьютер вашего деда.

Вот видос от Яндекса:

Основное назначение – контроль за доступом к публикуемой информации. При необходимости определенную информацию можно закрыть для роботов. Стандарт robots был принят в начале 1994 года, но спустя десятилетие продолжает жить.

Использование стандарта осуществляется на добровольной основе владельцами сайтов. Файл должен включать в себя специальные инструкции, на основе которых проводится проверка сайта поисковыми роботами.

Самый простой пример robots:

Данный код открывает весь сайт, структура которого должна быть безупречной.

Зачем закрывают какие-то страницы? Не проще ли открыть всё?

Смотрите — у каждого сайта есть свой лимит, который называется краулинговый бюджет. Это максимальное количество страниц одного конкретного сайта, которое может попасть в индекс. То есть, допустим, у какого-нибудь М-Видео краулинговый бюджет может составлять десять миллионов страниц, а у сайта дяди Вани, который вчера решил продавать огурцы через интернет — всего сотню страниц. Если вы откроете для индексации всё, то в индекс, скорее всего, попадет куча мусора, и с большой вероятностью этот мусор займет в индексе место некоторых нужных страниц. Вот чтобы такой хрени не случилось, и нужен запрет индексации.

Где находится Robots

Robots традиционно загружают в корневой каталог сайта.

Для загрузки текстового файла обычно используется FTP доступ. Некоторые CMS, например WordPress или Joomla, позволяют создавать robots из админпанели.

Для чего нужен этот файл

  • запрета на индексацию мусора — страниц и разделов, которые не содержат в себе полезный контент;
  • разрешение индексации нужных страниц и разделов;
  • чтобы давать разные задачи роботам разных поисковиков — то есть, например, Яндексу разрешить индексировать всё, а Рамблеру — ничего;
  • можно также задавать роботам разные категории. Заморочиться например вплоть до того, что Гуглу разрешить индексировать только картинки, а Яху — только карту сайта;
  • чтобы показать через директиву Host Яндексу, какое у сайта главное зеркало;
  • еще некоторые вебмастера запрещают всяким нехорошим парсерам сканировать сайт с помощью этого файла;

То есть большую часть проблем по индексации он решает. Есть конечно помимо роботса еще и такие инструменты, как метатег роботс (не путайте!), заголовок Last-Modified и другие, но это уже для профессионалов и нужны они лишь в особых случаях. Для решения большинства базовых проблем с индексацией хватает манипуляций с роботсом.

Как работают поисковые роботы и как они обрабатывают данный файл

В большинстве случаев, очень упрощенно, они работают так:

  1. Обходят Интернет;
  2. Проверяют, какие документы разрешено индексировать, а какие запрещено;
  3. Включает разрешенные документы в базу;
  4. Затем уже другие механизмы решают, какие страницы достаточно полезны для включения в индекс.

Справка Google свидетельствует: robots – рекомендация. Файл создается для того, чтобы страница не добавлялась в индекс поисковой системы, а не чтобы она не сканировалась поисковыми системами. Гугл позволяет запрещенной странице попасть в индекс, если на нее направляется ссылка внутри ресурса или с внешнего сайта.

По-разному ли Яндекс и Google воспринимают этот файл

Многие прописывают для роботов разных поисковиков разные директивы. Даже если список этих директив ничем не отличается.

Наверное, это для того, чтобы выразить уважение к Господину Поисковику. Как там раньше делали — «великий князь челом бьет… и просит выдать ярлык на княжение». Других соображений по поводу того, зачем разным юзер-агентам прописывают одни и те же директивы, у меня нет, да и вебмастера, так делающие, дать нормальных объяснений своим действиям не могут.

А те, кто может ответить, аргументируют это так: мол, Google не воспринимает директиву Host и поэтому её нужно указывать только для Яндекса, и вот почему, мол, для яндексовского юзер-агента нужны отдельные директивы. Но я скажу так: если какой-то робот не воспринимает какую-то директиву, то он её просто проигнорирует. Так что лично я не вижу смысла указывать одни и те же директивы для разных роботов отдельно. Хотя, отчасти понимаю перестраховщиков.

Чем может грозить неправильно составленный роботс

Некоторые при создании сайта на WordPress ставят галочку, чтобы система закрывала сайт от индексации (и забывают потом убрать её). Тогда Вордпресс автоматом ставит вам такой роботс, чтобы поисковики не включали ваш сайт в индекс, и это — самая страшная ошибка. Те страницы, на которые вы намерены получать трафик, обязательно должны быть открыты для индексации.

Потом, если вы не закрыли ненужные страницы от индексации, в индекс может попасть, как я уже говорил выше, очень много мусора (ненужных страниц), и они могут занять в индексе место нужных страниц.

Вообще, если вкратце, неправильный роботс грозит вам тем, что часть страниц не попадет в поиск и вы лишитесь части посетителей.

Как создать файл robots.txt

В Блокноте или другом редакторе создаем файл с расширением .txt, чтобы он в итоге назывался robots.txt. Заполняем его правильно (дальше расскажу, как) и загружаем в корень сайта. Готово!

Вот тут разработчик сайта Loftblog создает файл с нуля в режиме реального времени и делает настройку роботс:

Файл robots.txt: синтаксис и примеры инструкций

Что такое robots.txt

Файл robots.txt устанавливает правила сканирования сайта для ботов поисковых систем. Перед тем как осуществить анализ сайта поисковые роботы выполняют проверку этого файла. Благодаря такой процедуре они могут повысить эффективность сканирования и сэкономить свои ресурсы. Но все это возможно, только если вы правильно настроили файл.


Инструкция noindex в мета-теге robots, как и команды файла robots.txt, является не более чем рекомендацией для роботов. Ни тот, ни другой способ не могут гарантировать того, что закрытые страницы не попадут в индекс. Если вам наверняка нужно закрыть для индексации часть вашего сайта лучше использовать пароль для закрытия отдельных папок.

Основной синтаксис

User-Agent: робот, к которому будут применяться следующие правила (к примеру, «Googlebot»)

Disallow: страницы, к которым вы хотите закрыть доступ (с началом каждой новой строки вы можете включить огромный перечень указаний и инструкций). Каждая группа User-Agent / Disallow должна быть разделена пустой строкой. Но непустые строки не должны встречаться внутри группы (между User-Agent и последним элементом списка Disallow).

Хэш-метка (#) может использоваться, когда необходимо оставить комментарии в файле robots.txt для текущей строки. Все, что упоминается после метки хэша, будет проигнорировано поисковым ботом.

Каталоги и имена файлов чувствительны к регистру: для поисковой системы «Каталог», «каталог» и «КАТАЛОГ» это разные страницы.

Host: используется Яндексом, для указания основного зеркала сайта. Поэтому, если вы выполняете 301 редирект на страницу, чтобы объединить два сайта, нет необходимости повторять процедуру для файла robots.txt (на дублированном сайте). Яндекс определит указанную директиву на сайте, который должен быть склеен.

Crawl-delay: вы можете ограничить скорость сканирования вашего сайта, что очень полезно в случае его высокой посещаемости. Подобные ситуации возникают из-за еще большей нагрузки, которую вызывают боты, обрабатывающие информацию на сайте.

Регулярные выражения: для обеспечения более гибких инструкций вы можете использовать два символа, упомянутых ниже:
* (звезда) – указывает на любую определенную последовательность знаков,
$ (символ доллара) – обозначает конец текущей строки.

Примеры правил

Запрет на сканирование всего сайта

Эту инструкцию нужно применять при создании нового сайта или использовании поддоменов для обеспечения доступа к нему. Весьма часто при работе на новом сайте веб-разработчики забывают закрыть часть сайта для индексации, а поэтому поисковые роботы обрабатывают полную его копию. Если вы сделали подобную ошибку, то для вашего основного домена следует сделать 301 редирект на страницу.

Robots.txt: учимся управлять поисковыми роботами

Всем привет, сегодня научимся создавать файл Robots.txt для управления индексацией сайта.

Robots.txt – служебный файл, с чтения которого начинает индексацию ресурса поисковый робот. Поэтому в файле должна содержаться информация о том, какие страницы не стоит индексировать, какие рекомендуется просканировать, с какой скоростью совершать индексацию и другие команды. Например, можно ограничить доступ к неуникальным страницам, разделам со служебной информацией и т.п.

Однако заранее следует учесть, что все указанные в файле инструкции являются лишь рекомендациями для поисковых роботов и не дают гарантии, что закрытые разделы точно не будут проиндексированными и не попадут в поиск. В практике случается игнорирование этого файла поисковыми системами. В таких случаях следует обратиться в техподдержку поисковой системы, указав на несоблюдение рекомендаций, перечисленных в файле.

Если страницу или директорию нужно действительно надежно закрыть от посторонних глаз, следует устанавливать пароль доступа.

Синтаксис при формировании файла

Robots.txt содержит в себе инструкции. Одной из таких является «User-Agent», определяющая команды для различных роботов. К примеру, Googlebot, YandexBot – являются указаниями для роботов двух различных поисковых систем. User-agent: * — указывает на то, что правила установлены для всех поисковых роботов, выполняющих сканирование сайта.

Disallow: страницы, к которым нужно запретить доступ (можно указывать неограниченное количество с каждой новой строчки). Поисковая система Яндекс в данный момент поддерживает противоположную по значению директиву «Allow»: она позволяет разрешить доступ робота к некоторым разделам сайта или полностью ко всему сайту. Важно понимать, что команда «Allow» будет проигнорирована Google т.к. он не поддерживает такой синтаксис. Каждая из групп User-Agent/Disallow должны быть разделены между собой пустыми строками. Но при этом аналогичное разделение внутри групп не допускается.

#: символ для комментариев в файле (комментарии игнорируются роботом). Комментировать можно строку или директиву. Это бывает удобным при создании сложных конструкций в файле с целью систематизации правил. Имена файлов и каталоги чувствительны к регистру – следует помнить, что page и Page – разные для поискового робота страницы.

Host: команда для поискового робота Яндекса с целью указания основного зеркала ресурса. Не рекомендуется ставить 301 редирект на файл robots.txt Важно: если протокол сайта https, то он указывается обязательно, в случае с http указание протокола для ресурса не нужно!

Crawl-delay: ограничение скорости обхода ресурса. Актуально при большой посещаемости, когда дополнительная нагрузка на сервер при индексации может спровоцировать проблемы. Установка задержек между запросами позволит снизить нагрузку на хостинг и уменьшит частоту запросов от поисковых систем.

Sitemap: указание адреса, по которому расположена xml-карта сайта. Рекомендуется всегда её располагать по адресу site.ru/sitemap.xml и дублировать этот путь в директиве sitemap.

Clean-param: директива Яндекса, которая позволит избежать дублей с GET-параметрами. Эта проблема часто возникает на форумах, когда добавляют параметры сортировки, id сессии и другие параметры, препятствующие нормальному индексированию. Спецсимволы: * (любая последовательность символов), $ (конец строки).

Robots.txt в примерах

Чтобы запретить индексирование сайта при разработке ресурса и доступе к нему через поддомен (или по любой другой причине): User-agent: * Disallow: /
Чтобы разрешить индексацию всего сайта: User-agent: * Disallow:
Чтобы запретить индексацию папки: User-agent: Yandexbot Disallow: /no-index/
Чтобы запретить доступ к странице определенному роботу: User-agent: Googlebot Disallow: /no-index/thispage.html
Чтобы запретить индексацию файлов определенного расширения: User-agent: * Disallow: /*.pdf$
Чтобы дать роботу ссылку на карту сайта, если она размещена не в стандартном месте: User-agent: * Disallow: Sitemap: http://www.example.com/nonestandardlocation/sitemap.xml

Что лучше закрывать от индексации?

Robots.txt можно использовать, чтобы не индексировать:

  • панель администратора ресурса;
  • результаты внутреннего поиска по сайту;
  • технические страницы (регистрация/вход/восстановление доступа/корзина и т.п.);
  • страницы /index.php или /index.html (Disallow: /index*)

Также рекомендуется использовать конструкцию вида:

Она позволяет закрыть страницы, которые могут генерироваться движком сайта или хостингом – к примеру, на большинстве сайтов страница www.site.ru/? дублирует главную страницу сайта). Перед закрытием страниц от индексации, внимательно изучите его структуру. Все страницы сайта могут генерироваться например в следующем виде: www.site.ru/index.php/cat/

Почему робот может не «слушаться» правил, написанных в robots.txt

Бывает, что закрытые от индексации в robots.txt файлы и документы все равно индексируются и попадают в поисковую выдачу. Естественно, этот факт сильно раздражает владельцев сайтов. Объяснение этой ситуации размещено в официальном блоге Яндекса. Приведу его краткий пересказ. Индексирующий робот Яндекса, приходя на сайт, обязательно учитывает правила, указанные в robots.txt. Этот файл в его восприятии – строгая инструкция, нарушать которую запрещено. Чтобы все директивы, которые установил владелец ресурса, были правильно восприняты роботом, нужно учитывать такие условия:

  • Файл robots.txt нужно разместить в корневом каталоге ресурса – чтобы он был доступен по адресу сайт.ру/ robots.txt. Его нельзя располагать на другом ресурсе, в другой директории или на поддомене.
  • При обращении робота к файлу должен возвращаться код HTTP 200. Другой код в ответе или перенаправление означают, что робот не получит доступа к файлу.
  • Размер robots.txt должен быть не больше 32 Кб, иначе робот воспримет его как слишком сложный или содержащий ошибки. Такая инструкция в «глазах» робота автоматически станет полностью разрешающей.
  • Если robots.txt содержит правила для роботов разных поисковых систем, робот Яндекса будет пользоваться только теми, которые предназначены для него. Они размещены после строчки User-agent: Yandex.
  • При столкновении с конфликтующими директивами — например,

Робот решит, что всем страницам сайта разрешено попасть в поиск.

Выполнив перечисленные рекомендации, можно получить уверенность, что робот Яндекса правильно учтет все перечисленные нормы индексирования, не посетит запрещенные страницы и они, естественно, не появятся в выдаче. К слову: если информацию в файле отредактировать, изменения вступят в силу не сразу, а примерно через 7-15 дней.

Как и где проверять Robots.txt?

После окончательного формирования файла важно выполнить проверку валидности. Для этого можно использовать инструменты для вебмастеров, которые предоставляют Яндекс и Google. В частности, в панели для вебмастеров от Google нужно войти в свой аккаунт (сайт уже должен быть предварительно добавлен), после чего перейти на Сканирование/Инструменты проверки файла robots.txt. Что здесь можно сделать:

  • сразу определить ошибки и проблемы со сканированием;
  • провести все правки на месте и тут же вновь проверить, чтобы довести файл до идеального состояния и перенести на свой сайт;
  • проверить, закрыты ли от индексации все страницы и есть ли доступ к разрешенным страницам.

В Яндекс.Вебмастер тоже предусмотрена проверка файла. В частности, здесь можно:

  • проверять robots.txt. без авторизации и добавления сайта;
  • проверять можно списки страниц, а не по одной;
  • убедиться, что все инструкции в файле понятны роботу Яндекса.


После проверки готовый файл загружают в корень сайта.

Поисковые роботы Яндекса

Указание имени робота имеет больший приоритет при формировании файла, чем индексация без его упоминания. В файле robots.txt бот проверяет наличие записей, начинающихся с User-agent:, в них учитываются подстроки Yandex (регистр значения не имеет) или *. Если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются. Если строки User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.

Следующим роботам Яндекса можно указать отдельные директивы:

  • ‘YandexBot’ — основной индексирующий робот;
  • ‘YandexDirect’ — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, интерпретирует robots.txt особым образом;
  • ‘YandexDirectDyn’ — робот генерации динамических баннеров, интерпретирует robots.txt особым образом; ‘YandexMedia’ — робот, индексирующий мультимедийные данные;
  • ‘YandexImages’ — индексатор Яндекс.Картинок;
  • ‘YandexCatalog’ — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
  • ‘YaDirectFetcher’ — робот Яндекс.Директа, интерпретирует robots.txt особым образом;
  • ‘YandexBlogs’ — робот, индексирующий посты и комментарии;
  • ‘YandexNews’ — робот Яндекс.Новостей;
  • ‘YandexPagechecker’ — валидатор микроразметки;
  • ‘YandexMetrika’ — робот Яндекс.Метрики;
  • ‘YandexMarket’ — робот Яндекс.Маркета;
  • ‘YandexCalendar’ — робот Яндекс.Календаря.

Поисковые роботы Google

Googlebot – основной индексирующий робот; Googlebot News – робот новостных ресурсов; Googlebot Images – робот изображений; Googlebot Video – робот видеоконтента; Google Mobile – робот мобильных версий.

Правильный robots txt

Правильный robots txt для WordPress.

Приветствую, дорогие вебмастера! С помощью этой статьи, я хочу показать вам как правильно настроить файл robots.txt для конкретного сайта. Но, чтобы научиться его составлять, вам необходимо вдумчиво прочитать эту статью (возможно, не один раз). Только поняв, что вы будете делать, вы сможете настраивать этот файл для любого сайта. Будь то интернет-магазин, корпоративный сайт или блог, не важно.

Для тех, кто ищет готовый вариант (универсальный) для всех сайтов, я вас разочарую. Такого не существует! На каждом сайте есть свои собственные разделы, папки и файлы, о которых невозможно предугадать заранее. Так что, лучше научиться один раз и не мучить каждый раз поисковик.

Составлять правильный файл robots txt мы будем сразу и для Я ндекс’а и для G o o g l e одновременно. Иначе, смысла особого вообще не вижу. Я считаю, продвигаться нужно сразу в обоих и глупо делать упор только на один. Алгоритмы меняются постоянно и то, что работало сегодня во благо, завтра может сработать против.

Псевдо – правильный файл robots

Итак, для начала давайте разберемся что нужно закрывать в этом самом файле, а что уже давно кануло в лету. Все примеры правильного роботса, которые вы сможете найти в интернете (или уже нашли), написаны зачастую для конкретного сайта и к вашему не имеет вообще никакого отношения.

Обычно, в файле роботс советуют закрывать страницу входа в админку wp-login.php, саму страницу админки wp-admin, да и вообще всю директорию wp. Так же закрывают стили и скрипты js и css, и конечно же не нужные для индексирования страницы и всё в этом духе.

Но возникает вопрос, а нужно ли? Ведь большинство директорий, которые нужно было закрывать в роботс.тхт раньше, теперь закрываются более разумным методом – тегом robots. Почему более разумный спросите вы? На этот вопрос поможет ответить представитель G o o g l e Джон Мюллер в этом видео (включите русские титры, видео начинается с нужного места):

Немного поясню. Джон предупредил, что если в robots txt закрыть какую-то страницу или директорию, но при этом на неё вдруг будет проставлена ссылка в интернете, то эта страница или директория будет проиндексирована не зависимо от правила файла роботс.

С каждым годом, файл robots txt становиться всё бесполезнее и бессмысленнее. И этот ответ, тому подтверждение. Закрытие в этом файле вас уже можно сказать не спасёт, ссылка может появиться тысячами способов как автоматических, так и ручных. Поэтому Мюллер рекомендует закрывать не нужные страницы не файлом роботс, а тегом robots. Что собственно и я советую вам научиться делать.

Бессмысленность файла роботс.

Проанализируйте сами, большинство директив в файле уже упразднили к 2020 году:

  • Crawl-delay (таймаут для роботов) перестали учитывать.
  • Host (главное зеркало) тоже упразднили.
  • Закрывать js и css Гугл не рекомендует, вебмастер ругается.
  • Директива wp- и другие технические страницы закрываются тегом.
  • Собственно, всё. Закрывать больше нечего.

А судя по тому, что как минимум, поисковик G o o g l e может проиндексировать закрытые страницы в файле роботс (не удивлюсь что и Я ндекс тоже), то смысла закрывать не нужные страницы таким образом уже нет.

Единственное, что осталось для файла robots, так это пользовательские папки и директории, на которые точно никто не будет ссылаться и нет возможности проставить тег robots. К ним относятся собственные папки и пользовательские файлы у которых нет собственных страниц (например файлы для скачивания).

Что касается get параметров, в Я ндекс’е есть специальная директива Clean-param, но используют её единицы. В G o o g l e же вообще не упоминается об этой директиве, похоже поэтому она и не обрела популярности в глазах вебмастеров. Поэтому, если вы всё же решили закрыть страницы с get параметрами, то закрывайте обычным синтаксисом.

Синтаксис файла для поисковиков.

Ниже представлена официальная документация для наших двух поисковиков. В принципе, этого будет достаточно, потому что остальным поисковикам приходиться ровняться на этих двух гигантов.

Но я считаю, это бессмысленная затея, закрывать генерируемые страницы с get параметрами. Я никогда не закрываю такие страницы и проблем не возникало. Так что, решайте сами, этот пункт абсолютно не критичен.

Правильная настройка robots txt.

Простое удаление портянки из файла проблему не решит конечно же. Перед этим, нужно настроить закрытие не нужных страниц тегом robots, а уже потом удалять всё ненужное из файла. В идеале, у вас должен получиться вот такой роботс /robots.txt. То есть, закрыты только пользовательские директории и файлы, которые не должны быть в индексе и на которые никто не будет ссылаться в принципе. Директиву Host можете оставить, а можете и удалить. Поисковики её уже не учитывают, поэтому не парьтесь. Я оставил, мне она не мешает.

Закрывать ли wp-admin, wp-login и т.д.?

Закрывать эти директории уже нет необходимости и вот почему. Все технические страницы WordPress перенаправляет для не авторизованных пользователей на страницу входа wp-login.php. А если открыть код этой страницы CTRL+U и проверить его, вы увидите тег проставленный ВП автоматически:

То есть, движок уже закрыл эту страницу от индексации. И все остальные страницы тоже, так как не авторизованный пользователь на них не сможет попасть, в том числе и краулер поисковиков. Так что, директории wp-. можно смело удалять из файла robots txt. Идем дальше.

Закрывать ли от индексации js и css?

Как вы уже наверное знаете, поисковики очень много внимания уделяют мобильным (адаптивным) версиям сайта. И чтобы определить на сколько мобильна страница, краулеру необходимо проиндексировать файлы стилей и скриптов, чтобы понять это. Так вот, если вы будете закрывать стили css и скрипты js от индексации, большая вероятность что краулер посчитает ваш сайт убогим не адаптивным. Отсюда понижение выдачи, потеря посещаемости и все вытекающие.

Вот так должны воспринимать ваш сайт поисковики:

Адаптивность под мобильные Яндекс Адаптивность под мобильные Google

Конечно же, не стоит забывать о самой мобильности. Если сайт не адаптирован, открытие или закрытие тут явно не поможет избавиться от ошибок в вебмастерах. Исходя из выше описанного, закрытие стилей и скриптов в файле robots txt не желательное занятие. Удаляйте эти директивы и забудьте о них. Едем дальше.

Закрывать ли wp-json, author, embed, page и т.д.?

Все эти технические страницы закрываются с помощью тега роботс. Отлично с этим справляется плагин Yoast SEO, рекомендую ознакомиться с обзором. В нем можно будет закрыть все не нужные архивы и метки в автоматическом режиме.

Что касается embed, pingback и подобных приблуд, с этим отлично справляются плагины Clearfy Webcraftic или Wpshop. Там вы сможете отключить не нужные директории сайта программно и закрывать их дополнительно ещё где либо не потребуется.

И наконец, что касается страниц пагинации page. Закрывать от индексации их даже тегом роботс не рекомендуется. Для таких страниц отлично подходит тег rel=»canonical», подробнее про него я писал ранее.

Разбор примера популярного роботса для ВП.

Вижу что многим читателям трудно воспринять теорию без практики, поэтому дополняю статью конкретным примером. Возьмём популярный вариант robots и разберём его по полочкам. Итак, вот он сам файл:


Что мы видим? Первое что бросается в глаза, это дублирование условий для всех роботов user-agent: * и отдельно зачем-то для Я ндекса user-agent: Yandex. Хочется сразу же спросить у автора – Вы действительно думаете что робот Яндекса тупой и не поймёт общие правила со звёздочкой? (это конечно же риторический вопрос).

Ну что ж, а теперь по порядку:

Если вы читаете эту статью не из прошлого, то на борту у вас минимум должна быть версия WordPress 5.x.x не меньше. Так вот, страницы входа wp-login.php и wp-register.php по умолчанию наделены специальным тегом robots – nofollow. То есть, ВордПресс уже сам закрыл эти страницы от индексации и вам не нужно их больше нигде закрывать.

Директория сервера это классика, только не понятно откуда она взялась. Эта директория изначально отдает 403 ошибку сервиса при переходе, поэтому она никак не может быть проиндексирована поисковиками. Стало быть, этот пункт из файла можно так же смело удалить.

Первые две директории wp-admin и wp-includes являются техническими. То есть, к ним нет доступа не авторизованным пользователям. В том числе и пауку (краулеру) не удастся попасть на эти страницы. Он будет автоматически перенаправлен на страницу входа wp-login.php которая уже закрыта тегом роботс от индексации.

Директории /wp-content/. отвечают за файлы ваших тем и плагинов, в том числе и за файлы js и css. Если закрывать эти файлы от индексации, то G o o g l e не сможет прочитать их и в вебмастере вы увидите ошибки, что сайт не адаптирован. Хотя он может быть полностью мобильным.

Скорее всего, это пользовательские директивы, которые были прописаны под конкретный сайт (как я и говорил в начале) и никаким боком к вашему не относятся. Но все просто копируют готовый и даже не думают, что они делают.

Это одна из приблуд движка WordPress. С помощью неё движок посылает уведомления на сайты, ссылки на которые у вас будут в статьях. Отключается это штатными средствами. В админке перейдите по пути Настройки > Обсуждение и уберите галочки на первых двух (верхних) пунктах.

Вообще не понимаю, зачем закрывать фиды от индексации? Поисковик фиды не индексирует и не выводит в выдаче. Вы хоть раз видели в поиске страницу фидов? Это один из бесполезных сео-маразмов. Удаляйте эти бессмысленные правила.

Эти директории отвечают за страницы с get параметрами и за страницу поиска по сайту. Здесь уже решать вам, нужны ли они в индексе или нет. Я никогда их не закрываю и бед не знаю.

Что же закрывать в robots txt.

Исходя из выше написанного, остается закрывать только пользовательские папки и файлы, которые не относятся на прямую к самому сайту WordPress. То есть, ни папки темы, ни плагинов, а собственные, со сторонними файлами (например для скачивания и т.д.).

Закрывать картинки от индексирования – считаю маразмом. Это относиться к тому случаю, когда вы начитавшись, что не уникальные картинки портят репутацию, решаете их закрыть. Это бред собачий, но это личное ИМХО .

А вот различные рекламные баннеры и файлы для скачивания, можно поместить в отдельную пользовательскую папку (или в несколько) и закрыть эту папку от индексации в файле роботс. Собственно так я и поступил с папкой files в моём роботсе.

Заключение.

Как видите, файл robots txt потерял свою актуальность к 2020 году (по крайней мере в мире WordPress). Закрывать практически нечего, поэтому данный файл обречен пустовать и мозолить всем вебмастерам глаз. Надеюсь я был убедителен, если есть что сказать, прошу в комментарии. На этом блоге свобода слова, так что высказывайтесь на здоровье. На этом у меня всё, увидимся на страницах wpmaster.kz!

Друзья, блогу нужна ваша поддержка. Если вам понравилась статья или она вам помогла решить задачу, поделитесь ею в одной из соцсетей. Этим вы поможете дальнейшему развитию. Всем активистам — спасибо!

Как составить корректный файл robots.txt

Важность файла robots.txt в продвижении сайтов невозможно переоценить. Это действительно та техническая составляющая ресурса, которая способна дать нужные команды поисковым роботам и тем самым запретить индексацию определенных элементов сайта . Плохо составленный роботс способен навредить продвижению, поэтому очень важно постигнуть правила составления корректного файла robots.txt.

Одна неправильно составленная или упущенная директива может выставить напоказ те страницы сайта, которые не должны быть видны поисковым ботам. Ситуация может быть совершенно противоположная: лишняя директива закроет нужные страницы ресурса, что негативно скажется на траффике.

Что такое robots.txt

Текстовый файл robots.txt необходим для того, чтобы задать нужные параметры поисковым роботам для проведения корректной индексации сайта. Любая сессия начинается с загрузки роботс. Его отсутствие означает, что сайт полностью доступен для индексации.

Более детальный разбор особенностей файла robots.txt и его директив вы найдете здесь.

Процесс создания файла robots.txt

Создать файл очень просто. Вы можете воспользоваться блокнотом или любым другим редактором. Файл нужно назвать «robots» и сохранить его в формате .txt . Поместив файл в корневую папку сайта, удостоверьтесь, что он доступен по адресу «ваш домен»/robots.txt. По этому адресу будет доступен пустой файл роботс, который необходимо заполнить. На этом создание файла окончено. Куда серьезнее стоит вопрос с его содержанием.

Шаблоны для составления robots.txt

Такой вариант написания роботс позволяет избежать ручной работы и составления файла. Шаблоны содержат в себе ключевые директивы, однако для его грамотного использования также потребуются знания. Шаблонный роботс не может гарантировать абсолютной правильности файла, а это говорит о том, что вы подвергаете свой сайт риску.

Текстовый файл вы создаете сами и вставляете туда уже готовое наполнение. Существует множество шаблонов, к примеру, WordPress, Joomla и прочие.

Чем помогают online-генераторы при составлении robots.txt?

Для помощи в создании файла роботс вам помогут online-генераторы. Созданный с помощью подобной программы файл невозможно считать полноценным, так как генератору не по силам исключить из robots.txt ненужные фрагменты, а также автоматически внести в текст зеркало сайта. Использование генератора подойдет тем, кто не хочет сидеть часами над монотонной работой, а жаждет сразу же получить готовый файл.

В любом вам понадобятся знания основного синтаксиса роботс, чтобы внести важные коррективы вручную.

Создаем robots.txt собственноручно

  1. Написание файла начинается с размещения трех «User-agent» с пропуском в одну строку между каждой директивой:

Как вы заметили, первые две строки прописываются для Яндекс и Google, а вот третья нужна в качестве универсальной, так как каждая поисковая система задает особые требования.

  1. Для каждого «User-agent» необходимо прописать директивы, которые будут запрещать индексацию основных форматов файлов:

Такие файлы лучше закрывать от индексации, чтобы они брали на себя большую долю релевантности, нежели сам ресурс, и поисковые системы не отдавали им предпочтение в выдаче. Если же на сайте нет документов одного из перечисленных форматов, то такие директивы пригодятся вам в будущем.

  1. Каждый «User-agent» дополняет разрешающей директивой для индексации файлов формата CSS и JS. Для корректной индексации такие директивы необходимы.
  1. Для того, чтобы поисковые роботы могли индексировать изображения, дополняем каждый «User-agent» разрешающей директивой для основных форматов изображений:

Такие директивы должны быть в вашем robots.txt, чтобы изображения не были закрыты случайно. Здесь ситуация аналогична, как и с документами. Для перестраховки и на перспективу лучше оставить данные директивы.

  1. При написании «user-agent» для Яндекс, стоит добавить дополнительную директивы «clean-param», которая необходима для удаления меток отслеживания. Это поможет исключить появление одинаковых страниц при выдаче.


  1. Такие же параметры необходимо закрепить в GSC в разделе «Параметры URL». Стоит помнить, что отдельной запрещающей директивой закрывать метки не рекомендуется, так как после этого на странице невозможно запустить рекламу в Google Adwords.
  2. В остальных случаях для «User-agent» добавляем:
  1. Следующий этап подразумевает закрытие от поисковых роботов всех служебных файлов , дубликаты страниц, а также документов, которые бесполезны для поискового продвижения. Запрещающая директива должна быть для каждого «User-agent» отдельная.

К страницам, которые нужно закрыть от индексации, относятся:

  • админка;
  • персональные страницы пользователей;
  • фильтры и сортировка;
  • оформление и корзины.
  1. Яндекс также требует указания зеркала сайта:
  1. После всех перечисленных директив делается пропуск в одну строку и прописывается директива xml-карт, если они актуальны для сайта:

В итоге вы должны получить полноценный, отлажено функционирующий файл robots.txt, который может быть использован без вреда ресурсу.

Когда можно ставить пропуск строки в файле robots.txt:

  • между двумя «User-agent», то есть между последней директивой одного и началом другого;
  • между последней директивой последнего «User-agent» и началом директивы «Sitemap».

После составления файла мы рекомендуем проверить его в онлайн-сервисах для анализа роботс. Также следует промониторить все файлы, которые открыты для индексации на наличие ошибок.

Ошибки, которые чаще всего совершают при составлении robots.txt

Составления файла роботс достаточно простая задача, если постигнуть азы его синтаксиса. Но существует несколько распространенных ошибок, о которых стоит знать.

  1. Нежелательное полное закрытие сайта от индексации

Такая манипуляция, если она была проведена незапланированно, может привести к полной потере траффика, так как сайт не будет виден в поисковой выдаче.

  1. Игнорирование закрытия меток отслеживания

Если метки отслеживания не будут закрыты от поисковых роботов, то в поиске могут появиться дубликаты страниц ресурса , что не будет играть на пользу продвижению.

  1. Некорректное внесение в роботс зеркала сайта

Host: site.ru # В то время, как правильное зеркало sub.site.ru

Вероятнее всего Яндекс пропустит такую директиву и не будет учитывать ее при индексации. Зеркала будут склеены в один сайт в случае, если, к примеру, каждый из них относится к определенному региону.

Что необходимо закрывать от индексации?

  1. Первоначально нужно убедиться, что у страниц нет открытых дубликатов. При вводе ключевых слов в поиск должны появляться оригиналы страниц с уникальным контентом. Робот будет считывать только основной адрес страницы, а технические адреса стоит скрыть с помощью роботс, а именно — масок:
  1. Страницы, на которых находится неуникальный контент, стоит сразу же закрыть от поисковых роботов, так как все равно будут изъяты системой автоматически.
  2. В индекс не должны попадать страницы, отображающие сценарий, к примеру, «Авторизация прошла успешно».
  3. Индикаторам сессий также не место в индексе:

Disallow: *session_ >

  1. Исключаем из индекса страницы с файлами шаблонов, баз данных, страницу администратора и прочие cma файлы.
  1. Ко всему закрываем доступ к результатам поиска, калькулятору и прочему контенту, который не важен для пользователей.

Соблюдение всех перечисленных правил поможет вам держать свой индекс в полном порядке.

Файлы для индексации

Разрешающая директива должна быть использована почти для всего контента (до 90%). Индексировать можно все, что не находится под запрещающей директивой. Стоит помнить, что индексируемый контент должен быть полезен пользователям.

Являются ли sitemap и host обязательными директивами?

Данные директивы прописать желательно, чтобы ускорить процесс индексации. Host является рекомендацией для Яндекс, хотя теоретически поисковая система может и не воспользоваться этой директивой. Путь к файлу sitemap.xml будет подсказывать соответствующая директива.

Под какие поисковые системы нужно настраивать robots.txt?

Синтаксис файла роботс универсален для всех поисковых систем. Можно прописать в файле общий «User-agent», и тогда директивы будут предназначены для всех поисковиков. Под разные поисковые системы можно составлять разные директивы, тогда остальные команды этим поисковиком будут проигнорированы.

Важность директив Clean-param и Crawl-delay

Чтобы поисковые роботы быстро сориентировались в динамических ссылках, стоит использовать директиву Clean-param. Также она поможет вам убрать дубликаты страниц из поисковой выдачи.

Crawl-delay используется в зависимости от хостинга. Если сервер постоянно перегружен, то данная директива облегчит его работу.

Вывод

Файл robots.txt – это отличное средство управления индексацией сайта. Файл представляет собой набор директив, которые задают рамки для действий поисковым роботам. Каждая из директив, в свою очередь, задает определенную команду для действия поискового бота.

Знание основного синтаксиса поможет вам собственноручно составить файл.Корректно написанный роботс способен защитить систему от серьезных ошибок, а также поможет правильному взаимодействию сайта и поисковых систем.

Илон Маск рекомендует:  Кс языки и грамматики
Понравилась статья? Поделиться с друзьями:
Кодинг, CSS и SQL