HTML МЕТА-тег ROBOTS


Содержание

Полное руководство по Robots.txt и метатегу Noindex

Файл Robots.txt и мета-тег Noindex важны для SEO-продвижения. Они информируют Google, какие именно страницы необходимо сканировать, а какие – индексировать (отображать в результатах поиска).

С помощью этих средств можно ограничить содержимое сайта, доступное для индексации.

Что такое файл Robots.txt?

Robots.txt – это файл, который указывает поисковым роботам (например, Googlebot и Bingbot), какие страницы сайта не должны сканироваться.

Чем полезен файл Robots.txt?

Файл robots.txt сообщает роботам системам, какие страницы могут быть просканированы. Но не может контролировать их поведение и скорость сканирования сайта. Этот файл, по сути, представляет собой набор инструкций для поисковых роботов о том, к каким частям сайта доступ ограничен.

Но не все поисковые системы выполняют директивы файла robots.txt. Если у вас остались вопросы насчет robots.txt, ознакомьтесь с часто задаваемыми вопросами о роботах .

Как создать файл Robots.txt?

По умолчанию файл robots.txt выглядит следующим образом:

Можно создать свой собственный файл robots.txt в любом редакторе, который поддерживает формат .txt. С его помощью можно заблокировать второстепенные веб-страницы сайта. Файл robots.txt – это способ сэкономить лимиты, которые могут пойти на сканирование других разделов сайта.

Директивы для сканирования поисковыми системами

User-Agent: определяет поискового робота, для которого будут применяться ограничения в сканировании URL-адресов. Например, Googlebot, Bingbot, Ask, Yahoo.

Disallow: определяет адреса страниц, которые запрещены для сканирования.

Allow: только Googlebot придерживается этой директивы. Она разрешает анализировать страницу, несмотря на то, что сканирование родительской веб-страницы запрещено.

Sitemap: указывает путь к файлу sitemap сайта.

Правильное использование универсальных символов

В файле robots.txt символ (*) используется для обозначения любой последовательности символов.

Директива для всех типов поисковых роботов:

Также символ * можно использовать, чтобы запретить все URL-адреса кроме родительской страницы.

Это означает, что все URL-адреса дочерних страниц авторов и страниц категорий заблокированы за исключением главных страниц этих разделов.

Ниже приведен пример правильного файла robots.txt:

После того, как отредактируете файл robots.txt, разместите его в корневой директории сайта . Благодаря этому поисковый робот увидит файл robots.txt сразу после захода на сайт.

Что такое Noindex?

Noindex – это метатег, который запрещает поисковым системам индексировать страницу.

Как применять метатег Noindex?

Существует три способа добавления Noindex на страницы:

Метатег «robots»

Разместите приведенный ниже код в раздел страницы:

Он сообщает всем типам поисковых роботов об условиях индексации страницы. Если нужно запретить индексацию страницы только для определенного робота, поместите его название в значение атрибута name.

Чтобы запретить индексацию страницы для Googlebot:

Чтобы запретить индексацию страницы для Bingbot:

Также можно разрешить или запретить роботам переход по ссылкам, размещенным на странице.

Чтобы разрешить переход по ссылкам на странице:

Чтобы запретить поисковым роботам сканировать ссылки на странице:

X-Robots-Tag

x-robots-tag позволяет управлять индексацией страницы через HTTP-заголовок. Этот тег также указывает поисковым системам не отображать определенные типы файлов в результатах поиска. Например, изображения и другие медиа-файлы.

Для этого у вас должен быть доступ к файлу .htaccess. Директивы в метатеге «robots» также применимы к x-robots-tag.

Блокировка индексации через YoastSEO

Плагин YoastSEO в WordPress автоматически генерирует приведенный выше код. Для этого на странице записи перейдите в интерфейсе YoastSEO в настройки публикации, щелкнув по значку шестеренки. Затем в опции «Разрешить поисковым системам показывать эту публикацию в результатах поиска?» выберите «Нет».

Также можно задать тег noindex для страниц категорий. Для этого зайдите в плагин Yoast, в «Вид поиска». Если в разделе «Показать категории в результатах поиска» выбрать «Нет», тег noindex будет размещен на всех страницах категорий.

Компьютерные уроки, статьи и советы по настройке компьютера и сетевой работе — создание, оптимизация и продвижение сайтов и блогов в Сети Интернет, программирование HTML, XHTML, CSS и ява-скрипт

Установка и загрузка ОС Виндовс

Метатег robots | Закрыть страницу от индексации

Статья для тех, кому лень читать справку по GoogleWebmaster и ЯндексВебмастер

Закрывание ненужных страниц веб-ресурса от поисковой индексации очень важно для его SEO-оптимизации, особенно на начальном этапе становления сайта или блога «на ноги». Такое действие способствует продвижению в SERP (СЕРП) и рекомендовано к применению для служебных страниц. К служебным страницам относятся технические и сервисные страницы, предназначенные исключительно для удобства и обслуживания уже состоявшихся клиентов. Эти страницы с неудобоваримым или дублирующим контентом, который не представляет абсолютно никакой поисковой ценности. Сюда входят – пользовательская переписка, рассылка, статистика, объявления, комментарии, личные данные, пользовательские настройки и т.д. А, также – страницы для сортировки материала (пагинация), обратной связи, правила и инструкции и т.п.

  1. Метатег robots
  2. Почему метатег robots лучше файла robots.txt

Метатег robots

Для управления поведением поисковых роботов на веб-странице, в HTML существует метатег robots и его атрибут content. закрытия веб-страницы от поисковой индексации,

nofollow и noindex – самые загадочные персонажи разметки html-страницы, главная задача которых состоит в запрете индексирования ссылок и текстового материала веб-страницы поисковыми роботами.

nofollow (Яндекс & Google)

nofollow – валидное значение в HTML для атрибута rel тега «a» (rel=»nofollow»)
Это значение предназначено для поисковых систем.
Оно устанавливает запрет на переход по ссылке и последующее её индексирование.

rel=»nofollow» – не переходить по ссылке

Оба главных русскоязычных поисковика (Google и Яндекс) – прекрасно знают атрибут rel=»nofollow» и, поэтому – превосходно управляются с ним. В этом, и Google, и Яндекс, наконец-то – едины. Ни один поисковый робот не пойдёт по ссылке, если у неё имеется атрибут rel=»nofollow»:

content=»nofollow» – не переходить по всем ссылкам на странице

Допускается указывать значение nofollow для атрибута content метатега .
В этом случае, от поисковой индексации будут закрыты все ссылки на веб-странице

content=»nofollow» />

Атрибут content является атрибутом тега (метатега). Метатеги используются для хранения информации, предназначенной для браузеров и поисковых систем. Все метатеги размещаются в контейнере , в заголовке веб-страницы.

Действие атрибутов rel=»nofollow» и content=»nofollow»
на поисковых роботов Google и Яндекса

Действие атрибутов rel=»nofollow» и content=»nofollow»
на поисковых роботов Google и Яндекса несколько разное:

Google Увидев атрибут rel=»nofollow» у отдельно стоящей ссылки, поисковые роботы Google не переходят по такой ссылке и не индексируют её видимую часть (анкор). Увидев атрибут content=»nofollow» у метатега в заголовке страницы, поисковые роботы Google сразу «разворачивают оглобли» и катят к себе восвояси, даже не пытаясь заглянуть на такую страницу. Таким образом, чтобы раз и навсегда закрыть от роботов Google отдельно стоящую ссылку (тег ) достаточно добавить к ней атрибут rel=»nofollow»:
rel=»nofollow» >Анкор
А, чтобы раз и навсегда закрыть от роботов Google всю веб-страницу,
достаточно добавить в её заголовок строку с метатегом:
content=»nofollow» /> Яндекс Для роботов Яндекса атрибут rel=»nofollow» имеет действие запрета только! на индексацию ссылки и переход по ней. Видимую текстовую часть ссылки (анкор) – роботы Яндекса всё равно проиндексируют.
Для роботов Яндекса атрибут метатега content=»nofollow» имеет действие запрета только! на индексацию ссылок на странице и переходов по них. Всю видимую текстовую часть веб-страницы – роботы Яндекса всё равно проиндексируют.
Для запрета индексации видимой текстовой части ссылки или страницы для роботов Яндекса – ещё потребуется добавить его любимый тег или значение – не признанное изобретение Яндекса» href=»http://tehnopost.info/59-noindex-i-nofollow.html#noindex_no_valide»>noindex

noindex – не индексировать текст
(тег и значение только для Яндекса)

Тег не входит в спецификацию HTML-языка.
Тег – это изобретение Яндекса, который предложил в 2008 году использовать этот тег в качестве маркера текстовой части веб-страницы для её последующего удаления из поискового индекса. Поисковая машина Google это предложение проигнорировала и Яндекс остался со своим ненаглядным тегом, один на один. Поскольку Яндекс, как поисковая система – заслужил к себе достаточно сильное доверие и уважение, то придётся уделить его любимому тегу и его значению – должное внимание.

Тег – не признанное изобретение Яндекса

Тег используется поисковым алгоритмом Яндекса для исключения служебного текста веб-страницы поискового индекса. Тег поддерживается всеми дочерними поисковыми системами Яндекса, вида Mail.ru, Rambler и иже с ними.

Тег noindex – парный тег, закрывающий тег – обязателен!

Учитывая не валидность своего бедного и непризнанного тега,
Яндекс соглашается на оба варианта для его написания:
Не валидный вариант – ,
и валидный вариант – .

Хотя, во втором случае – лошади понятно, что для гипертекстовой разметки HTML, это уже никакой не тег, а так просто – html-комментарий на веб-странице.

Тег – не индексировать кусок текста

Как утверждает справка по Яндекс-Вебмастер, тег используется для запрета поискового индексирования служебных участков текста. Иными словами, часть текста на странице, заключённая в теги удаляется поисковой машиной из поискового индекса Яндекса. Размеры и величина куска текста не лимитированы. Хоть всю страницу можно взять в теги . В этом случае – останутся в индексе одни только ссылки, без текстовой части.

Поскольку Яндекс подходит раздельно к индексированию непосредственно самой ссылки и её видимого текста (анкора), то для полного исключения отдельно стоящей ссылки из индекса Яндекса потребуется наличие у неё сразу двух элементов – атрибута rel=»nofollow» и тега . Такой избирательный подход Яндекса к индексированию ссылок даёт определённую гибкость при наложении запретов.

Так, например, можно создать четыре конструкции, где:

Ссылка индексируется полностью Анкор (видимая часть ссылки) Индексируется только анкор (видимая часть) ссылки rel=»nofollow» >Анкор Индексируется только ссылка, без своего анкора Анкор Ссылка абсолютно НЕ индексируется rel=»nofollow» > Анкор

Для справки: теги , особенно их валидный вариант – абсолютно не чувствительны к вложенности. Их можно устанавливать в любом месте HTML-кода. Главное, не забывать про закрывающий тег, а то – весь текст, до самого конца страницы – вылетит из поиска Яндекса.

Метатег noindex – не индексировать текст всей страницы

Допускается применять noindex в качестве значения для атрибута метатега content –
в этом случае устанавливается запрет на индексацию Яндексом текста всей страницы.

Атрибут content является атрибутом тега (метатег). Метатеги используются для хранения информации, предназначенной для браузеров и поисковых систем. Все метатеги размещаются в контейнере , в заголовке веб-страницы.

Абсолютно достоверно, ясно и точно, что использование noindex в качестве значения атрибута content для метатега даёт очень хороший результат и уверенно «выбивает» такую страницу из поискового индекса Яндекса.

content=»noindex» />
Текст страницы, с таким метатегом в заголовке –
Яндекс совершенно не индексирует, но при этом он –
проиндексирует все ссылки на ней.

Разница в действии тега и метатега noindex


Визуально , разница в действии тега и метатега noindex заключается в том, что запрет на поисковую индексацию тега noindex распространяется только на текст внутри тегов , тогда как запрет метатега – сразу на текст всей страницы.
Пример: Этот текст будет не проиндексирован

Текст страницы, с таким метатегом – Яндекс полностью не индексирует

Принципиально , разница в действии тега и метатега проявляется в различиях алгоритма по их обработке поисковой машиной Яндекса. В случае с метатегом noindex, робот просто уходит со страницы, совершенно не интересуясь её содержимым (по крайней мере – так утверждает сам Яндекс). А, вот в случае с использованием обычного тега – робот начинает работать с контентом на странице и фильтровать его через своё «ситечко». В момент скачивания, обработки контента и его фильтрации возможны ошибки, как со стороны робота, так и со стороны сервера. Ведь ни что не идеально в этом мире.
Поэтому, кусок текста страницы, заключённого в теги – могёт запросто попасть Яндексу «на зуб» для дальнейшей поисковой индексации. Как утверждает сам Яндекс – это временное неудобство будет сохраняться до следующего посещения робота. Чему я не очень охотно верю, потому как, некоторые мои тексты и страницы, с тегом и метатегом noindex – висели в Яндексе по нескольку месяцев.

Особенности метатега noindex

Равно, как и в случае с тегом » href=»http://tehnopost.info/59-noindex-i-nofollow.html#noindex_deistvie»> , действие метатега noindex позволяет гибко накладывать запреты на всю страницу. Примеры метатегов для всей страницы сдерём из Яндекс-Вебмастера:

не индексировать текст страницы content=»noindex» /> не переходить по ссылкам на странице content=»nofollow» /> не индексировать текст страницы и не переходить по ссылкам на странице content=»noindex, nofollow» /> что, аналогично следующему: запрещено индексировать текст и переходить
по ссылкам на странице для роботов Яндекса content=»none» />

Вот такой он, тег и значение noindex на Яндексе :):):).

Тег и метатег noindex для Google

Что-же касается поисковика Google, то он никак не реагирует на присутствие выражения noindex, ни в заголовке, ни в теле веб-страницы. Google остаётся верен своему валидному «nofollow», который он понимает и выполняет – и для отдельной ссылки, и для всей страницы сразу (в зависимости от того, как прописан запрет). После некоторого скрипения своими жерновами, Яндекс сдался и перестал продвижение своего тега и значения noindex, хотя – и не отказывается от него полностью. Если роботы Яндекса находят тег или значение noindex на странице – они исправно выполняют наложенные запреты.

Универсальный метатег (Яндекс & Google)

С учётом требований Яндекса, общий вид универсального метатега,
закрывающего полностью всю страницу от поисковой индексации,
выглядит так:

content=»noindex, nofollow» /> – запрещено индексировать текст и переходить по ссылкам на странице
для всех поисковых роботов Яндекса и Google

Почему метатег robots лучше файла robots.txt

Самый простой и популярный способ закрыть веб-страницу от индексации – это указать для неё соответствующую директиву в файле robots.txt. Для этого, собственно файл robots.txt и существует. Однако, закрывать через метатег robots – гораздо надёжнее.

И, вот почему.
Алгоритмы обработки роботами метатега robots и файла robots – совершенно различные. Работу этих алгоритмов можно сравнить с действием в известном анекдоте, где бьют не «по паспорту», а – «по морде». Пусть этот пример весьма груб и примитивен, но он, как нельзя лучше – отображает поведение поискового робота на странице:

  • В случае использования метатега robots, поисковик просто и прямо заходит на веб-страницу и читает её заголовок («смотрит в её морду». Если робот там находит метатег robots – он разворачивается и уходит восвояси. Вуаля! Всё предельно просто. Робот увидел запись, что здесь ловить нечего, и сразу же – «свалил». Ему проблемы не нужны. Это есть работа по факту записи прямо в заголовке страницы («по морде»).
  • В случае использования файла robots.txt, поисковик, перед заходом на страницу – сверяется с этим файлом (читает «паспорт»). Это есть работа по факту записи в постороннем файле («по паспорту»). Если в файле robots.txt («паспорте») прописана соответствующая директива – робот её выполняет. Если нет, то он – сканирует страницу в общем порядке, поскольку по-умолчанию – к сканированию разрешены все страницы.

Казалось-бы, какая разница.

Тем более, что сам Яндекс рассказывает следующее:

При сканировании сайта, на основании его файла robots.txt – составляется специальный список (пул), в котором ясно и чётко указываются и излагаются директории и страницы, разрешённые к поисковому индексированию сайта.

Ну, чего ещё проще – составил списочек,

прошёлся списочком по сайту,

и всё – можно «баиньки».

Простота развеется, как майский дым, если мы вспомним, что роботов много, что все они разные, и самое главное – что все роботы ходят по ссылкам. А сей час, представим себе стандартную ситуацию, которая случается в интернете миллионы раз на дню – поисковый робот пришёл на страницу по ссылке из другого сайта. Вот он, трудяга Сети – уже стоит у ворот (у заголовка) странички. Ну, и где теперь файл robots.txt?

У робота, пришедшего на сайт по внешней ссылке, выбор не большой. Робот может, либо лично «протопать» к файлу robots.txt и свериться с ним, либо просто скачать страницу себе в кэш и уже потом разбираться – индексировать её или нет.

Как поступит наш герой, мы не знает. Это коммерческая тайна каждой поисковой системы. Несомненно, одно. Если в заголовке страницы будет указан метатег robots – поисковик выполнит его немедля. И, если этот метатег запрещает индексирование страницы – робот уйдёт немедля и без раздумий.

code is art

META ROBOTS или robots.txt?

Существует два метода донести до поисковика, какие страницы следует индексировать, а какие нет — это использование « meta тега robots » или создание файла «robots.txt». Так какой же из методов лучше использовать для запрета индексации определенных страниц сайта? В каких случаях и почему необходимо запрещать индексировать некоторые страницы сайта?

Запрет индексации с помощью файла «robots.txt»

Один из вариантов, как это можно сделать — использовать файл «robots.txt». Ниже приведен пример этого файла:

Директива «User-agent»

Как видите, файл содержит обращение к конкретному агенту поисковика через директиву « User-agent». Используя ее, Вы, скажем, можете разрешить одному поисковику индексировать сайт, а другому нет. Или же разрешить индексировать разным поисковым системам разные страницы сайта. Так же можно обратиться сразу ко всем агентам поисковых систем указав в качестве значения для директивы « User-agent» символ «*». Таким образом поисковой агент, прочитав файл «robots.txt» и не найдя в нем указаний для себя, будет искать правила, описанные для « User-agent: *».

Ниже приведен список некоторых « User-agent» для разных поисковых систем:

  • «Yandex» — агент поисковика «Яндекс».
  • «Googlebot» — агент поисковика «Google».
  • «Googlebot-Mobile» — агент поисковика «Google», сканирует страницы для включения в индекс для мобильных устройств.
  • «Googlebot-Image» — агент поисковика «Google», сканирует страницы для индекса картинок.
  • «Mediapartners-Google» — агент поисковика «Google», сканирует страницы для определения содержания «AdSense».
  • «Adsbot-Google» — агент поисковика «Google», сканирует страницы, оценивая качество целевых страниц для «AdWords».
  • «StackRambler» — агент поисковика «Rambler».

Директива «Disallow»

Директива « Disallow» указывает поисковому агенту, какие разделы сайта запрещены для индексации. Используя директивы « User-agent» и « Disallow» можно запретить определенной поисковой системе индексировать Ваш сайт. Вот так, например можно запретить «Google» индексировать полностью весь сайт:

А следующим образом можно закрыть сайт для индексации всем поисковым системам:

В директиве « Disallow» следует указывать каталоги сайта, которые необходимо закрыть от индексации. Например, администратор сайта не хочет, чтобы индексировалась PDA версия сайта, расположенная по адресу www.example.ru/pda/ . Это можно сделать следующим образом:

Таким образом, мы закроем оба раздела от индексирования для всех поисковых систем.
Побочным эффектом последнего метода может стать то, что Disallow: /pda запретит индексацию так же таких страниц, как /pda.html , /pda-download.html и т. д., т. е. всех страниц, которые начинаются с pda и лежат к корневой директории сайта.

Следующий код не запрещает ничего, т. е. разрешает индексировать все страницы сайта для всех поисковых систем:

Обратная по смыслу директиве « Disallow» является директива « Allow». « Allow» разрешает индексировать указанный в ней раздел сайта. Допустим нам нужно запретить индексирование всего сайта, за исключением раздела /info/ . В этом случае нам не нужно перечислять все остальные разделы в директивах « Disallow», чтобы закрыть их от индексации. Правильным решением будет следующий код:

Таким образом мы разрешили всем поисковым системам индексировать раздел сайта /info/ , но запретили индексировать все остальные разделы.

Директива «Host»

Директива « Host» определяет основной адрес сайта. Это актуально в случае, если Ваш сайт имеет несколько зеркал. Указав в директиве « Host» основное зеркало, Вы поможете поисковику сделать правильный выбор. Директива « Host» для одного « User-agent» может быть только одна.

Директива «Sitemap»

Директива « Sitemap» указывает поисковому агенту расположение файла карты сайта «sitemap.xml». Это поможет поисковику быстрее найти файл карты сайта. В случае, если на Вашем сайте используется несколько карт, то их можно указать следующим образом:

Проверить, правильно ли составлен файл «robots.txt» можно с помощью специальной службы «Яндекса».

Часто возникает заблуждение, что файл «robots.txt» помогает индексировать Ваш сайт. Оно ошибочно. С помощью файла «robots.txt» можно дать поисковику больше времени на индексацию полезных разделов Вашего сайта, но он не дает никакой гарантии, что Ваш сайт будет проиндексирован.

Теперь, ниже постараюсь описать использование « meta тега robots ».

Запрет индексации с помощью « meta тега robots »

Итак, второй способ запретить поисковым системам индексировать страницы сайта — это использовать « META тега ROBOTS ». Пример использования:

В данном случае, страница будет закрыта для индексирования поисковыми системами.

Допустим, у Вас на сайте имеется возможность в администраторском разделе выбирать страницы или категории, индексирование которых требуется запретить. Можно программно создать алгоритм, который при генерации XHTML-шаблона страницы будет втавлять в код « meta тег robots ». Теоретически, подобную технику можно реализовать и использованием файла файл «robots.txt», но сложность заключается в том, что каждый раз нужно будет пересобирать файл заново, в то время, как при использовани « meta тега robots », его нужно только вставить в код нужной Вам страницы. Так же, с помощью « meta тега robots » невозможно обратиться к определеной поисковой системе.

Примеры использования « meta тега robots »

noidex,nofollow

Самый распространенный случай, это когда требуется запретить индексировать страницы, а так же не следовать ссылкам, расположенным на ней. Вот каким кодом это можно организовать:

noindex,follow

В случае, если требуется запретить индексирование, но разрешить передачу ссылочного веса ссылкам на странице:

В случае, если требуется разрешить индексирование страницы, без передачи ссылочного веса ссылкам:

index,nofollow

Так же можно комбинировать использование файла «robots.txt» с « meta тегом robots ». Это может дать некоторые преимущества. Вопервых, это двойная гарантия, что нужная станица не будет проиндексирована, хотя ничто не может помешать поисковому роботу проигнорировать как файл, так и META тег, и получить содержание страницы, но это так, к слову.

« meta тег robots » имеет преимущество перед файлом «robots.txt», при условии, что в файле индексирование разрешено, а в meta теге запрещено. Таким образом, можно, например, запрещать индексацию методом исключений.

В общем, вроде бы все, что хотел рассказать по поводу запрета индексирования страниц поисковыми системами. Может быть, в ближайшем времени напишу статью, каким образом можно программно генерировать файл « robots.txt» при каждом запросе к нему, а так же опишу плюсы и минусы данного метода.

Control your index

Похожие темы

Подписаться на обновления блога

Вам понравился наш блог, хотите следить за обновлениями? Подпишитесь на RSS рассылку или рассылку по электронной почте. Так же вы можете следить за нами в Twitter.

Комментарии (16)

  1. Прохожий/ 08.10.2008 в 19:35

Сасибо за пост.
Самое внятное и доходчивое обяснение работы robot.txt что смог найти в сети.

спасибо! очень подробно описано!

а кто нибудь знает сервис который бы проверял сайт и выдавал информацию о том что заблокировано в robots.txt и meta ? типа — ввёл адрес и тебе выдало что и как доступно а что нет..

Тест robots.txt возможен из инструментов для вебмастеров, как гугла, так и яндекса. Вводите интересующий вас URL, и вам будет выдано, доступен он или нет в данной поисковой системе.

Nikon. Ты что не был в панельки wmconsole яндекса? Потом проверка роботса и тама как раз всё для тебя)) Спс, за мета теги, надо будит на блоке выложить обработаную статейку. ТС +1

Что будет обозначать такая надпись в файле robots.txt:

User-agent: Mediapartners-Google*
Disallow:

User-Agent: *
Disallow:
Host: http://www.имя сайта.ru

Смысла нету, т.к. вы и так ничего не запрещаете индексировать.

Спасибо! Всё просто и доступно.

Есть ли у вас статья про ? Если есть, то вышлите, плиз, ссылку.

в первом посте я справшивал про тег — NOINDEX. Я его обрамил скобками и его вырезало из поста…:)

Хм, да вроде бы тут практически вся информация по этому тегу, больше чет мне даже в голову не приходит, что добавить


Я имел в виду не опцию NOINDEX в META — ROBOTS, а отдельный тег.

Например (не знаю, пропустит ли ваш валидатор ссылки):

Инфы как бы хватает, просто, поскольку однозначного мнения нет, то хотел узнать ещё ваше.

В любом случае спасибо.

Директива HOST зобретение Яндекса, ее лучше в роботс.тхт вставлять один раз и то, после всего описания дыбы не смущать другие поисковики.

У меня блог на бесплатном хосте, к файлу роботс — доступа нет, могу лишь мета тегами управлять доступ. Возможно ли мета тегом запретить индексацию всего блога лишь для яндекса??
мне это очень важно, потому что яндекс очень портит статистику.

Спасибо! Только здесь нашла ответы на все свои вопросы и избавилась от разных сомнений по поводу robots.txt и Robots Meta

А как быть в таком случае:
У меня адрес сайта имеет следующи й вид ссылок
урл сайта/?article=17
в последнее время начали появляться дубли вида урл сайта/index.php?article=17
по сути эта ссылка ведет на такуюже статью.
как запретить такой урл
если я запрещу к индексации index.php то проиндексируются ли нормальные урлы?

Привет! У тебя классный блог, я тоже недавно запустил проект и возник вопрос, как закрыть от индексации http://сайт.ру/2014/12 именно ети архивы в robots прописываю Disallow: 2014, проверяю — разрешен, подскажи как эту страницу с помощью
Feibel63/ 15.11.2015 в 14:51

Создание векторных иллюстраций. Веб-маркетинг, продвижение и поисковая оптимизация сайтов. Торрент вообще не качается (.). Сайт производителя только зарегистрированные пользователи. Веб-маркетинг, продвижение и поисковая оптимизация сайтов. Классическая анимация и создание баннеров (2011) 06. Интернет-маркетинг, продвижение и поисковая оптимизация сайтов (seo) (2014) 169. Продвижение и поисковая оптимизация. Маркетинг,продвижение и. И сайтов.
Торрент специалист интернет-маркетинг,продвижение и поисковая оптимизация сайтов (seo). Маркетинг, продвижение и. Продвижение иоптимизация сайтов. Интернет-рекламы и website positioning. Оптимизация сайтов (search engine optimisation). Маркетинг, продвижение и.интернет рынок и. Продвижение и поисковая оптимизация сайтов (search engine optimization).маркетинг, продвижение и. Как работает интернет продвижение и. Сайтов. Seoоптимизация. И продвижение сайтов. Создание сайта какой вид деятельности Продвижение и поисковая оптимизация сайтов (search engine optimisation). Вкурсе интернет-маркетинг,. И поисковая оптимизация. Интернет рекламы и seo.маркетинг, продвижение и.
Проходит время — 6-12 месяцев и более — допустим, часть слов вышло в лидеры, прошло еще время в общем, годы, Вы продвигаетесь по этим же фразам, их количество не меняется, то есть, Вы всё стараетесь продвинуть сайт под то же количество слов, на которое договаривались изначально, search engine optimisation сайта делается по одному и тому же количеству ключевиков.

Ашманов и Иванов выбрали достаточно интересную стилистику повествования. Они рассматривают WEBSITE POSITIONING как настоящую науку с огромной степенью подробности. Именно поэтому можно смело сказать, что данная работа является фундаментальной. Здесь рассмотрена работа поисковых машин, спорные методы продвижения сайтов, системы аналитики, внутренние факторы, от которых зависит положение сайта в поиске, методы оценки продвижения, анализ поискового спроса и многое другое.
Мы не просто приводим посетителей на ваш сайт. Мы привлекаем новых клиентов и продажи для вашего бизнеса. По сути, на вас работает команда аналитиков и оптимизаторов. А еще — стратегия оптимизации, разработанная в соответствии с вашими целями и задачами. Вам не нужно ждать результатов годами — мы финансово гарантируем вывод сайта в ТОП. Всего за 6 месяцев. Если же за это время единичные позиции не выйдут в ТОП, платить за них не придется (!). Впрочем, оптимизация сайта по ключевым словам — лишь один из используемых методов продвижения в ТОП (собственные гарантии предоставляются по каждому из них).
Раскрутка и правильное продвижение сайта в интернет — самый эффективный инструмент увеличения продаж и расширения бизнеса. Продвижение сайта в интернет дает возможность донести Ваши предложения до большего количества потенциальных клиентов. Раскрутить сайт фирмы означает увеличить продажи, количество клиентов и расширить свой бизнес, используя один из самых дешевых и эффективных инструментов завоевания рынка. Раскрутка и продвижение бизнеса в интернет обходится намного дешевле, чем традиционные методы продвижения бизнеса. Ваша собственная рекламная площадка — лучший антикризисный инструмент!

Хотите научиться фотографировать и обрабатывать цифровые фото? — Сделайте сразу два шага к высотам мастерства! Оплатите « Курс успешной любительской фотосъемки. Уровень 1 » + курс « Adobe Photoshop CS5. Уровень 1. Растровая графика для начинающих » и получите в подарок запись вебинара по курсу «Adobe Photoshop CS5. Уровень 1. Растровая графика для начинающих».
Юрий Евгеньевич имеет огромный опыт работы в качестве дизайнера, net-разработчика и преподавателя. Первым в России получил статусы Adobe Certified Expert, Adobe Licensed Instructor, Corel Licensed Expert, Corel Licensed Teacher. Принимал участие в различных зарубежных конференциях и тренингах, например, в знаменитой международной конференции Adobe MAX 2007 (Барселона). Также Юрий Евгеньевич в качестве преподавателя Центра участвовал в тренинге Quark Corporation в Лондоне в 2008 году, где был единственным представителем не только России, но и всей Восточной Европы.
Профессиональный и педагогический опыт Николая Михайлович поистине огромен. Он занимался консультированием специалистов технического отдела по подготовке к сдаче тестов А+ Certification Комбелга-Голден Телеком. С 1979 года он преподавал на кафедре в МГТУ им. Н.Э. Баумана, вел курсовое и дипломное проектирование. С 1992 года он стал преподавать в «Специалисте».

Не для кого не секрет, что интернет бизнес уже давно перестал быть только виртуальным, потому что деньги в нем крутятся самый что ни на есть реальные, и очень большие. Поэтому в интернете находят себе место как и крупные игроки, которые продвигают свои услуги или товары, так мелкие частные рабочие, которые работают не на кого-то, а только для себя и в свое удовольствие.
Так как оптимизация сайтов под поисковые запросы — это сложный процесс, то она даст ожидаемый результат лишь в том случае, если во время ее проведения будет учтено множество факторов, касающихся не только конкретного проекта, но и Мировой Сети в целом, например, постоянно изменяющиеся алгоритмы поисковых систем. Поэтому, чтобы поисковая оптимизация сайта оправдала ожидания, доверять эту работу лучше профессионалам с проверенной репутацией. Цена ошибки при выборе некомпетентной компании велика, ведь это не что иное, как ваша прибыль! Мы же знаем, как оптимизировать сайт под поисковые системы и уверяем, что поисковая оптимизация сайта способна значительно увеличить число посетителей вашего сайта.
Сколько это стоит? Единой ставки не существует. Стоимость поисковой оптимизации сайта варьируется в зависимости от того, насколько уже оптимизирован данный сайт и какие позиции он имеет в поисковых системах по целевым запросам. На основе этого фактора и уровня желаемого результата рассчитывается цена оптимизации и дальнейшего продвижения сайта. То есть, она зависит от объема работы, который необходимо выполнить, чтобы оптимизировать сайт до необходимого уровня.

Управляем индексацией с помощью Noindex Nofollow и других примочек

Когда нужно запретить индексацию целой категории или ряда страниц, это легче сделать с помощью правильного robots.txt. Но как быть, если требуется закрыть от индексации одну страницу либо вообще часть текста на странице? Поговорим сейчас об элементах, которые призваны решать именно эту проблему.

Что такое мета тег Robots

Сначала уясним, что есть мета тег Robots, а есть файл Robots.txt, и путать их не будем. Метатег имеет отношение только к одной html странице (на которой он указан), в то время, как файл txt может содержать директивы не только к странице, но к целым каталогам.

При помощи мета тега Robots можно запрещать индексировать содержимое всей страницы. На страницах моего блога он выглядит так:

Это означает, что метатег роботс не запрещает индексировать страницу. Noodp тут означает, что он запрещает Google брать в сниппеты описание для страниц из каталога DMOZ — это одна из стандартных настроек плагина Yoast SEO, которым я пользуюсь.

А вот как выглядит метатег Robots, который запрещает индексацию страницы:

Как прописать

Дедовский способ — вручную прописать для страницы. Способ подходит для сайтов на чистом HTML.

Для сайтов на CMS рекомендую использовать SEO-плагины. Я, например, для WordPress использую плагин Yoast SEO, и там под каждой записью в режиме редактирования есть такая опция:

То есть проставить нужное значение можно парой щелчков.

Как использовать noindex и nofollow в meta robots

Посмотрим на возможные значения атрибута content:

  • noindex, nofollow – запрещена к индексации вся страница и переходы по ссылкам на ней; кстати, идентичной будет значение при записи:
  • noindex, follow – страница не индексируется, но поисковик может переходить по ссылкам;
  • index, nofollow – страница индексируется, но переход по ссылкам запрещен;
  • index, follow – разрешены к индексированию как страница, так и ссылки на ней;
  • noarchive – работает как в yandex, так и в google – не показывает страницу на сохраненную копию;
  • noyaca – работает только в Яндексе, если сайт зарегистрирован в каталоге YACA – запрещает использовать описание в результатах поиска, которое берется из Яндекс.Каталога; выглядит так:
  • noodp – работает и в Яндексе, и в Google – запрещает использовать в результатах описания, которые взяты из Каталога ДМОЗ (разумеется, если сайт там зарегистрирован).

Поговорим чуть больше о noodp

Иногда Гугл может добавлять в сниппет описание из DMOZ. Именно для этого и используется атрибут noodp. Кстати, его можно использовать вместе с тегом nofollow. Выглядит это так:

X-Robots-Tag в HTTP заголовках: всё, что вам нужно знать

Существует несколько типов директив, которые сообщают поисковым роботам, какие страницы они могут сканировать. Наиболее часто упоминаемыми являются файл robots.txt и тег meta robots.

Файл robots.txt говорит поисковым системам сканировать определенную часть вашего сайта, будь то страница, подпапка и т.д.

Это помогает оптимизировать сканирование, сообщая роботам, какие части сайта являются недостаточно важными, чтобы быть в приоритете сканирования.

Имейте в виду, что роботы поисковых систем не обязаны следовать этому файлу.

Другая часто применяемая директива – это тег meta robots. Он позволяет контролировать индексацию на уровне страницы.

Метатег robots может иметь следующие значения:

  • Index: позволяет поисковым системам добавлять страницу в свой индекс.
  • Noindex: запрещает поисковым системам добавлять страницу в свой индекс и запрещает ей появляться в результатах поиска для этой конкретной поисковой системы.
  • Follow: указывает роботам переходить по ссылкам на странице, чтобы те могли найти другие страницы.
  • Nofollow: указывает поисковым системам не переходить по ссылкам на странице.
  • None: это сокращение для noindex, nofollow.
  • All: это сокращение для index, follow.
  • Noimageindex: запрещает поисковым системам индексировать изображения на странице (изображения все еще могут индексироваться с помощью мета-тега robots, если они связаны с другим сайтом).
  • Noarchive: говорит поисковым системам не показывать кэшированную версию страницы.
  • Nocache: это то же самое, что и тег noarchive, но относится только к Bingbot / MSNbot.
  • Nosnippet: указывает поисковым системам не отображать текстовые или видео сниппеты.
  • Notranslate: говорит поисковым системам не показывать переводы страниц в поисковой выдаче.
  • Unavailable_after: сообщает поисковым системам конкретный день и время, когда они не должны отображать результат в своем индексе.
  • Noyaca: указывает поисковым роботам Яндекса не использовать мета-описания страниц в результатах поиска.

Тем не менее, есть еще один тег, который позволяет указывать директивы noindex и nofollow.

Тег X-Robots отличается от файла robots.txt и метатега robots тем, что он является частью HTTP заголовка, который управляет индексацией страницы в целом, в дополнение к определённым элементам на странице.

Google: Любая директива, которая может использоваться в метатеге robots, может быть указана как X-Robots-Tag.

Хотя вы можете установить директивы, связанные с robots.txt, в HTTP заголовок как с помощью метатега robots, так и с помощью тега X-Robots, существуют определенные ситуации, когда вы захотите использовать именно тег X-Robots.

Например, если вы хотите заблокировать определенное изображение или видео, вы можете использовать метод блокировки c HTTP.

Cила тега X-Robots заключается в том, что он гораздо более гибкий, чем метатег robots.

Также можно использовать регулярные выражения, прописывая директивы сканирования для файлов, отличных от HTML, а также изменяя параметры на глобальном уровне. Чтобы объяснить разницу между всеми этими директивами, нужно классифицировать их по типам, к которым они относятся.

  1. nofollow (Яндекс & Google)
    1. rel=»nofollow» – не переходить по ссылке
    2. content=»nofollow» – не переходить по всем ссылкам
    3. Действие rel=»nofollow» и content=»nofollow»
      на поисковых роботов Google и Яндекса
  2. noindex – не индексировать текст
    (тег и значение только для Яндекса)
    1. – не признанное изобретение Яндекса» href=»http://tehnopost.info/59-noindex-i-nofollow.html#noindex_no_valide»>Тег – не признанное изобретение Яндекса
    2. » href=»http://tehnopost.info/59-noindex-i-nofollow.html#noindex_deistvie»>Тег – не индексировать кусок текста
    3. Метатег noindex – не индексировать текст всей страницы
    4. Разница в действии тега и метатега noindex
    5. Особенности метатега noindex
    6. Тег и метатег noindex для Google
  3. Универсальный метатег (Яндекс & Google)
Директивы поискового робота Директивы индексатора
Robots.txt использует директивы user agent, allow, disallow и sitemap для указания того, каким поисковым роботам разрешено или запрещено сканировать те или иные части сайта. Метатег Robots позволяет указать и запретить поисковым системам показывать определенные страницы сайта в результатах поиска. Nofollow позволяет указывать ссылки, которые не должны передавать PageRank. Тег X-Robots позволяет вам контролировать то, как индексируются определенные типы файлов.

Реальные примеры использования X-Robots-Tag

Чтобы заблокировать определенные типы файлов, идеальным решением было бы добавить тег X-Robots в конфигурацию Apache или файл .htaccess.

X-Robots-Tag можно добавить к HTTP-ответам сайта в конфигурации сервера Apache через файл .htaccess.

Допустим, мы хотим, чтобы поисковые системы не индексировали тип файла .pdf. Эта конфигурация на серверах Apache будет выглядеть примерно так:

В Nginx это будет выглядеть так:

Или, допустим, мы хотим использовать X-Robots-Tag для блокировки индексации изображений, таких как .jpg, .gif, .png и т.д. Это будет выглядеть следующим образом:

Понимание сочетания этих директив и их влияния друг на друга имеет огромное значение.

Предположим, что когда поисковые роботы изучают URL, там присутствует как X-Robots-Tag, так и Meta Robots.

Если этот URL заблокирован из robots.txt, то определенные директивы индексирования не могут быть обнаружены и не будут выполняться.

Если директивы должны выполняться, то страницы, которые их содержат, не должны быть закрыты от сканирования.

Проверьте наличие X-Robots-Tag

Есть несколько разных методов, которые можно использовать для проверки наличия X-Robots-Tag на сайте. Один из методов – использовать Screaming Frog.

После проверки сайта с помощью Screaming Frog, вы можете перейти на вкладку «Директивы», найти столбец «X-Robots-Tag» и посмотреть, какие разделы сайта используют этот тег и какие именно директивы.

Существует несколько различных плагинов, таких как Web Developer, которые позволяют вам определить, используется ли тег X-Robots.

Нажав на плагин в вашем браузере, а затем перейдя в «Просмотр заголовков», вы можете увидеть различные используемые HTTP заголовки.

Итоги

Есть несколько способов проинструктировать роботов поисковых систем не сканировать определенные разделы или определенные ресурсы на странице.

Понимание каждого из них и того, как они влияют друг на друга, крайне важно, так как позволяет избежать серьезных ошибок в SEO при использовании директив.

Понравилась статья?

Изучите большой мануал по SEO продвижению сайтов своими руками и другие публикации:

Узнайте больше о том, как улучшить SEO или PPC вашего сайта, подписавшись на наш блог!

Мета тег Robots и файл Robots.txt – как управлять индексацией страниц сайта

Что такое мета тег Robots

К слову, нет единого написания слова «мета тег». Даже Яндекс и Google по разному их пишут в своих справочных материалах. Мета тег, Мета-тег и Метатег – все это одно слово и используется в сети одновременно. При этом в справке Яндекс он имеет написание Мета-тег, а в Google – Метатег. Давайте сначала разберемся, каким вообще бывает мета тег Robots. Независимо от того, указываете вы этот метатег или нет, его значение всегда — «all», что означает индексировать. Т.е. есть три «состояния» данного мета тега:


  1. Полное его отсутствие.
  • Значение index/noindex применяется только к тексту страницы.
  • Значение follow/nofollow применяется только к ссылкам на странице.

Вот в этом, а также в самом определении кроется одно значительное преимущество мета тега Robots перед одноименным файлом.

Если вы сравните оба определения, то увидите, что они, практически, одинаковые. Но при этом имеют небольшое различие.

Да, оба способа – создание файла или указание мета тега – одно и тоже, выполняют абсолютно одинаковые функции и обладают абсолютно одинаковой значимостью. Другими словами нельзя сказать, что одно важнее другого. Они абсолютно равнозначны. Но как уже сказала, в них есть некоторые различия.

Вообще метатеги были придуманы не в противовес файлу, а для облегчения жизни тем вебмастерам, которые не имеют доступа к корневым папкам своего сайта, как это, например, происходит на Blogger. Т.е. сами поисковики рекомендуют настраивать файл Robots.txt когда есть доступ к папкам сайта, если же такого доступа нет, то рекомендуется использовать метатег.

Преимущества файла Robots.txt перед мета тегом

На мой взгляд преимущество заключается в том, что в файле Robots.txt мы можем указывать целые каталоги своего сайта, запретить к индексации сразу все теги, рубрики и любые другие каталоги. При чем данный запрет выставляется единой строкой. Если же мы хотим запретить весь каталог, но при этом разрешить к индексации одну-две страницы, то так же в файле мы можем настроить исключения. Обо всем этом я писала в статье, на которую дала ссылку выше, поэтому сейчас кратко передаю суть.

Как же дела обстоят с мета тегом? Мета тег невозможно выставить один раз сразу всему каталогу, он устанавливается для каждой страницы в отдельности. Т.е. им удобно пользоваться тогда, когда на вашем сайте вы с каждой новой публикацией решаете, разрешать поисковому роботу индексировать данную страницу или нет.

Лично мне сложно представить такой сайт, где могло бы это понадобиться. Но факт остается фактом. Если вы не настраиваете файл Robots.txt, но при этом многие страницы закрываете от индексации, то каждый раз вам нужно быть начеку, чтобы не забыть закрыть страницу от индексации. Согласитесь, это неудобно.

Если вы свободны от такой рутины, то всегда значительно удобней и проще настроить один раз и навсегда файл Robots.txt и больше об этом не думать.

Преимущества мета тега Robots перед файлом или, когда лучше использовать мета тег

Я уже обратила ваше внимание на то, что мета тег можно выставлять каждой отдельной странице, так же значительное преимущество нам могут дать разные команды index/noindex и follow/nofollow, которые можно применять в мета теге, и при определенных обстоятельствах все это является большим преимуществом перед файлом.

Ситуация 1. Вы публикуете неуникальный контент. Не обязательно это должен быть копипаст (ворованный контент), это могут быть какие-то официальные документы, законодательные акты, статьи кодексов, т.е. любые материалы, которые создадут на вашем сайте большое количество неуникального контента, при этом страницы с неуникальным контентом не имеют отдельного каталога, а размещаются в вперемешку с основным контентом. Такие страницы вы можете запретить к индексации, как полностью, указав мета тег

Мета-тег robots и его роль в правильной индексации сайта

Мета-тег robots поможет найти общий язык с поисковыми роботами

Даже не зная, зачем нужен мета-тег robots, только исходя из его названия, уже можно сделать выводы о том, что он имеет какое-то отношение к роботам поисковых систем. И это действительно так.

Внедрение мета-тега robots в код веб-страницы дает возможность указать поисковым ботам свои пожелания по поводу индексирования ее содержимого и ссылок, расположенных на ней.

Это может пригодится в многих ситуациях. Например, при наличии на сайте дублирования контента или для предотвращения передачи веса страничек по ссылкам, расположенным на них.

Как воспользоваться возможностями мета-тега robots

Страница, к которой нужно применить желаемые условия индексирования, должна содержать внутри тега своего html-кода правильно оформленный мета-тег robots.

Структура его довольно проста:

Чтобы он был правильно воспринят ботами поисковиков, в данной конструкции содержимое атрибута content (‘’ххххххххх’’) должно состоять из одной или нескольких (через запятую) стандартных директив:

  1. index/noindex – указывает на необходимость индексации/игнорирования содержимого страницы.
  2. follow/nofollow – анализировать/игнорировать ссылки в пределах веб-страницы.
  3. all/none – индексировать/игнорировать страницу полностью.
  4. noimageindex – запрет индексации присутствующих на странице изображений.
  5. noarchive – запрет на вывод в результатах поиска ссылки «Сохраненная копия», которая дает возможность просматривать сохраненную в кэше поисковика копию страницы (даже если она временно недоступна или удалена с сайта).
  6. nosnippet – запрет на вывод в поисковой выдаче под названием страницы фрагмента текста (сниппета), описывающего ее содержание.
  7. noodp – директива, которая сообщает Google-боту о запрете использования в качестве сниппета страницы, описания из каталога Open Directory Project (он же DMOZ).

Особенности использования мета-тега robots

Некоторые поддерживаемый этим мета-тегом комбинации директив взаимозаменяемы (тождественны). Например, если нужно запретить индексирование содержимого странички и всех ссылок на ней, можно использовать в мета-теге robots ‘’noindex, nofollow’’ или же директиву ‘’none’’.

В обратном случае, когда нужно индексировать всё (в параметре content мета-тега robots – ‘’index, follow’’ или ‘’all’’), появляется еще и третий вариант – вообще не внедрять этот тег в код страницы.

Бывают и частные случаи, в которых указания по поводу индексирования нужно сообщить только роботу какой-нибудь одной поисковой системы. Для этого нужно вместо ‘’robots’’ указать имя бота, которого касаются содержащиеся в мета-теге директивы. Например, если Google должен внести в свой индекс содержимое странички, но при этом не анализировать ссылки на ней:

Важно, чтобы в содержимом атрибута content не было повторений или присутствия противоречащих друг другу директив, поскольку в этом случае мета-тег может быть проигнорирован поисковым ботом.

Еще один момент, на почве которого довольно часто спорят веб-мастера – регистр, в котором прописывается содержимое мета-тега. Одни считают, что правильно использовать только прописные, другие – только строчные. Но на самом деле приемлемы оба варианта, поскольку мета-тег нечувствителен к регистру.

Зачем нужен мета-тег robots, если есть файл robots.txt?

Да, действительно на первый взгляд может показаться, что применение этого мета-тега предоставляет те же возможности, что и настройка файла robots.txt. Но несколько отличий все же есть. И они вполне могут быть причинами, чтобы отдать предпочтение использованию мета-тега:

    Мета-тег robots используется для более тонкой настройки индексации – можно закрыть контент, но оставить открытыми ссылки (в параметре content мета-тега robots – ‘’noindex, follow’’) и наоборот. В robots.txt такой возможности нет.

  • В ситуациях, когда нет возможности получить доступ к корневой директории веб-сайта, редактировать robots.txt не представляется возможным. Вот тогда-то и приходит на помощь одноименный мета-тег.
  • В robots.txt можно закрыть от индексации целый каталог, чтобы запретить доступ ботов ко всем, содержащимся в нем страницам, тогда как мета-тег придется использовать для каждой из них. Получается, что в таком случае удобнее произвести настройки в файле. Но если некоторые страницы внутри каталога все же нужно оставить открытыми, удобнее использовать мета-тег.
  • Для управления индексацией страниц веб-сайта допустимо одновременно использовать мета-тег robots и файл robots.txt. Они могут отвечать за указания поисковым ботам по поводу разных веб-страниц или же дублировать команды друг друга.

    А вот если в них будут присутствовать противоречащие директивы по поводу одних и тех же страниц, роботы поисковиков будут принимать не всегда верное решение – по умолчанию выбирается более строгое указание. Получается, что страницы (или ссылки на них), по поводу которых между robots.txt и мета-тегом robots имеются разногласия, индексироваться не будут.

    Возможность управления индексацией веб-сайта – очень полезный инструмент для SEO-продвижения. Главное, научиться правильно определять, в какой ситуации эффективнее использовать тот или иной из теперь известных Вам способов.

    Файл robots.txt и мета-тег robots — настройка индексации сайта Яндексом и Гуглом, правильный роботс и его проверка

    При самостоятельном продвижении и раскрутке сайта важно не только создание уникального контента или подбор запросов в статистике Яндекса, но и так же следует уделять должное внимание такому показателю, как индексация ресурса поисковиками, ибо от этого тоже зависит весь дальнейший успех продвижения.

    У нас с вами имеются в распоряжении два набора инструментов, с помощью которых мы можем управлять этим процессом как бы с двух сторон. Во-первых, существует такой важный инструмент как карта сайта (Sitemap xml). Она говорит поисковикам о том, какие страницы сайта подлежат индексации и как давно они обновлялись.

    А, во-вторых, это, конечно же, файл robots.txt и похожий на него по названию мета-тег роботс, которые помогают нам запретить индексирование на сайте того, что не содержит основного контента (исключить файлы движка, запретить индексацию дублей контента), и именно о них и пойдет речь в этой статье.

    Индексация сайта

    Упомянутые выше инструменты очень важны для успешного развития вашего проекта, и это вовсе не голословное утверждение. В статье про Sitemap xml (см. ссылку выше) я приводил в пример результаты очень важного исследования по наиболее частым техническим ошибкам начинающих вебмастеров, там на втором и третьем месте (после не уникального контента) находятся как раз отсутствие этих файлов роботс и сайтмап, либо их неправильное составление и использование.

    Почему так важно управлять индексацией сайта

    Надо очень четко понимать, что при использовании CMS (движка) не все содержимое сайта должно быть доступно роботам поисковых систем. Почему?

    1. Ну, хотя бы потому, что, потратив время на индексацию файлов движка вашего сайта (а их может быть тысячи), робот поисковика до основного контента сможет добраться только спустя много времени. Дело в том, что он не будет сидеть на вашем ресурсе до тех пор, пока его полностью не занесет в индекс. Есть лимиты на число страниц и исчерпав их он уйдет на другой сайт. Адьес.
    2. Если не прописать определенные правила поведения в роботсе для этих ботов, то в индекс поисковиков попадет множество страниц, не имеющих отношения к значимому содержимому ресурса, а также может произойти многократное дублирование контента (по разным ссылкам будет доступен один и тот же, либо сильно пересекающийся контент), что поисковики не любят.

    Хорошим решением будет запрет всего лишнего в robots.txt (все буквы в названии должны быть в нижнем регистре — без заглавных букв). С его помощью мы сможем влиять на процесс индексации сайта Яндексом и Google. Представляет он из себя обычный текстовый файл, который вы сможете создать и в дальнейшем редактировать в любом текстовом редакторе (например, Notepad++).

    Поисковый бот будет искать этот файл в корневом каталоге вашего ресурса и если не найдет, то будет загонять в индекс все, до чего сможет дотянуться. Поэтому после написания требуемого роботса, его нужно сохранить в корневую папку, например, с помощью Ftp клиента Filezilla так, чтобы он был доступен к примеру по такому адресу:

    Кстати, если вы хотите узнать как выглядит этот файл у того или иного проекта в сети, то достаточно будет дописать к Урлу его главной страницы окончание вида /robots.txt . Это может быть полезно для понимания того, что в нем должно быть.

    Однако, при этом надо учитывать, что для разных движков этот файл будет выглядеть по-разному (папки движка, которые нужно запрещать индексировать, будут называться по-разному в разных CMS). Поэтому, если вы хотите определиться с лучшим вариантом роботса, допустим для Вордпресса, то и изучать нужно только блоги, построенные на этом движке (и желательно имеющие приличный поисковый трафик).

    Как можно запретить индексацию отдельных частей сайта и контента?

    Прежде чем углубляться в детали написания правильного файла robots.txt для вашего сайта, забегу чуть вперед и скажу, что это лишь один из способов запрета индексации тех или иных страниц или разделов вебсайта. Вообще их три:

    1. Роботс.тхт — самый высокоуровневый способ, ибо позволяет задать правила индексации для всего сайта целиком (как его отдельный страниц, так и целых каталогов). Он является полностью валидным методом, поддерживаемым всеми поисковиками и другими ботами живущими в сети. Но его директивы вовсе не являются обязательными для исполнения. Например, Гугл не шибко смотрит на запреты в robots.tx — для него авторитетнее одноименный мета-тег рассмотренный ниже.
    2. Мета-тег robots — имеет влияние только на страницу, где он прописан. В нем можно запретить индексацию и переход робота по находящимся в этом документе ссылкам (подробнее смотрите ниже). Он тоже является полностью валидным и поисковики будут стараться учитывать указанные в нем значения. Для Гугла, как я уже упоминал, этот метод имеет больший вес, чем файлик роботса в корне сайта.
    3. Тег Noindex и атрибут rel=»nofollow» — самый низкоуровневый способ влияния на индексацию. Они позволяют закрыть от индексации отдельные фрагменты текста (noindex) и не учитывать вес передаваемый по ссылке. Они не валидны (их нет в стандартах). Как именно их учитывают поисковики и учитывают ли вообще — большой вопрос и предмет долгих споров (кто знает наверняка — тот молчит и пользуется).

    Важно понимать, что даже «стандарт» (валидные директивы robots.txt и одноименного мета-тега) являются необязательным к исполнению. Если робот «вежливый», то он будет следовать заданным вами правилам. Но вряд ли вы сможете при помощи такого метода запретить доступ к части сайта роботам, ворующим у вас контент или сканирующим сайт по другим причинам.

    Вообще, роботов (ботов, пауков, краулеров) существует множество. Какие-то из них индексируют контент (как например, боты поисковых систем или воришек). Есть боты проверяющие ссылки, обновления, зеркалирование, проверяющие микроразметку и т.д. Смотрите сколько роботов есть только у Яндекса.

    Большинство роботов хорошо спроектированы и не создают каких-либо проблем для владельцев сайтов. Но если бот написан дилетантом или «что-то пошло не так», то он может создавать существенную нагрузку на сайт, который он обходит. Кстати, пауки вовсе на заходят на сервер подобно вирусам — они просто запрашивают нужные им страницы удаленно (по сути это аналоги браузеров, но без функции просмотра страниц).

    Robots.txt — директива user-agent и боты поисковых систем

    Роботс.тхт имеет совсем не сложный синтаксис, который очень подробно описан, например, в хелпе яндекса и хелпе Гугла. Обычно в нем указывается, для какого поискового бота предназначены описанные ниже директивы: имя бота (‘User-agent‘), разрешающие (‘Allow‘) и запрещающие (‘Disallow‘), а также еще активно используется ‘Sitemap’ для указания поисковикам, где именно находится файл карты.

    Стандарт создавался довольно давно и что-то было добавлено уже позже. Есть директивы и правила оформления, которые будут понятны только роботами определенных поисковых систем. В рунете интерес представляют в основном только Яндекс и Гугл, а значит именно с их хелпами по составлению robots.txt следует ознакомиться особо детально (ссылки я привел в предыдущем абзаце).

    Например, раньше для поисковой системы Яндекс было полезным указать, какое из зеркал вашего вебпроекта является главным в специальной директиве ‘Host’, которую понимает только этот поисковик (ну, еще и Майл.ру, ибо у них поиск от Яндекса). Правда, в начале 2020 Яндекс все же отменил Host и теперь ее функции как и у других поисковиков выполняет 301-редирект.

    Если даже у вашего ресурса нет зеркал, то полезно будет указать, какой из вариантов написания является главным — с www или без него.

    Теперь поговорим немного о синтаксисе этого файла. Директивы в robots.txt имеют следующий вид:

    Правильный код должен содержать хотя бы одну директиву «Disallow» после каждой записи «User-agent». Пустой файл предполагает разрешение на индексирование всего сайта.

    User-agent

    Директива «User-agent» должна содержать название поискового бота. При помощи нее можно настроить правила поведения для каждого конкретного поисковика (например, создать запрет индексации отдельной папки только для Яндекса). Пример написания «User-agent», адресованной всем ботам зашедшим на ваш ресурс, выглядит так:

    Если вы хотите в «User-agent» задать определенные условия только для какого-то одного бота, например, Яндекса, то нужно написать так:

    Название роботов поисковых систем и их роль в файле robots.txt

    Бот каждой поисковой системы имеет своё название (например, для рамблера это StackRambler). Здесь я приведу список самых известных из них:

    У крупных поисковых систем иногда, кроме основных ботов, имеются также отдельные экземпляры для индексации блогов, новостей, изображений и т.д. Много информации по разновидностям ботов вы можете почерпнуть тут (для Яндекса) и тут (для Google).

    Как быть в этом случае? Если нужно написать правило запрета индексации, которое должны выполнить все типы роботов Гугла, то используйте название Googlebot и все остальные пауки этого поисковика тоже послушаются. Однако, можно запрет давать только, например, на индексацию картинок, указав в качестве User-agent бота Googlebot-Image. Сейчас это не очень понятно, но на примерах, я думаю, будет проще.

    Примеры использования директив Disallow и Allow в роботс.тхт

    Приведу несколько простых примеров использования директив с объяснением его действий.

    1. Приведенный ниже код разрешает всем ботам (на это указывает звездочка в User-agent) проводить индексацию всего содержимого без каких-либо исключений. Это задается пустой директивой Disallow.
    2. Следующий код, напротив, полностью запрещает всем поисковикам добавлять в индекс страницы этого ресурса. Устанавливает это Disallow с «/» в поле значения.
    3. В этом случае будет запрещаться всем ботам просматривать содержимое каталога /image/ (http://mysite.ru/image/ — абсолютный путь к этому каталогу)
    4. Чтобы заблокировать один файл, достаточно будет прописать его абсолютный путь до него (читайте про абсолютные и относительные пути по ссылке):

    Забегая чуть вперед скажу, что проще использовать символ звездочки (*), чтобы не писать полный путь:

  • В приведенном ниже примере будут запрещены директория «image», а также все файлы и директории, начинающиеся с символов «image», т. е. файлы: «image.htm», «images.htm», каталоги: «image», «images1», «image34» и т. д.): Дело в том, что по умолчанию в конце записи подразумевается звездочка, которая заменяет любые символы, в том числе и их отсутствие. Читайте об этом ниже.
  • С помощью директивы Allow мы разрешаем доступ. Хорошо дополняет Disallow. Например, таким вот условием поисковому роботу Яндекса мы запрещаем выкачивать (индексировать) все, кроме вебстраниц, адрес которых начинается с /cgi-bin:


    Ну, или такой вот очевидный пример использования связки Allow и Disallow:

  • При описании путей для директив Allow-Disallow можно использовать символы ‘*’ и ‘$’, задавая, таким образом, определенные логические выражения.
    1. Символ ‘*'(звездочка) означает любую (в том числе пустую) последовательность символов. Следующий пример запрещает всем поисковикам индексацию файлов с расширение «.php»:
    2. Зачем нужен на конце знак $ (доллара)? Дело в том, что по логике составления файла robots.txt, в конце каждой директивы как бы дописывается умолчательная звездочка (ее нет, но она как бы есть). Например мы пишем:

    Подразумевая, что это то же самое, что:

    Т.е. это правило запрещает индексацию всех файлов (вебстраниц, картинок и других типов файлов) адрес которых начинается с /images, а дальше следует все что угодно (см. пример выше). Так вот, символ $ просто отменяет эту умолчательную (непроставляемую) звездочку на конце. Например:

    Запрещает только индексацию файла /images, но не /images.html или /images/primer.html. Ну, а в первом примере мы запретили индексацию только файлов оканчивающихся на .php (имеющих такое расширение), чтобы ничего лишнего не зацепить:

    Во многих движках пользователи настраивают так называемые ЧПУ (человеко-понятные Урлы), в то время как Урлы, генерируемые системой, имеют знак вопроса ‘?’ в адресе. Этим можно воспользоваться и написать такое правило в robots.txt:

    Звездочка после вопросительного знака напрашивается, но она, как мы с вами выяснили чуть выше, уже подразумевается на конце. Таким образом мы запретим индексацию страниц поиска и прочих служебных страниц создаваемых движком, до которых может дотянуться поисковый робот. Лишним не будет, ибо знак вопроса чаще всего CMS используют как идентификатор сеанса, что может приводить к попаданию в индекс дублей страниц.

    Директивы Sitemap и Host (для Яндекса) в Robots.txt

    Во избежании возникновения неприятных проблем с зеркалами сайта, раньше рекомендовалось добавлять в robots.txt директиву Host, которая указывал боту Yandex на главное зеркало.

    Директива Host — указывает главное зеркало сайта для Яндекса

    Например, раньше, если вы еще не перешли на защищенный протокол, указывать в Host нужно было не полный Урл, а доменное имя (без http://, т.е. ktonanovenkogo.ru, а не https://ktonanovenkogo.ru). Если же уже перешли на https, то указывать нужно будет полный Урл (типа https://myhost.ru).

    Сейчас переезд сайта после отказа от директивы Host очень сильно упростился, ибо теперь не нужно ждать пока произойдет склейка зеркал по директиве Host для Яндекса, а можно сразу после настройки Https на сайте делать постраничный редирект с Http на Https.

    Напомню в качестве исторического экскурса, что по стандарту написания роботс.тхт за любой директивой User-agent должна сразу следовать хотя бы одна директива Disallow (пусть даже и пустая, ничего не запрещающая). Так же, наверное, имеется смысл прописывать Host для отдельного блока «User-agent: Yandex», а не для общего «User-agent: *», чтобы не сбивать с толку роботов других поисковиков, которые эту директиву не поддерживают:

    в зависимости от того, что для вас оптимальнее (с www или без), а так же в зависимости от протокола.

    Указываем или скрываем путь до карты сайта sitemap.xml в файле robots

    Директива Sitemap указывает на местоположение файла карты сайта (обычно он называется Sitemap.xml, но не всегда). В качестве параметра указывается путь к этому файлу, включая http:// (т.е. его Урл).Благодаря этому поисковый робот сможете без труда его найти. Например:

    Раньше файл карты сайта хранили в корне сайта, но сейчас многие его прячут внутри других директорий, чтобы ворам контента не давать удобный инструмент в руки. В этом случае путь до карты сайта лучше в роботс.тхт не указывать. Дело в том, что это можно с тем же успехом сделать через панели поисковых систем (Я.Вебмастер, Google.Вебмастер, панель Майл.ру), тем самым «не паля» его местонахождение.

    Местоположение директивы Sitemap в файле robots.txt не регламентируется, ибо она не обязана относиться к какому-то юзер-агенту. Обычно ее прописывают в самом конце, либо вообще не прописывают по приведенным выше причинам.

    Проверка robots.txt в Яндекс и Гугл вебмастере

    Как я уже упоминал, разные поисковые системы некоторые директивы могут интерпритировать по разному. Поэтому имеет смысл проверять написанный вами файл роботс.тхт в панелях для вебмастеров обоих систем. Как проверять?

    1. Зайти в инструменты проверки Яндекса и Гугла.
    2. Убедиться, что в панель вебмастера загружена версия файла с внесенными вами изменениями. В Яндекс вебмастере загрузить измененный файл можно с помощью показанной на скриншоте иконки:

    В Гугл Вебмастере нужно нажать кнопку «Отправить» (справа под списком директив роботса), а затем в открывшемся окне выбрать последний вариант нажатием опять же на кнопку «Отправить»:

    Набрать список адресов страниц своего сайта (по Урлу в строке), которые должны индексироваться, и вставить их скопом (в Яндексе) или по одному (в Гугле) в расположенную снизу форму. После чего нажать на кнопку «Проверить».

    Если возникли нестыковки, то выяснить причины, внести изменения в robots.txt, загрузить обновленный файл в панель вебмастеров и повторить проверку. Все ОК?

    Тогда составляйте список страниц, которые не должны индексироваться, и проводите их проверку. При необходимости вносите изменения и проверку повторяйте. Естественно, что проверять следует не все страницы сайта, а ярких представителей своего класса (страницы статей, рубрики, служебные страницы, файлы картинок, файлы шаблона, файлы движка и т.д.)

    Причины ошибок выявляемых при проверке файла роботс.тхт

    1. Файл должен находиться в корне сайта, а не в какой-то папке (это не .htaccess, и его действия распространяются на весь сайт, а не на каталог, в котором его поместили), ибо поисковый робот его там искать не будет.
    2. Название и расширение файла robots.txt должно быть набрано в нижнем регистре (маленькими) латинскими буквами.
    3. В названии файла должна быть буква S на конце (не robot.txt, как многие пишут)
    4. Часто в User-agent вместо звездочки (означает, что этот блок robots.txt адресован всем ботам) оставляют пустое поле. Это не правильно и * в этом случае обязательна
    5. В одной директиве Disallow или Allow можно прописывать только одно условие на запрет индексации директории или файла. Так нельзя:

    Для каждого условия нужно добавить свое Disallow:

    Довольно часто путают значения для директив и пишут:

  • Порядок следования Disallow (Allow) не важен — главное, чтобы была четкая логическая цепь
  • Пустая директива Disallow означает то же, что «Allow: /»
  • Нет смысла прописывать директиву sitemap под каждым User-agent, если будете указывать путь до карты сайта (читайте об этом ниже), то делайте это один раз, например, в самом конце.
  • Директиву Host лучше писать под отдельным «User-agent: Yandex», чтобы не смущать ботов ее не поддерживающих
  • Мета-тег Robots — помогает закрыть дубли контента при индексации сайта

    Существует еще один способ настроить (разрешить или запретить) индексацию отдельных страниц вебсайта, как для Яндекса, так и для Гугл. Причем для Google этот метод гораздо приоритетнее описанного выше. Поэтому, если нужно наверняка закрыть страницу от индексации этой поисковой системой, то данный мета-тег нужно будет прописывать в обязательном порядке.

    Для этого внутри тега «HEAD» нужной вебстраницы дописывается МЕТА-тег Robots с нужными параметрами, и так повторяется для всех документов, к которым нужно применить то или иное правило (запрет или разрешение). Выглядеть это может, например, так:

    В этом случае, боты всех поисковых систем должны будут забыть об индексации этой вебстраницы (об этом говорит присутствие noindex в данном мета-теге) и анализе размещенных на ней ссылок (об этом говорит присутствие nofollow — боту запрещается переходить по ссылкам, которые он найдет в этом документе).

    Существуют только две пары параметров у метатега robots: [no]index и [no]follow:

    1. Index — указывают, может ли робот проводить индексацию данного документа
    2. Follow — может ли он следовать по ссылкам, найденным в этом документе

    Значения по умолчанию (когда этот мета-тег для страницы вообще не прописан) – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность обоих параметров или, соответственно, наоборот: all=index,follow и none=noindex,nofollow .

    Более подробные объяснения можно найти, например, в хелпе Яндекса:

    Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагина All in One SEO Pack. Если используете другие плагины или другие движки сайта, то гуглите на тему прописывания для нужных страниц meta name=»robots».

    Как создать правильный роботс.тхт?

    Ну все, с теорией покончено и пора переходить к практике, а именно к составлению оптимальных robots.txt. Как известно, у проектов, созданных на основе какого-либо движка (Joomla, WordPress и др), имеется множество вспомогательных объектов не несущих никакой информативной нагрузки.

    Если не запретить индексацию всего этого мусора, то время, отведенное поисковиками на индексацию вашего сайта, будет тратиться на перебор файлов движка (на предмет поиска в них информационной составляющей, т.е. контента). Но фишка в том, что в большинстве CMS контент хранится не в файликах, а в базе данных, к которой поисковым ботам никак не добраться. Полазив по мусорным объектам движка, бот исчерпает отпущенное ему время и уйдет не солоно хлебавши.

    Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать полного или даже частичного дублирования контента (информационного содержимого). Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам (URL).

    Яндекс и Гугл, проводя индексацию, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса при их большом количестве (машинные ресурсы стоят дорого, а посему затраты нужно минимизировать). Да, есть еще такая штука, как мета-тэг Canonical.

    Замечательный инструмент для борьбы с дублями контента — поисковик просто не будет индексировать страницу, если в Canonical прописан другой урл. Например, для такой страницы https://ktonanovenkogo.ru/page/2 моего блога (страницы с пагинацией) Canonical указывает на https://ktonanovenkogo.ru и никаких проблем с дублированием тайтлов возникнуть не должно.

    Но это я отвлекся.

    Если ваш проект создан на основе какого-либо движка, то дублирование контента будет иметь место с высокой вероятностью, а значит нужно с ним бороться, в том числе и с помощью запрета в robots.txt, а особенно в мета-теге, ибо в первом случае Google запрет может и проигнорировать, а вот на метатег наплевать он уже не сможет (так воспитан).

    Например, в WordPress страницы с очень похожим содержимым могут попасть в индекс поисковиков, если разрешена индексация и содержимого рубрик, и содержимого архива тегов, и содержимого временных архивов. Но если с помощью описанного выше мета-тега Robots создать запрет для архива тегов и временного архива (можно теги оставить, а запретить индексацию содержимого рубрик), то дублирования контента не возникнет. Как это сделать описано по ссылке приведенной чуть выше (на плагин ОлИнСеоПак)

    Подводя итог скажу, что файл Роботс предназначен для задания глобальных правил запрета доступа в целые директории сайта, либо в файлы и папки, в названии которых присутствуют заданные символы (по маске). Примеры задания таких запретов вы можете посмотреть чуть выше.

    Теперь давайте рассмотрим конкретные примеры роботса, предназначенного для разных движков — Joomla, WordPress и SMF. Естественно, что все три варианта, созданные для разных CMS, будут существенно (если не сказать кардинально) отличаться друг от друга. Правда, у всех у них будет один общий момент, и момент этот связан с поисковой системой Яндекс.

    Т.к. в рунете Яндекс имеет достаточно большой вес, то нужно учитывать все нюансы его работы, и тут нам поможет директива Host. Она в явной форме укажет этому поисковику главное зеркало вашего сайта.

    Для нее советуют использовать отдельный блог User-agent, предназначенный только для Яндекса (User-agent: Yandex). Это связано с тем, что остальные поисковые системы могут не понимать Host и, соответственно, ее включение в запись User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям и неправильной индексации.

    Как обстоит дело на самом деле — сказать трудно, ибо алгоритмы работы поиска — это вещь в себе, поэтому лучше сделать так, как советуют. Но в этом случае придется продублировать в директиве User-agent: Yandex все те правила, что мы задали User-agent: * . Если вы оставите User-agent: Yandex с пустым Disallow: , то таким образом вы разрешите Яндексу заходить куда угодно и тащить все подряд в индекс.

    Robots для WordPress

    Не буду приводить пример файла, который рекомендуют разработчики. Вы и сами можете его посмотреть. Многие блогеры вообще не ограничивают ботов Яндекса и Гугла в их прогулках по содержимому движка WordPress. Чаще всего в блогах можно встретить роботс, автоматически заполненный плагином Google XML Sitemaps.

    Но, по-моему, все-таки следует помочь поиску в нелегком деле отсеивания зерен от плевел. Во-первых, на индексацию этого мусора уйдет много времени у ботов Яндекса и Гугла, и может совсем не остаться времени для добавления в индекс вебстраниц с вашими новыми статьями. Во-вторых, боты, лазящие по мусорным файлам движка, будут создавать дополнительную нагрузку на сервер вашего хоста, что не есть хорошо.

    Мой вариант этого файла вы можете сами посмотреть. Он старый, давно не менялся, но я стараюсь следовать принципу «не чини то, что не ломалось», а вам уже решать: использовать его, сделать свой или еще у кого-то подсмотреть. У меня там еще запрет индексации страниц с пагинацией был прописан до недавнего времени (Disallow: */page/), но недавно я его убрал, понадеясь на Canonical, о котором писал выше.

    А вообще, единственно правильного файла для WordPress, наверное, не существует. Можно, кончено же, реализовать в нем любые предпосылки, но кто сказал, что они будут правильными. Вариантов идеальных robots.txt в сети много.

    Приведу две крайности:

    1. Тут можно найти мегафайлище с подробными пояснениями (символом # отделяются комментарии, которые в реальном файле лучше будет удалить):
    2. А вот тут можно взять на вооружение пример минимализма:

    Истина, наверное, лежит где-то посредине. Еще не забудьте прописать мета-тег Robots для «лишних» страниц, например, с помощью чудесного плагина — All in One SEO Pack. Он же поможет и Canonical настроить.

    Правильный robots.txt для Joomla

    Рекомендованный файл для Джумлы 3 выглядит так (живет он в файле robots.txt.dist корневой папки движка):

    В принципе, здесь практически все учтено и работает он хорошо. Единственное, в него следует добавить отдельное правило User-agent: Yandex для вставки директивы Host, определяющей главное зеркало для Яндекса, а так же указать путь к файлу Sitemap.


    Поэтому в окончательном виде правильный robots для Joomla, по-моему мнению, должен выглядеть так:

    Да, еще обратите внимание, что во втором варианте есть директивы Allow, разрешающие индексацию стилей, скриптов и картинок. Написано это специально для Гугла, ибо его Googlebot иногда ругается, что в роботсе запрещена индексация этих файлов, например, из папки с используемой темой оформления. Даже грозится за это понижать в ранжировании.

    Поэтому заранее все это дело разрешаем индексировать с помощью Allow. То же самое, кстати, и в примере файла для Вордпресс было.

    Что такое мета-тег Robots (meta name robots)? 7 основных вариантов + варианты для GoogleBot

    Указания поисковому роботу

    При проведении SEO-оптимизации страниц сайта, иногда нужно изменить поведение поискового робота на конкретной странице. Например, запретить ему индексировать её содержание. Или же индексацию разрешить, но не позволять ему переходить по ссылкам. Сделать это можно при помощи специального мета-тега meta name robots.

    «Способ применения» данного тега несколько отличается от использования файла Robots.txt — в данном файле можно дать указания поисковому роботу сразу для всего сайта, используя специальные регулярные выражения.

    Но если вы хотите скрыть от поисковиков определённую страницу и не прописывать её в Robots.txt ( чтобы вообще никто о ней не знал ), то лучше прописать на самой странице данный мета-тег.

    Что такое мета-тег Robots и как его использовать?

    Это один из многочисленных тегов, используемых для сообщения роботам и/или браузерам т.н. метаданных (т.е. информации об информации). Среди самых известных и часто используемых:

    Что прописывать в тег robots?

    Выглядит он так:

    Вместо многоточия может быть 7 основных вариантов. Каждый вариант — это комбинации специальных указаний index/noindex и follow/nofollow, а также archive/noarchive :

    1. index, follow . Это сообщает поисковикам о том, что нужно произвести индексацию данной страницы (index), а также следовать (follow) по ссылкам, которые есть на странице.
    2. all . Аналогично предыдущему пункту.
    3. noindex,follow или просто noindex . Запрещает индексировать данную страницу, но разрешает роботу переходить по ссылкам, расположенным на ней.
    4. index,nofollow или просто nofollow . Запрещает переходить по ссылкам, но разрешает индексировать страницу — т.е. содержимое страницы будет отправлено в поисковый индекс, но другие страницы, на которые стоят ссылки, в индекс не попадут (при условии, что робот иными способами до них не доберётся).
    5. noindex, nofollow . Указание не индексировать документ и не переходить по ссылкам, содержащимся в нём.
    6. none . Аналогично предыдущему пункту.
    7. noarchive . Данное указание запрещает показывать ссылку на сохранённую копию страницы в результатах выдачи:

    Ссылка на сохранённую копию страницы в Яндексе

    Если мета-тег Robots не указан, то принимается значение по умолчанию:

    То же самое происходит, если на странице указано несколько этих тегов.

    Все вышеперечисленные варианты понимаются большинством поисковых систем и, в частности, Яндексом. Google тоже хорошо распознаёт эти комбинации, но также вводит кое что ещё:

    • Вместо name=robots можно указать name=googlebot — «обращение» конкретно к роботу Google.
    • content=nosnippet (запрещает показывать сниппеты в поисковой выдаче) и content=noodp (запрещает брать содержимое сниппетов из описания сайта в каталоге DMOZ).
    • content=noimageindex . При поиске по картинкам запрещает отображение ссылки на источник картинки.
    • content=unavailable_after:[date] . В качестве date следует указать дату и время, после которой Гугл перестанет индексировать эту страницу. Едва ли это когда-нибудь пригодится

    В общем, Google несколько расширяет содержимое мета-тега Robots.

    Куда прописывать meta name robots?

    Традиционно, все мета-теги прописываются между «head» и «/head» в HTML-коде страницы.

    В WordPress они легко выставляются при помощи популярного плагина All in One Seo Pack:

    Мета Robots в All in One Seo Pack

    Таким образом, если вам необходимо «спрятать» определённую страницу от поисковых роботов — используйте данный мета-тег.

    Мета-теги title, description, keywords для продвижения вашего сайта

    Мета-теги, метатеги, meta tags (редко еще сео-теги) — все это одно и тоже понятие в продвижении сайтов в поисковых системах. В двух словах — это специальные теги (элементы) HTML (или XMTL), которые входят в код страниц сайтов и не видны пользователю визуально на странице. Это вспомогательные элементы для продвижения, которые специально вводят в код для передачи информацию о сайте браузерами и поисковым системам.

    Правильное заполнение мета тегов на сайте очень важно для сео продвижения любого сайта. При разработке сайта мета теги нужно учитывать сразу: чтобы они выводились на каждой странице в код, были везде заполнены, а так же чтобы имелась возможность правки мета-тегов на каждой странице в любой момент. Правильное заполнение метатегов особенно способствует продвижению НЧ запросов. Одним из основных правил заполнения сео тегов — это их уникальность на сайте: не должно быть дублирования значений мета тегов ни на одной странице сайта. Отсутствие основных мета тегов на странице негативно отражается на продвижении.

    Важно!

    Эти теги не являются обязательными элементами при создании кода страниц сайта и не отражаются на его работоспособности. Наличие мета-тегов на странице — это важный критерий seo продвижения сайта.

    Основные мета теги страниц и где они должны размещаться

    Метатеги, которые существуют (хотя их чуть больше) и о которых мы будем рассказывать в этой статье:

    • title (тайтл, титл) – заголовок страницы (который отдается в браузер);
    • description (дескрипшн)— описание страницы;
    • keywords (кейвордс) — ключевые слова;
    • robots (роботс) — правила индексирования страницы для роботов.

    Где обычно эти теги размещаются в коде страницы? Внутри контейнера в самом начале кода страницы. Их может быть несколько разных по своим назначениям. Метатеги должны размещаться на всех страницах сайта и должны быть правильно и корректно заполнены.

    Как добавить мета-теги на сайте

    Добавлять мета теги в шаблоны должны программисты/разработчики сайта. А вот прописывать значения мета должны уже сео-специалисты. Добавлять мета теги в шаблоны должны программисты/разработчики сайта. А прописывать значения мета удобнее непосредственно сео-специалисту — для этого должен быть предусмотрен функционал в системе администрирования сайта. Заполнять значения тегов можно руками для каждой страницы отдельно, либо с помощью автоматических правил по сайту.

    Как проверить, есть ли мета-теги на сайте

    Проверить, есть ли на странице мета теги, можно открыв код страницы. Сделать это можно несколькими способами:

    • находясь на странице в браузере нажать в любом месте страницы правой кнопкой мыши и выбрать в открывшемся меню “Посмотреть код”
    • с помощью горящих клавиш — ctrl+U. Вам откроется код страницы в виде И уже здесь вы можете найти все имеющиеся мета теги в разделе head.

    Мета тег title (тайтл, заголовок страницы)

    Понятие и синтаксис

    Тег title является одним из самых важных при оптимизации. Титл — это заголовок страницы, ее название. Поэтому он должен присутствовать на всех страницах сайта. Страницы без тайтлов на сайте выглядят в сниппете так:

    Т.е в заголовок отдается сам урл страницы (урл — это адрес страницы).

    Сниппет — это небольшой текстовый блок, который описывает страницу сайта в поисковой выдаче. Благодаря сниппету пользователь может получить представление о сайте, не заходя на него.

    Соответственно, title должен присутствовать на всех страницах сайта. Он способствует улучшению оптимизации по запросам в поисковой выдачи.

    Титл располагается в теге . Кратко выглядит это так:

    Существуют общепринятые правила для заполнения title. Но назвать эти правила “правилами” можно только условно. Рассмотрим основные моменты, на что в первую очередь стоит обращать внимание при составлении мета title:

    • длина тайтла;
    • содержание title;
    • использование в титле ключевых запросов;
    • использование в title стоп слов;
    • использование знаков препинания.

    12 основных правил составления заголовков Title

    В поисковой выдаче title мы видим тут:

    Часто именно по этому заголовку пользователи решают, перейти на сайт или нет. Вот почему содержание тайтла страниц очень важно: оно должно быть по теме, содержательным и информативным, чтобы привлекать внимание.

    Как правильно заполнять title:

    1. Составляйте тайтлы исходя из семантического ядра, т.е. вы должны понимать, какие запросы существуют, какие из них частотные, какие нет. Ориентируйтесь на запросы с большой частотой (внутри группы запросов) и именно их используйте при написании заголовка страницы.
    2. По длине тайтл считается правильным, если у него 40-70 символов с пробелами (такое количество символов показывается в поисковой выдаче). Но, конечно, он может быть длиннее. Заголовок при этом обрежется в сниппете, но будет содержать в себе то, что вы захотите в него добавить (и поисковики его будут видеть полностью).
    3. Желательно начинать заголовок с основного запроса для вашей страницы, лучше в точном вхождении.
    4. Если сайт (страница) региональный, нужно использовать в title название региона (города). Это важно как и для поисковика, так как он будет учитывать региональность, так и для пользователей — они также будут видеть регион в заголовке страницы. Но если у вас несколько регионов, перечислять их все в title не желательно.
    5. Не заспамливать мета title ключевыми словами: лучше выбрать один запрос, максимум два-три. Много запросов на одну страницу будут «распылять» вес.
    6. Заголовки должны быть уникальными по сайту, т. е. на каждой странице свой тайтл — дублирование недопустимо.
    7. Старайтесь избегать стоп слов. Стоп-слова — это слова, которые не несут смысловой нагрузки. Это могут быть предлоги, союзы, частицы. Использовать их можно, если без них теряется смысл.
    8. Отдельно нужно сказать про специальные символы: (“”= ()/ \ | + _ ) и знаки препинания (– . ! ?). Рекомендуется их если не избегать, то минимизировать.
    9. Не нужно делать заголовки совсем короткими, типа «Контакты», «О компании». Пусть они будут более емкими, всегда можно придумать что-то интересное для таких страниц.
    10. Неплохо вставлять в тайтлы элементы, которые могут периодически меняться. Это может быть количество товаров, отзывов, цены. Это сделает ваш title динамическим, что поощряется поисковыми алгоритмами.
    11. Цифры в тайтлах — тоже хорошо. Здесь мы делаем ставку на привлекательность титлов за счет интересных заголовков. Это могут быть конструкции вида: 10 лучших советов «про что-то», 7 примеров «того-то», 12 плюсов «чего-то» и подобные.
    12. И главное правило: делать заголовок по правилам русского языка — писать по-русски правильно.

    Нужно понимать, что всегда есть исключения из правил: иногда в топ попадают страницы, где присутствую элементы, про которые мы говорим «нельзя», «воздержитесь», например:

    • использование точек в тайтлах: первое место по запросу «итальянская мебель» в Москве:
    • вертикальная черта | , хотя мы ее и не любим, но все же она в выдаче в топах присутствует:

    Мета тег description (дескрипшен, описание страницы)

    Понятие и синтаксис

    Description также является важным параметром при продвижении сайтов. Диспришн — это логическое продолжение тайтла страницы. Если в title мы кратко говорим, о чем страница, то в дескрипшине мы делаем это более подробно. Но не нужно делать дескрипшн очень похожим на заголовок, не включайте в него фразы из тайтла. Это должен быть самостоятельный текст, который не столь ориентирован на ключевые запросы, сколько обязан быть привлекательным для пользователя, так как часто дескрипшн может отдаваться в сниппет в поисковой выдачи сюда:

    При формировании сниппета поисковики учитывают description как текстовый блок в равной степени с другими текстовыми фрагментами страницы.

    Description располагается в теге . Кратко выглядит это так:

    7 основных правил составления описания страниц Description

    На что смотрим в первую очередь в дескрипшине:

    • длина дескрипшина,
    • уникальность описания,
    • содержание.

    Есть свои условные сео правила для правильного составления description:

    1. Длина от 70 до 200 символов с пробелами.
    2. Дескрипшн должен быть уникальным внутри сайта (т.е. не встречаться на других страницах сайта).
    3. Необходимо использовать ключевые запросы, но применять так, чтобы это выглядело естественным образом, т.е не нужно делать чистые вхождения: запросы можно склонять, разбавлять другими словами, переставлять местами.
    4. Важные слова и информация должна идти в начале мета тега description.
    5. Желательно описывать преимущества (товара, услуги, компании).
    6. Не забываем про динамические элементы в дескрипшене: количество товаров, отзывов, скидки и цены (все эти данные могут на сайте постоянно меняться):
    7. Еще одной рекомендацией является использования призыва к действию:

    Небольшие хитрости: в последнее время популярным стало использовать в дескрипшинах специальные символы и эмодзи (эмодзи — это «смайлы», «графические элементы»). Аналогично эмодзи можно применять и в тайтлах. Такое использование предположительно влияет на кликабельность в поиске, делая сниппет сайта более привлекательным (но доказательств нет). Но не нужно «борщить» с таким использованием, т.е. не должны вставляться эмодзи через каждые два слова. Как это может выглядеть:

    Но это всего лишь наше субъективное мнение.

    Совет! Эмодзи нельзя ставить самым первым и/или самым последним элементом тайтлов и дескрипшинов, так как поисковые системы игнорируют их и не отдают в сниппет.

    Рекомендация!

    Если на вашем сайте дескрипшенов нет нигде, или они есть частично, но не на всех страницах, или есть дублирующиеся дескрипшины — очень советуем эту ситуацию исправить в кратчайшие сроки. Description должны присутствовать на всех страницах сайта и быть уникальным по сайту.

    Лирика про keywords (ключевые слова, кейворды)

    Отдельно скажем про кейвордс, но немного: сегодня этот мета тег не несет никакой пользы для сайта.

    Немного истории: что же это такое? Этот тег содержал в себе когда-то список основных запросов (ключевых слов), которые соответствовали содержанию страницы. Перечислять их можно было через запятую, либо без знаков препинания через пробелы. Раньше поисковые системы учитывали эти слова при индексации.

    Мета тег кейвордс размещался аналогично внутри тега . В упрощенном виде выглядело это так:

    4 правила, которые учитывались в Keywords

    1. Использовать не более 20 слов. Размещение слишком большого количества слов могло негативно сказываться при восприятии поисковиками.
    2. Не больше 3-х повторов одного ключевика: тут принцип аналогичный — не нужно вызывать негатив со стороны поисковых систем за счет переспама.
    3. Вставлять слова с опечатками: опечатки — это нормально для пользователя. Иногда слова с опечатками могли быть популярнее основного запроса.
    4. Использование англоязычных запросов: если тематика сайта (страницы) это позволяет.

    Всегда вставал вопрос, как писать ключевые слова правильно: через пробел или через запятую? Утверждалось, что оба варианта верны. Запросы через запятую был более популярным вариантом использования. Как это могло выглядеть:

    Пример кейвордов без запятых. Тут опять же два варианта:

    • Список запросов, аналогичный с запятыми, но без них:
    • Либо использование слов только по одному разу без запятых:

    Если метатег кейвордс был заполнен хорошо — это положительно влияло на релевантность страницы, что помогало в продвижении.

    Но еще раз отметим: сегодня этот тег вовсе перестал учитываться, либо его значение сведено к минимуму.

    Вот вся информации, что должно быть достаточно для понимания, что такое мета кейвордс и как их использовали.

    И на закуску: мета-тег Robots

    Тег robots также находится внутри контейнера … в любом месте. Краткий синтаксис:

    Данный метатег влияет на индексировании страниц.

    Индексирование сайта — это процесс поиска, сбора, обработки и добавления информации о сайте в базу данных поисковых систем, т.е поисковые роботы заходят на ваш сайт и забирают в базу его страницы, которые потом может отдавать в выдачу.

    С помощью тега robots мы говорим поисковым роботам, индексировать страницу или нет, кому индексировать, а кому нет, т.е. влияем на индексирование сайта. Атрибут content должен состоять из одной или нескольких директив (если несколько, пишем через запятую).

    • all — разрешается индексировать текст и ссылки на текущей странице;
    • none — запрещается индексировать текст и переходить по ссылкам на странице;
    • index — равно all, т.е индексирование разрешено;
    • follow — то же, что all;
    • noindex — запрещено к индексированию текста страницы;
    • nofollow — запрещено переходить по ссылкам на странице;
    • noimageindex — запрещает индексирование изображений на текущей странице.
    • noarchive — запрещает выводить в результатах поиска ссылки «Сохраненная копия»;
    • nosnippet — запрещает выводить в поисковой выдаче сниппет.

    Чаще всего тег роботс выглядит как:

    • — разрешается индексировать страницу;
    • — не разрешается индексировать страницу.

    Желательно использовать этот тег на всех страницах сайта с разрешением к индексированию, кроме тех страниц, которые вы хотите запретить. Кроме того, можно разным поисковым системам указывать разные параметры, например Яндексу разрешать индексацию, а Google запрещать. Делать это можно с помощью указания конкретного робота: — запрет для Яндекса, — запрет для Гугла.

    Заполнять такие теги нужно внимательно, чтобы не было ошибок в синтаксисе, или повторений внутри тега, или взаимопротивоположных друг другу тегов (например, кода разрешаем и запрещаем индексирование). В этом случае теги роботс могут быть проигнорены роботами.

    Кратко про другие мета-теги

    Content-type — показывает данные о типе документа и его кодировке. Может влиять на корректность отображение в браузерах. Пример .

    Content-language — дает информацию о используемом языке контента (содержимого). .

    Refresh — этот тег позволяет задать время обновления страницы при загрузке или при переадресации пользователя в другой раздел. Полезно использовать в случае обновления сайта: вместо страницы ошибки 404 или длительной загрузки перенаправляет пользователя в новый раздел: .

    Meta Author и Copyright — указывает авторство графического и текстового содержимого страницы: (автор страницы), (принадлежность авторских прав), (адрес автора/собственника).

    Типичные ошибки при составлении метатегов

    • Дублирование одного и того же значения мета тегов для нескольких страниц, а иногда и на всех страницах сайта.
    • Добавление в мета одинаковых хвостов (кусков), это могут быть названия сайта/компании, либо какие-то вспомогательные однотипные конструкции типа «на сайте салона . ».
    • Слишком длинные значения тайтлов и дескрипшинов, либо наоборот слишком короткие.
    • Пустые значение мета тегов.
    • Заспамленность ключевыми словами.
    • Несколько одних и тех же тегов на одной странице (например, два title).

    Заключение

    Вот основная информация по мета тегам сайта, которая может пригодиться вам в продвижении. Соблюдайте некоторые или все правила, и продвижение в поиске будет более успешным. Удачи!

    Илон Маск рекомендует:  Что такое код oemkeyscan
    Понравилась статья? Поделиться с друзьями:
    Кодинг, CSS и SQL