Протокол исключения роботов, более известный как robots.txt, представляет собой соглашение, предотвращающее доступ поисковых роботов ко всему веб-сайту или его части. Это текстовый файл, используемый для SEO, содержащий команды для индексирующих роботов поисковых систем, которые указывают страницы, которые могут или не могут быть проиндексированы.
Файл robots.txt используется не для деиндексации страниц, а для предотвращения их просмотра. Если страница никогда ранее не индексировалась, предотвращение ее сканирования позволит никогда не индексировать ее. Но если страница уже проиндексирована или на нее ссылается другой сайт, robots.txt не позволит деиндексировать. Чтобы страница не индексировалась в Google, необходимо использовать теги/директивы noindex или защитить ее паролем.
Таким образом, основная цель файла robots.txt — управлять краулинговым бюджетом робота, запрещая ему просматривать страницы с низким весом, но которые должны существовать для пути пользователя (корзина покупок и т. д.).
PS: файл robots.txt — один из первых файлов, анадизирумых движками на вашем сайте.
Как это работает?
У поисковых систем есть две основные задачи: сканировать Интернет для обнаружения контента и индексировать этот контент, чтобы его можно было распространять среди пользователей, ищущих информацию.
Объяснение:
Чтобы сканировать сайты, поисковые системы переходят по ссылкам, чтобы перейти с одного сайта на другой, они сканируют многие миллиарды ссылок и веб-сайтов. Это называется "паук". Как только робот поисковой системы получает доступ к веб-сайту, он ищет файл robots.txt. Если он найдет его, робот сначала прочитает этот файл, прежде чем продолжить просмотр страницы. Если файл robots.txt не содержит директив, запрещающих деятельность пользовательского агента, или если на сайте нет файла robots.txt, он будет сканировать другую информацию на сайте.
Зачем вам нужен robots.txt?
Важность файла robots.txt
Файлы robots.txt контролируют доступ роботов к определенным областям вашего сайта. Хотя это может быть очень опасно, если вы случайно запретите роботу Googlebot сканировать весь ваш сайт, в некоторых ситуациях файл robots.txt может быть очень полезен.
Общие случаи использования включают в себя:
- Избегайте сканирования дублированного контента.
- Предотвращение сканирования внутренней поисковой системы.
- Предотвращение индексации поисковыми системами определенных изображений на вашем сайте.
- Укажите расположение карты сайта.
- Указание задержки сканирования, чтобы предотвратить перегрузку серверов, когда сканеры загружают несколько фрагментов контента одновременно.
Если на вашем сайте нет областей, в которых вы хотите контролировать доступ пользователей, вам может не понадобиться файл robots.txt.
Синтаксис robots.txt
Язык файла robots.txt
Файл robots.txt состоит из набора блоков инструкций и опциональных директив карты сайта .
Каждый блок состоит из двух частей:
- Одна или несколько директив агента пользователя : для каких роботов предназначен этот блок.
- Одна или несколько команд: какие ограничения должны соблюдаться. Самая распространенная команда — Disallow , которая запрещает роботам сканировать часть сайта.
Что такое пользовательский агент?
Когда программа инициирует подключение к веб-серверу (будь то робот или стандартный веб-браузер), она предоставляет основную информацию о своей личности через HTTP-заголовок, называемый «агентом пользователя».
Для Google список пользовательских агентов, используемых поисковыми роботами Google, доступен здесь.
Пример:
# Строки, начинающиеся с #, являются комментариями #
# Начало блока 1
User-agent: Googlebot
User-agent: Googlebot-News
Disallow: /directory1/
Disallow: /directory2/
# Начало блока 2
User-agent: *
Disallow: /directory3/
# Дополнительная директива карты сайта
Sitemap: www.example.com/sitemap.xml
Другие команды блока:
- Allow (применимо только к Googlebot) : команда, сообщающая роботу Google, что он может получить доступ к странице или вложенной папке, даже если родительская страница или вложенная папка запрещены (эта команда имеет приоритет над командами Disallow).
- Crawl-delay: этот параметр позволяет указать и установить количество секунд, в течение которых робот должен ждать между каждым последующим запросом.
- Host: предпочтительное зеркало сайта, которое робот должен использовать как базовый адрес.
Дополнительные директивы:
- Карта сайта: позволяет легко указать поисковым системам страницы вашего сайта для сканирования. Карта сайта — это XML-файл, в котором перечислены URL-адреса сайта, а также дополнительные метаданные для каждого URL-адреса, чтобы обеспечить более интеллектуальное исследование сайта поисковыми системами.
Язык файлов robots.txt: Регулярные выражения
Регулярные выражения — это специальные символы, которые позволяют упростить написание robots.txt за счет использования шаблонов.
В файле robots.txt большинство поисковых систем (Google, Bing, Yandex...) включают только два из них:
- * : соответствует любой последовательности символов
- $ : соответствует концу URL
Примечание: если использование регулярного выражения приводит к совпадению с несколькими блоками для данного робота, будет учитываться только самый конкретный блок.
# Например, здесь GoogleBot выберет блок 2:
User-agent: * # Начало блока 1
#…
User-agent: Googlebot #Начало блока 2
Примеры :
User-agent: *
User-agent может быть любым значением, другими словами блок применим ко всем роботам.
Disallow: /*.gif$
Эта команда предотвращает сканирование URL-адресов, содержащих серию символов (*), за которыми следует «.gif» в конце URL-адреса («.gif$»), то есть изображения в формате gif. Примечание. В robots.txt все URL-адреса начинаются с косой черты, потому что они исходят из корня сайта, представленного знаком «/».
Disallow: /private
Запрещает сканирование всех URL-адресов, начинающихся с /private (включая /privateblabla1.html), идентичных /private* .
Disallow: /private/
Запрещает сканирование всех URL-адресов, начинающихся с /private/ (включая /private/page1.html), как и /private/* .
Disallow: /private/$
Предотвратить сканирование именно /private/ (например, /private/page1.html по-прежнему доступен).
Allow: /wp-admin/admin-ajax.php
Оператор Allow допускает исключения, здесь он позволяет роботам исследовать admin-ajax.php, который является частью ранее запрещенного каталога, /wp-admin/.
Sitemap: "ссылка на карту сайта"
также позволяет указать поисковым системам адрес файла sitemap.xml сайта, если таковой имеется.
Куда поместить robots.txt?
Вы не знаете, есть ли у вас файл robots.txt?
- Просто введите свой корневой домен,
- затем добавьте /robots.txt в конце URL-адреса. Например, файл robots для Panorabanques находится на домене www.panorabanques.com.
Если страница .txt не отображается, у вас нет страницы robots.txt (действующей).
Если у вас нет файла robots.txt:
- Тебе это надо? Убедитесь, что у вас нет страниц с низким значением, которые требуют этого. Пример: корзина, поисковые страницы вашей внутренней поисковой системы и т. д.
- Если вам это нужно, создайте файл, следуя вышеупомянутым директивам.
Как создать robots.txt для сайта?
Файл robots.txt состоит из одного или нескольких правил. Следуйте основным правилам для файлов robots.txt, то есть правилам форматирования, синтаксиса и расположения, указанным выше, для создания robots.txt.
Что касается формата и местоположения, вы можете использовать практически любой текстовый редактор для создания файла robots.txt. Текстовый редактор должен иметь возможность создавать стандартные текстовые файлы ASCII или UTF-8. Не используйте текстовый процессор, так как эти программы часто сохраняют файлы в собственном формате и могут добавлять неожиданные символы (например, фигурные кавычки), что может сбить с толку поисковых роботов.
Форматирование и правила использования
- robots.txt — это текстовый файл, который необходимо поместить в корень сервера/сайта, например, example.com/robots.txt.
- Его нельзя разместить в подкаталоге (например, в example.com/pages/robots.txt ), но можно применить к поддоменам (например, website.example.com/robots.txt ). ).
- Имя файла robots.txt должно быть написано строчными буквами (не использовать Robots.txt или ROBOTS.TXT).
- Ваш сайт может содержать только один файл robots.txt.
- Если его нет, будет отображаться ошибка 404 и роботы будут считать, что нет запрещенного контента.
Лучшие практики
- Убедитесь, что вы не блокируете контент или разделы вашего веб-сайта, которые вы хотите просканировать.
- Ссылки на страницы, заблокированные robots.txt, не будут переходить.
- Не используйте robots.txt, чтобы предотвратить отображение конфиденциальных данных в поисковой выдаче. Поскольку другие страницы могут напрямую ссылаться на страницу, содержащую личную информацию, они все равно могут быть проиндексированы. Если вы хотите заблокировать свою страницу в результатах поиска, используйте другой метод, например защиту паролем или мета-директиву noindex.
- Некоторые поисковые системы имеют несколько пользователей. Например, Google использует Googlebot для обычного поиска и Googlebot-Image для поиска изображений. Большинство пользовательских агентов одной и той же поисковой системы следуют одним и тем же правилам. Таким образом, нет необходимости указывать рекомендации для различных ботов поисковых систем, но это позволяет вам уточнить способ анализа контента вашего сайта.
- Поисковая система кэширует содержимое robots.txt, но обычно обновляет кэшированное содержимое не реже одного раза в день. Если вы изменили файл и хотите обновить его быстрее, вы можете отправить URL-адрес robots.txt в Google.
Robots.txt и Search Console: проверить и протестировать
Функция «Отправить» инструмента тестирования robots.txt позволяет Google быстрее сканировать и индексировать новый файл robots.txt для вашего сайта. Сообщите Google об изменениях в файле robots.txt, выполнив следующие действия:
- Нажмите «Отправить» в правом нижнем углу редактора файла robots.txt. Откроется диалоговое окно «Отправить».
- Загрузите измененный код robots.txt со страницы средства тестирования Robots.txt, нажав кнопку «Загрузить» в диалоговом окне «Загрузить».
- Добавьте новый файл robots.txt в корень домена в виде текстового файла под названием robots.txt. URL вашего файла robots.txt должен быть /robots.txt.
- Нажмите «Подтвердить онлайн-версию», чтобы убедиться, что онлайн-файл robots.txt — это та версия, которую Google должен сканировать.
- Нажмите «Отправить онлайн-версию», чтобы уведомить Google о том, что ваш файл robots.txt был изменен, и попросить Google просканировать его.
- Убедитесь, что ваша последняя версия успешно просканирована, обновив страницу в браузере, чтобы обновить редактор инструмента и просмотреть код файла robots.txt в Интернете. После обновления страницы вы также можете щелкнуть раскрывающееся меню над текстовым редактором, чтобы отобразить отметку времени, указывающую, когда Google впервые увидел последнюю версию вашего файла robots.txt.
Robots.txt и Яндекс.Вебмастер: проверить и протестировать
- Зайдите в Вебмастер → Инструменты → Анализ Robots.txt
- Дождитесь загрузки вашего текущего файла в окно редактирования. Если на вашем сайте такого файла нет или он расположен по неправильному адресу в окне ничего не отобразится.
- Введите новые или отредактируйте старые директивы
- Нажмите «Проверить» и посмотрите на резульатты тестирования
Если в ваших директивах есть ошибки, вы получите похожее уведомление:Allou: / Обнаружена неизвестная директива
После исправления ошибок вы можете проверить как себя поведёт робот в отношении тех или иных ссылок. Всавьте нужные ссылки в нижнее окно и нажмите «Проверить». В результате отобразится доступность/недоступность страницы роботу.
Всегда помните: директивы robots.txt — это только пожелание для робота. Он может ориентироваться и на собственные алгоритмы. Скрывайте информацию, которая не должна попасть в индекс другими способами.