Наиболее частые ошибки в robots.txt и как их предотвратить

Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (1 оценок, среднее: 5,00 из 5)
Загрузка...

1. Как обнаружить и не допустить ошибки в robots.txt
2. Наиболее частые ошибки в файле robots.txt
3. Что делать, чтобы предотвратить ошибки в robots.txt
4. Проверяем файл robots.txt на ошибки
5. Выводы

Как обнаружить и не допустить ошибки в robots.txt

Каждый веб-разработчик, просто обязан иметь по крайней мере общее понимание правильного управления всеми процессами при индексации страниц и файлов веб-сайта в поисковиках. Сразу скажем, что главное для слаженной работы с ботами поисковиков достаточно просто правильно и грамотно настраивать robots. Самое важное слово в данной ситуации — “правильно”. Ведь последствия, при допущении ошибок в данном файле, может быть достаточно обидными.

Наиболее частые ошибки в файле robots.txt

• Указание абсолютно всех файлов сайта прямо в директории, что, какой-то степени, даже не вполне ошибка. Однако более разумно будет скрыть в этой ситуации от индексирования полностью все директории сервиса.
• Отсутствие Disallow.
• Незаполненная строка User-agent.
• Прописывание сразу несколько адресов URL в одной единственной Disallow.
• Перемешанные, случайно и из-за невнимательности, параметры директив.
• Опечатки и неверное написание имени robots.
• URL с прописыванием в директиве Host протокола для передачи данных.
• Формат URL неверно указанный в Disallow. Чтобы Вы случайно не отменили индексацию на сайте полностью всех страниц с указанным “admin” в начале адреса URL, указывайте обозначение “разрывов” знаками ”/” и “$”.

Что делать, чтобы предотвратить ошибки в robots.txt

⦿ User-agent, установленный Вами, будет отзываться на все директивы перечисленные ниже прямо до идущей вслед строки User-agent. Так что не следует думать, что все директивы, прописанные по вторым User-agent будут также выполняться ботом, установленном в первом User-agent. Помните, что каждому боту указания необходимо дублировать.
⦿ Все поддомены воспринимаются поисковыми системами как самостоятельные сайты. Следовательно, предложения для их индексации необходимо прописывать в самостоятельных файлах robots для каждого из поддоменов.
⦿ Директивы, что указаны в robots — это рекомендации, которые соблюдают только роботы наиболее крупных поисковиков. Все сторонние роботы зачастую их просто не замечают. Вследствие этого лучшим решением будет блокировка этих боров по IP-адресу.
⦿ robots абсолютно беспристрастный к регистру. По этой причине можно прописывать все директивы не только прописными, но также и строчными. Однако есть нюанс: указывать имена всех файлов и директорий необходимо исключительно в том виде, в котором они прописаны в строке адреса самого браузера.
⦿ Помните, что страницы, которые заблокированы в robots, продолжают быть, как и раньше доступными для интернет-пользователей. Так что в случае, когда Ваша цель — скрыть какую-то страницу также от пользователей, а не только ботов, следует установить на ней пароль.

Проверяем файл robots.txt на ошибки

Для контроля robots на наличие ошибок, самым простым способом будет использование инструментов от поисковиков, созданные специально для этого.
При работе с системой Google необходимо зайти в сервис Search Console, где в настройках «Сканирование» найти и выбрать “Инструмент проверки файла robots.txt”. Вследствие можно увидеть под окном с содержанием необходимого файла все оповещения о предупреждениях и ошибки, имеющиеся в нем.
Для Яндекс можно схожий функционал найти в Инструментах Яндекс.Вебмастера — «Анализ robots.txt». Здесь существует еще возможность определить, сколько ошибок в файле robots подвергаемом проверке.

Выводы

Однако, не следует расслабляться и радоваться, когда все проверки сообщат, что ошибки отсутствуют. Это только сообщает, что все инструкции, которые указаны в файле, отвечают необходимым стандартам. При этом он может все равно содержать многие ошибки, указанные выше в статье, что тоже вызовет проблемы в индексации сайта. Так что проверяя файл robots.txt на ошибки в нем не надейтесь исключительно на такого рода автоматизированные инструменты — также очень внимательно проверяйте все самостоятельно.

Наши клиенты