Вебмайстри та маркетологи знають наскільки важлива індексація сайту пошуковими системами. Саме тому вони роблять все можливе, щоб допомогти пошуковикам типу Google і Yandex правильно сканувати та індексувати свої сайти.
Велика кількість часу і ресурсів витрачаються на внутрішню і зовнішню оптимізацію, таку як контент, посилання, теги, оптимізація зображень і структури сайту.
Все це грає величезну роль в просуванні. Однак якщо ви забули зробити технічну оптимізацію сайту, якщо ви не чули про файли robots.txt і sitemap.xml можуть виникнути проблеми з правильним скануванням і індексацією вашого сайту.
У цій статті я поясню як правильно налаштовувати та використовувати файл robots.txt і мета-тег robots. Тож почнемо!
Що таке robots.txt
Robots.txt – це текстовий файл, який використовується в якості інструкції для роботів пошукових систем (також відомих як сканери, боти або павуки), як сканувати та індексувати сторінки сайту.
Простими словами, robots.txt говорить роботам, які сторінки або файли сайту ми хочемо бачити в пошуку, а які ні.
В ідеалі файл robots.txt розміщується в кореневому каталозі вашого веб-сайту (https://site.com/robots.txt), щоб роботи могли відразу отримати доступ до його інструкцій.
Якщо ви використовуєте CMS WordPress, то ви зможете побачити ваш файл за вищевказаною адресою, однак ви не знайдете сам файл в загальній папці з вашим сайтом. Це тому що WordPress автоматично створює віртуальний файл robots.txt (з параметрами за замовчуванням), якщо не знаходить даний файл в кореневому каталозі сайту.
Віртуальний файл robots.txt CMS WordPress не вирішує всіх необхідних завдань, у зв’язку з цим вкрай бажано написати свій.
к содержанию ↑Для чого потрібен robots.txt
Файл robots.txt потрібен, для того щоб заборонити пошуковим роботам відвідувати певні розділи вашого сайту, наприклад:
- сторінки пагінацію;
- сторінки з результатами пошуку на сайті;
- адміністративні файли;
- службові сторінки;
- посилання з utm-мітками;
- дані про параметри сортування, фільтрації, порівняно;
- сторінка особистого кабінету і т.п.
Важливо! Файл robots.txt не є обов’язковим до виконання пошуковими роботами. У зв’язку з цим, якщо ви хочете на 100% бути впевненими в тому що будь-яка зі сторінок вашого сайту не з’явиться в пошуковій видачі – використовуйте мета-тег robots.
Згідно з довідкою Google файл robots.txt не призначений для того, щоб забороняти показ веб-сторінок в результатах пошуку Google.
Якщо ви не хочете щоб якась сторінка вашого сайту з’явилася в пошуку вставте у <head> сторінки атрибут noindex:
<meta name=“robots” content=“noindex,nofollow”>
Як редагувати robots txt
Редагувати файл robots.txt в CMS WordPress можна двома способами. Додати необхідний код у файл functions.php, або за допомогою плагіна.
У нашій компанії ми вважаємо за краще другий спосіб.
Встановлюємо плагін Virtual Robots.txt зі сховищ CMS WordPress, відкриваємо його в адмін. панелі у вкладці Налаштування. В відкрилося поле плагіна вносимо необхідний код, тиснемо кнопку Save і вуаля – ваш файл robots.txt готовий.
Правильний robots.txt для CMS WordPress
Взяв з сайту seogio.ru і трохи підкоригував. Ось що вийшло:
User-agent: * # загальні правила для роботов всіх пошукових систем Disallow: /cgi-bin # службова папка для зберігання серверних скриптів Disallow: /? # всі параметри запиту на головній Disallow: /wp- # всі файли WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # якщо є підкаталог / wp /, де встановлена CMS (якщо немає, правило можно видалити) Disallow: *?s= # пошук по сайту Disallow: *&s= # пошук по сайту Disallow: /search/ # пошук по сайту Disallow: /author/ # архів автора Disallow: /users/ # архів користувачів Disallow: */trackback # трекбеки, повідомлення в коментарях про посиланні на веб-документ Disallow: */feed # всі фіды Disallow: */rss # rss фід Disallow: */embed # всі вбудовування Disallow: */wlwmanifest.xml # xml-файл маніфесту Windows Live Writer (якщо не використовуєте, правило можна видалити) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm*= # посилання с utm-метками Disallow: *openstat= # посилання з метками openstat Allow: */uploads # відкриваємо папку з файлами uploads Allow: /*/*.js # відкриваємо файлы скриптов js Allow: /*/*.css # відкриваємо фалы css Allow: /wp-*.png # дозволяємо індексувати зображення Allow: /wp-*.jpg # дозволяємо індексувати зображення Allow: /wp-*.jpeg # дозволяємо індексувати зображення Allow: /wp-*.gif # дозволяємо індексувати гіфки Allow: /wp-admin/admin-ajax.php # дозволяємо ajax # Вкажіть головне дзеркало сайту, як в прикладі нижче (з WWW / без WWW, якщо HTTPS # То пишемо протокол, якщо потрібно вказати порт, вказуємо). Команда стала необов'язковою. Раніше Host розумів # Яндекс і Mail.RU. Тепер всі основні пошукові системи команду Host не враховують. Host: www.site.ru # Вкажіть один або декілька файлів Sitemap (дублювати для кожного User-agent # не потрібно). Google XML Sitemap створює 2 карти сайту, як в прикладі нижче. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gzк содержанию ↑
Перевірка robots.txt
Якщо файл robots.txt налаштований неправильно це може привести до множинних помилок в індексації сайту.
Перевірити, чи правильно налаштований robots.txt можна за допомогою безкоштовного інструменту Google Robots Testing Tool
Вибираємо наш сайт:
Вводимо в рядок шлях до нашого файлу robots.txt і тиснемо кнопку Перевірити:
В результаті не повинно бути помилок і попереджень та файл повинен бути Доступний для роботів:
Якщо файл robots.txt налаштований правильно, це значно прискорить процес індексації вашого сайту.