Правильний файл robots.txt для CMS WordPress

20. 04. 2021

Вебмайстри та маркетологи знають наскільки важлива індексація сайту пошуковими системами. Саме тому вони роблять все можливе, щоб допомогти пошуковикам типу Google і Yandex правильно сканувати та індексувати свої сайти.
Велика кількість часу і ресурсів витрачаються на внутрішню і зовнішню оптимізацію, таку як контент, посилання, теги, оптимізація зображень і структури сайту.
Все це грає величезну роль в просуванні. Однак якщо ви забули зробити технічну оптимізацію сайту, якщо ви не чули про файли robots.txt і sitemap.xml можуть виникнути проблеми з правильним скануванням і індексацією вашого сайту.
У цій статті я поясню як правильно налаштовувати та використовувати файл robots.txt і мета-тег robots. Тож почнемо!

к содержанию ↑

Що таке robots.txt

Robots.txt – це текстовий файл, який використовується в якості інструкції для роботів пошукових систем (також відомих як сканери, боти або павуки), як сканувати та індексувати сторінки сайту.

Простими словами, robots.txt говорить роботам, які сторінки або файли сайту ми хочемо бачити в пошуку, а які ні.

В ідеалі файл robots.txt розміщується в кореневому каталозі вашого веб-сайту (https://site.com/robots.txt), щоб роботи могли відразу отримати доступ до його інструкцій.

Якщо ви використовуєте CMS WordPress, то ви зможете побачити ваш файл за вищевказаною адресою, однак ви не знайдете сам файл в загальній папці з вашим сайтом. Це тому що WordPress автоматично створює віртуальний файл robots.txt (з параметрами за замовчуванням), якщо не знаходить даний файл в кореневому каталозі сайту.

Віртуальний файл robots.txt CMS WordPress не вирішує всіх необхідних завдань, у зв’язку з цим вкрай бажано написати свій.

к содержанию ↑

Для чого потрібен robots.txt

Файл robots.txt потрібен, для того щоб заборонити пошуковим роботам відвідувати певні розділи вашого сайту, наприклад:

  • сторінки пагінацію;
  • сторінки з результатами пошуку на сайті;
  • адміністративні файли;
  • службові сторінки;
  • посилання з utm-мітками;
  • дані про параметри сортування, фільтрації, порівняно;
  • сторінка особистого кабінету і т.п.

Важливо! Файл robots.txt не є обов’язковим до виконання пошуковими роботами. У зв’язку з цим, якщо ви хочете на 100% бути впевненими в тому що будь-яка зі сторінок вашого сайту не з’явиться в пошуковій видачі – використовуйте мета-тег robots.
Згідно з довідкою Google файл robots.txt не призначений для того, щоб забороняти показ веб-сторінок в результатах пошуку Google.
Якщо ви не хочете щоб якась сторінка вашого сайту з’явилася в пошуку вставте у <head> сторінки атрибут noindex:

<meta name=“robots” content=“noindex,nofollow”>

Як редагувати robots txt

Редагувати файл robots.txt в CMS WordPress можна двома способами. Додати необхідний код у файл functions.php, або за допомогою плагіна.
У нашій компанії ми вважаємо за краще другий спосіб.
Встановлюємо плагін Virtual Robots.txt зі сховищ CMS WordPress, відкриваємо його в адмін. панелі у вкладці Налаштування. В відкрилося поле плагіна вносимо необхідний код, тиснемо кнопку Save і вуаля – ваш файл robots.txt готовий.

Правильний robots.txt для CMS WordPress

Взяв з сайту seogio.ru і трохи підкоригував. Ось що вийшло:

User-agent: *               # загальні правила для роботов всіх пошукових систем
Disallow: /cgi-bin          # службова папка для зберігання серверних скриптів
Disallow: /?                # всі параметри запиту на головній
Disallow: /wp-              # всі файли WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # якщо є підкаталог / wp /, де встановлена CMS (якщо немає, правило можно видалити)
Disallow: *?s=              # пошук по сайту
Disallow: *&s=          # пошук по сайту
Disallow: /search/          # пошук по сайту
Disallow: /author/          # архів автора
Disallow: /users/           # архів користувачів
Disallow: */trackback       # трекбеки, повідомлення в коментарях про посиланні на веб-документ
Disallow: */feed            # всі фіды
Disallow: */rss             # rss фід
Disallow: */embed           # всі вбудовування
Disallow: */wlwmanifest.xml # xml-файл маніфесту Windows Live Writer (якщо не використовуєте, правило можна видалити)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=            # посилання с utm-метками
Disallow: *openstat=        # посилання з метками openstat
Allow: */uploads            # відкриваємо папку з файлами uploads
Allow: /*/*.js              # відкриваємо файлы скриптов js
Allow: /*/*.css             # відкриваємо фалы css
Allow: /wp-*.png            # дозволяємо індексувати зображення
Allow: /wp-*.jpg            # дозволяємо індексувати зображення
Allow: /wp-*.jpeg           # дозволяємо індексувати зображення
Allow: /wp-*.gif            # дозволяємо індексувати гіфки
Allow: /wp-admin/admin-ajax.php # дозволяємо ajax

# Вкажіть головне дзеркало сайту, як в прикладі нижче (з WWW / без WWW, якщо HTTPS
# То пишемо протокол, якщо потрібно вказати порт, вказуємо). Команда стала необов'язковою. Раніше Host розумів
# Яндекс і Mail.RU. Тепер всі основні пошукові системи команду Host не враховують.
Host: www.site.ru

# Вкажіть один або декілька файлів Sitemap (дублювати для кожного User-agent
# не потрібно). Google XML Sitemap створює 2 карти сайту, як в прикладі нижче.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

к содержанию ↑

Перевірка robots.txt

Якщо файл robots.txt налаштований неправильно це може привести до множинних помилок в індексації сайту.
Перевірити, чи правильно налаштований robots.txt можна за допомогою безкоштовного інструменту Google Robots Testing Tool

Вибираємо наш сайт:
проверка robots txt

Вводимо в рядок шлях до нашого файлу robots.txt і тиснемо кнопку Перевірити:

перевірка robots txt

В результаті не повинно бути помилок і попереджень та файл повинен бути Доступний для роботів:

проверка файла robots txt в gsc

 

Якщо файл robots.txt налаштований правильно, це значно прискорить процес індексації вашого сайту.

Поділитися:

Послуги веб-студії

Наша веб-студія 5 років спеціалізується на розробці сайтів, мобільних додатків та інтернет-маркетингу. Створимо сайт виходячи з ваших потреб та побажань.