Файл robots.txt для блога на WordPress

Розміщено 01-04-10 у розділі Інтернет.

Спостерігаючи за тим, як Яндекс сканує мій блог, я був, м’яко кажучи, здивований. Робот постійно сканував удвічі більше сторінок, ніж є насправді, а потім половину з них відсіював. Наприклад бот вантажив понад 40 сторінок, серед яких лише канали коментарів і публікацій (кожна адреса закінчується на /feed/), а через деякий час вилучав усе з пошуку, оскільки „Формат документа не поддерживается”. Також робот на ім’я Yandex полюбляє різноманітні „ліві” файли.

Який толк у такому тупорилому скануванні?! Це суттєво гальмує появу сайту в пошуці і відповідно затримує оперативне подання інформації користувачам. А зважаючи на критичні дні пошукових павуків, при такій ефективності індексування, сторінки веб-сайту чекатимуть на вихід у світ тижнями.

Цікаво, що Googlebot настільки не тупить, але теж частенько грішить, індексуючи різноманітний непотріб.

Оскільки роботи-шукачі не розуміють, що потрібно сканувати, а що ні, вирішив створити файлик із директивами – robots.txt. Між іншим у службі Яндекс.Вебмастер стисло подано хорошу довідку про використання файлу robots.txt. Проте цим я не обмежився. Після пошуків у нетрях і порівняльного аналізу різноманітних інструкцій для павуків, я створив ось такий файл robots.txt:

User-agent: *
Disallow: /xmlrpc.php
Disallow: /wp-app.php
Disallow: /wp-atom.php
Disallow: /wp-blog-header.php
Disallow: /wp-comments-post.php
Disallow: /wp-commentsrss2.php
Disallow: /wp-config-sample.php
Disallow: /wp-config.php
Disallow: /wp-cron.php
Disallow: /wp-feed.php
Disallow: /wp-links-opml.php
Disallow: /wp-load.php
Disallow: /wp-login.php
Disallow: /wp-mail.php
Disallow: /wp-pass.php
Disallow: /wp-rdf.php
Disallow: /wp-register.php
Disallow: /wp-rss.php
Disallow: /wp-rss2.php
Disallow: /wp-settings.php
Disallow: /wp-trackback.php
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /comments/feed/
Disallow: /feed/
Disallow: /feed/atom/
Disallow: /feed/rss/
Disallow: /rss/
Disallow: /trackback/
Disallow: /*/comments/feed/$
Disallow: /*/feed/$
Disallow: /*/feed/atom/$
Disallow: /*/feed/rss/$
Disallow: /*/rss/$
Disallow: /*/trackback/$
Allow: /wp-content/uploads/

Sitemap: http://ВАШСАЙТ/sitemap.xml.gz

Думаю, це перше й основне, що слід зробити, так би мовити, наріжний камінь оптимізації веб-сайту для пошукових систем.

Якщо ви зіткнулися з недолугим скануванням веб-сайту на двигуні WordPress, створіть файл robots.txt і вставте в нього стрічки, подані вище. За необхідності модифікуйте, додайте нові параметри й директиви, щоб пошукові системи відображали лише потрібний вміст.

Теги: , ,

Схожі публікації

3 Відповіді на "Файл robots.txt для блога на WordPress"

Bitwin  04-02-12

А в рядку “Sitemap: http://ВАШСАЙТ/sitemap.xml.gz” чому архів? не має бути просто xml?

empyreal  04-02-12

Ой, се так давно було. Зробив колись і забув)))
Ось що пише Google Webmaster Tools на той рахунок:
Line 41: Sitemap: http://МІЙСАЙТ/sitemap.xml.gz – Valid Sitemap reference detected
Значить усе гуд))) Сорі, що не можу внятно пояснити – ніколи навіть не намагався вникнути в тонкощі цих усіх настройок. Зробив усе, щоб працювало так, як треба і більше всі ті SEO- та WEB-заморочки не чіпаю)))

Bitwin  04-02-12

Дякую,буду знати. Я заморочувався, і нарешті знайшов відповідь!

Коментувати