Правильный robots txt для wordpress

gotovij_robots_txtСегодня я расскажу вам об одном небольшом файле, который играет очень важную роль  в жизни сайта
Как создать файл робот.

Другими словами, что необходимо сделать, чтобы на вашем сайте статьи  индексировали поисковые системы, но не всё подряд.
Форма создания robots.txt  - обыкновенный текстовый файл

без умного html, его создают в  текстовом редакторе блокнот
Где находится файл робот - в корневой папке директории сайта public_html
Отсутствует или просто пустой файл робот - разрешается поисковому роботу проиндексировать все материалы блога

Имя файла робот пишется строчными - маленькими - незаглавными буквами
Загружается через менеджер закачек FileZilla или через админпанель хостинга.
Две директивы, которые строго должны присутствовать в файле robots.txt: User - agent и Disallow*

Дополнительная запись присутствует для разных ПС: Яндексу прописывают директиву Host для того, чтобы  определить  главное зеркало web - sajta.

Обязательные классические (прописные)  директивы

User - agent что она объясняет?
User - agent  заключает в себе название - имя поискового робота.
Для абсолютного обращения ко всем поисковым прописываем символ звёздочка *

Пишем: User-agent:*
Обращение сайта к роботу нашего Янa:
User-agent:Yandex

Disallow - запрет - данная директива указывает поисковому роботу на запрет индексации определённых записей, страниц, категорий, технических документов, неинтересных для посетителей.

Для индексирования всего сайта или блога прописываем таким образом:
Disallow:
Ранее писалось, сейчас считается устаревшим
Allow:/
Вот такое  мне пришло сообщение от Яндекс.Вебмастер  http://webmaster.yandex.ru

Новые правила обработки директив Allow и Disallow в файлах robots.txt
8.03.2012
 Добрый день!

Уведомляем вас об изменениях в обработке директивы 'Allow' файла robots.txt, с помощью которого вы можете разрешить или запретить индексирование сайта поисковым роботом Яндекса.

По новым правилам, если страница сайта попадает под действие нескольких директив 'Allow' и/или 'Disallow', то будет применяться директива с наибольшей длиной префикса URL. При определении длины префикса спецсимвол '*' не учитывается.

Если на вашем сайте в robots.txt совместно используются директивы 'Allow' и 'Disallow', пожалуйста, проверьте их на соответствие новым стандартам. В этом вам поможет наша форма проверки robots.txt.

Запрещаем на своём блоге индексировать файлы, которые содержат некоторые определённые сценарии, например сценарий вспомогательный cgi-bin. Что это за сценарий, я уже разобралась, но это такая нудистика - читать заумная тягомотина (для меня), поэтому просто нужно закрыть данный объект. И всё - таки даю вам ответ на вопрос Что такое cgi-bin?

Эта папка на веб-сервере, в которой хранятся скрипты, предназначенные для выполнения. Если приходит обращением с какому-то файлу из этой папки, то этот файл выполняется, а результат выполнения возвращается клиенту.Для скриптов, находящихся в этой папке, есть несколько особенностей:1) Первая строчка скрипта должна начинаться с символов #! за которыми следует путь к программе-интерпретатору данного языка программирования. Если скрипт написан на perl, то первая строчка выглядит так:#!/usr/bin/perl2) В случае с Unix-подобной операционной системой права на файл должны позволять выполнение этого файла. Обычно на скрипты выставляют права 755.

Чтобы поисковики не индексировали весь сайт
Определённый период сайт или блог находится на этапе разработки: установка плагинов, прописывание кодов в определённых файлах для защиты от любопытствующих и хакеров - взломщиков, написание статей,  нужно использовать соответствующую для роботов директиву в robots.txt

User-agent: *
Disallow: /

Блокируем доступ робота ко всему сайту до тех пор, пока вы не пропишите свои разрешения и запреты на определённые категории.

User-agent: *
Disallow: / #

Запрещаем  индексировать  файлы с определеным расширением, например, «htm», прописываем:

Disallow: *.htm$

Создаём условия роботу для ускорения индексации сайта

Для того, чтобы страницы блога быстрее появлялись в поиске, необходимо исключать всю информацию, которая не нужна: неинтересная или техническая информация для пользователей, ответы на марафонах и разных форумах, пока научимся как создавать карту сайта

С подробной и полезной информацией ознакомьтесь на сайте Генератор Sitemap   http://www.mysitemapgenerator.com/  
Следующий обязательный шаг: Создать xml карту сайта  

Здесь можете почитать много интересной информации, но уверяю вас, что здесь можно зубы сломать, особенно если незнакомы с html и приоритетами http://www.sitemaps.org/ru/protocol.html    
Вот что пишет Яндекс для помощи вебмастерам

Чтобы ускорить появление страниц сайта в поиске, воспользуйтесь нашими рекомендациями — во-первых, исключите из индексирования ненужную информацию, во-вторых, сообщайте роботу о новых страницах. Для этого:

  1. запретите в robots.txt индексирование страниц, неинтересных пользователям. Например, формы ответа на форуме, статистику посещений, страницы с результатами поиска, сайты-зеркала, документы на нераспространенных в рунете языках;
  2. создайте файл Sitemap с дополнительной информацией о страницах сайта, подлежащих индексированию;
3. создайте карту сайта, то есть страницу или несколько страниц, которые содержат ссылки на все документы сайта;
  4. настройте сервер на выдачу корректных заголовков ответов (например, если страница не существует, выдавать ошибку 404, а если поступил запрос If-Modified-Since, то выдавать код 304, если страница с указанной в запросе даты не изменялась).

Как запретить индексацию определённого участка текста
Окружаем определённую  запись статьи в служебный тег и этот окружённый участок не будет индексироваться роботами поисковиков

<code>&lt;!--noindex--&gt;Эта запись не будет индексироваться поисковиками&lt;!--/noindex--&gt;</code>

Есть другой валидный тег noindex, предназначенный только для нашего Яндекса

<code>&lt;!--noindex--&gt;Эта запись не будет учитываться только Яндексом&lt;!--/noindex--&gt;</code>

Невалидный тег noindex

<code>&lt;noindex&gt;Ваш пост - текст или код закрытый невалидным тегом&lt;/noindex&gt;</code>

Валидный тег noindex

<code>&lt;!--noindex--&gt;Ваш текст или код закрыт валидным тегом&lt;!--/noindex--&gt;</code>

Составляем файл по всем правилам, сохраняем как robots.txt

У меня он выглядит таким образом.
http://uspehmoney.ru/robots.txt

Загружаем данный файл через админпанель хостинга. Заходим в папку publick_html
Правильный robots txt для wordpress

Щёлкаем по папке publick_html, видим весь список файлов нашего блога. Загружаем через админпанель хостинга наш главный файлик

Правильный robots txt для wordpress

Проверить robots.txt можно в панели вебмастера Яндекса

http://webmaster.yandex.ru/robots.xml

Правильный robots txt для wordpress

Есть другой, более простой способ проверки данного файла:
http://имя_вашего_сайта.ru/robots.txt
Выделите, скопируйте данную строчку
http://uspehmoney.ru/robots.txt  
и вы увидите параметры моего файла роботс.

На сегодня всё. Появятся вопросы - задавайте.

С уважением Надежда и Интернет для начинающих

Маша Распутина "Льётся музыка"

Возможно Вас другие статьи заинтересуют:

● Как обезопасить сайт от обновления алгоритмов Google
Последние обновления поисковых фильтров заставили серьезно понервничать многих вебмастеров. Сначала вышел фильтр Panda, а когда все немного приноровились и научились работать ...
● Мощный плагин для WordPress по улучшению сайта
Идеалов для WordPress не существует. Но можно приблизить все настройки сайта на ВордПресс к нему.  Плагин создали практикующие вебмастера и ...
● Принципы работы поисковых систем. О сложном простыми словами
Статья простым языком описывает алгоритм работы "Яндекса", дает представление о релевантности и ранжировании, о факторах, влияющих на порядковый номер сайта ...
● Каталог сайтов DMOZ — как попасть
Многие вебмастера знают о том, что для сайтов существуют специальные каталоги, регистрация в которых в той или иной степени помогает ...
● Фильтры Яндекса и их влияние на сайт
Ваша площадка теряет позиции, снизился трафик, новые страницы никак не могут добавиться в индекс? Причина проста – ваш сайт попал ...

Комментарии 44

  • Здравствуйте, вы могли бы мне лично помочь с роботсом? все отправил в личку. Вроде все правильно веду, но многое непонятно. Только не отправляйте меня в поисковую. У всех по разному, а где правильнее — непонятно.

  • Надя, ты хотела статью написать, как убирать дубли картинок на сайте. как там еще не скоро напишешь. хочу прочитать. столько всего делать надо, учиться. Не знаю, на сколько меня хватит.

    • Олюшка, помню про обещание — дубли картинок убирать. 2-3 дня и будет готово. Там не одна статья, все так увязано. Знаешь, из меня уже несдержанность сыпется — матерки. С одним только переходом на другой хостинг столько дел вылезло, я чуть не обалдела. Но справилась. Ты правильно пишешь: столько работы с сайтом и все нужно успевать. Я даже на огород сейчас забила. Трава полыхает, а мне пофиг — разбираюсь с блогом.

  • Я не знал для чего нужна папка cgi-bin, знал только что там скрипты лежат для чего-то и больше ничего. Пытался понять, но слишком заумные вещи не для меня. Вы проще её назначение объяснили.

  • Я делала этот файл еще при обучении. Уже не помню все подробности. вот недавно мне человек давал консультацию на моем блоге по скайпу. Сказал, что у меня не индексируются комментарии читателей. Они закрыты для поиска. Я уже не знаю, что и как делать, чтобы исправить. А на одном сайте прочитала, что комментарии надо закрывать. Вот и как мне быть? Стоит ли что-то менять? Вообще, Надюша, мне надо пересмотреть свой роботс-файл, что-то плохо статьи мои индексируются и мало поискового трафика .

    • Долго я с этим роботсом соображала и сделала вывод: Когда создаешь блог, сразу нужно знать, какие рубрики у тебя будут, сразу их создать, по одной статье вставить для индексации и все сразу прописать в этом файле. Все дело в том, что если потом мы изменяем, редактируем, добавляем что — то в этот файл, Яндекс изменения принимает через 3-4 месяца, а потом уже как бы соглашается с внесенными изменениями. В общем не знаю, где лучше, где правда, учусь дальше. Да и кто нас учил этой науке? Сами после школ бегали да и бегаем по поисковым.

  • Надежда, вся закавыка в том, что тестовый блог у меня стоит не только на бесплатном, но и на платном хостинге, только домен другой. Бегет ведь дарит всем домены, они невзрачные, но зато бесплатные Может от этого что-то зависеть? На мой взгляд, нет. Но ведь любопытно же узнать, в чем причина.
    Кстати, нашла рекомендации Михаила Шакина по составлению роботса, все прослушала, посмотрела, как у него составлен, а потом выдачу его посмотрела. Та же петрушка: у него тоже проиндексированы посты типа сайт/feed. Если уж такие мэтры не могут с этой проблемой справиться, нам и вовсе можно не париться :-)
    Хотя нет, меня уже закоротило, буду дальше рыть эту тему, не хочу, чтобы блог в «соплях» был, а ведь чем дальше, тем таких страниц будет больше.

    • Елена, вполне может быть зависимость от Бегета. На одном бесплатном сервисе я установила ВПРесс, стала регулировать файлы, косячить начало. Помуздыкалась и забросила. Сделала тестовый на поддомене и все ровно пошло. Нормальный роботс я вроде нашла, но надо разбираться чо по чем. Ведь у всех разные сайты в том смысле, что у кого — то плагины, у других всё прописано кодами.

      Не только посты проиндексированы с фидом, там еще одну вещь обнаружила — Гугл индексирует. Вот сейчас разбираюсь: как и что. В общем на ВП работы хватит на ближайшие 300 лет. Так и доживем до 300 летия. Меня тоже многое коротит, ищу, время уходит, нахожу. Нашла одну информацию, изучу — применю — посмотрю, что получится. На проверку ведь время нужно — не день и не два. А по поводу робота Михаила — стоял у меня робот, потом другой поставила. Ян наверное разозлился на меня за этот робот и выкинул из 10 — ки ;)

      Это мое предположение, посмотрю, что будет дальше.

      • Возни с этим роботсами много, зато скучно нам никогда не будет! :-)
        Сегодня, кстати, наш праздник. Поздравляю! Желаю неуспокоенности души и оптимизма, ну и благосклонности Яши с Гошей, конечно :-)

        • Верно, возни много, зато с нашим ВПрессом нескучно, в особенности с роботсом. Спасибо Елена за поздравление! А благосклонность мы сами выгребем у Яши с Гошей.

          • Точно, сегодня как раз увидела, что Яша проиндексировал пару страниц, которые две недели в упор не видел. Гугл в этом плане парень более шустрый.

          • Верно, Гоша быстро забрасывает статьи в индекс, а вот Яша помедленнее. Он более разборчив и его понять можно: чистят рунет. Ведь очень часто бывает, что в ТОП 10 дорвеи и рекламные сайты, которые продвинулись за счет покупных ссылок. А нормальным простым и очень даже интересным сайтам нет ходу.

          • А я постоянно путаю файлы htaccess с robots-ом. Назначение их прекрасно знаю, а синтаксис их редактирования постоянно забывается, оттого и путается.

          • Научитесь март и этим премудростям. В свое время. Я до сих пор многого не знаю и путаю. И живу.

  • Помню одно время парился с этим robots.txt… а точнее вообще не знал о нем :Ъ

    • Да, с нашим роботцем не соскучишься. Уж расслабляться точно не получится. Вроде всё сделала, как положено, как я считаю, походишь по поисковой, ещё что — то новое накопаешь. =)

      • Во-во, меня сейчас индексация feed напрягает, уже всё позапрещала, все равно в поиске есть. У вас, вижу, такая же проблем:
        uspehmoney.ru/tag/plaginy-dlya-mozilly/feed
        Описание веб-страницы недоступно из-за ограничений в файле robots.txt.
        Как ее можно решить, не в курсе?

        • Если честно Елена, забодалась я с этим роботсом. Вроде все уже выставила, а все равно какие нибудь косяки выплывают. Сидела — думала над uspehmoney.ru/tag/plaginy-dlya-mozilly/feed Не знаю пока КАК, надо искать. Спрошу сегодня у одного товарища, заплачу ему — пусть поможет. Потом Вам напишу результат.

        • А я бы еще сама поэкспериментировала, все же люблю своими мозгами до всего доходить. Вот нашла на форуме как обсуждают эту проблему h ttp://ru.forums.wordpress.org/topic/rss-%D0%BA%D0%BE%D0%B
          C%D0%BC%D0%B5%D0%BD%D
          1%82%D0%B0%D1%80%D0%B8%D0%B5%D0%B2
          Но там в код лезть надо, как бы дров не наломать :-)

          • Я тоже люблю своими мозгами все доходить, также ищу интересные форумы и всегда можно найти интересную и полезную информацию. По поводу лезть в код: Создайте тестовый на поддомене с такой же темой, как сайт и там можно орудовать вовсю. Вот мой тестовый: h ttp://test.uspehmoney.ru/ Здесь я научилась как увеличить шрифт, убрала левый сайдбар и многое другое. Здесь я свободно лезу в код, даже если уложу в ноль, можно восстановить. А за ссылку спасибо — сделала ее неактивной.

          • У меня есть тестовый блог, благо на Бегете, где я сейчас квартируюсь, можно даже на бесплатном хостинге делать такие сайты. Вот только не пойму, почему бывает, что на тестовом блоге одно, а на постоянном другое. Хотя делаю один в один.

          • Елена, нужно чтобы на тестовом была такая же тема, как и на сайте. Лучше всего сделать на поддомене такую же тему. Тогда всё будет одинаково отображаться. А в robots.txt прописать
            User-agent: *
            Disallow: / #
            чтобы не индексировали ПС. На Бегете Вы сможете установить ту же тему, что у Вас на настоящем сайте? Установите тему родного сайта, там тоже CMS WordPress можно установить. А будет ли отображаться также, как и Ваш настоящий сайт, не могу сказать.

          • Ой, у нас уже такая узенькая полосочка обсуждений получается, пора дискуссию в какое-то другое место переносить :-)
            Да, на Бегете у меня стоит та же тем, те же плагины, все один в один, но почему-то разница между тестовым блогом и основным иногда заметна. Например, в тестовом горизонтальное меню с выпадающими подрубриками, а в основном их нет. Еще один плагин косячит, на тестовом все Ок, в основном косяки. Почему так? Не знаю :-(

          • Моя хорошая, не знаю, НО предполагаю. Может быть что — то связано с каким — то плагином и он косяки выдаёт. Или на хостинге что — то связаное с базами данных. Был у меня один плагин, который мне посадил блог — посещаемость. Сейчас готовлю статью, расскажу всё, как было у меня, думаю, что за ночь управлюсь — поставлю на блог.

            Леночка, сделайте поддомен http: //test.blog-catalog.ru/ — факт налицо и сразу видно сравнение. Не писала, теперь напишу: был у меня на бесплатном сайт, также установила ВПресс и тема такая же, как у меня на блоге. Стала прописывать коды в файлах, некоторые плагины вообще вразрез — резкая разница между тестовым на поддомене и на бесплатном. Плюнула и бросила на бесплатном сайт тренировочный.

  • В принципе наверное правильно, когда каждый настраивает робот под себя,он знает что запретить, что разрешить.
    Главное поначалу немножечко в этом разобраться.

    • В начале ведения блога много непонятных слов, потом, когда разберешься, начинаешь вникать — уже не так сложно. Единственное, времени уходит много на поиск информации, зато, когда сам сделаешь, уже запомнишь надолго эту тему. Сейчас смешно вспоминать, как я статью на блог ставила 4 — 5 часов, все срывалось, руки тряслись: то не там щёлкнешь, то картинка пропала — по новой загружаю. Ума не хватало просто зайти в медиафайлы и вставить в статью. А недавно зашла в папку загрузки — вау, чего там только нет. Чищу потихоньку.

  • Мне кажется роботс это еще одна причина поисковиков лишний раз прикопаться к сайту и тем самым побольше отсеять этих самых сайтов.
    Поэтому, какой он-идеальный роботс не знает никто, как и многие правила, по которым работают поисковые системы =)
    Ну мне так кажется..

    • В принципе идеала нет, но если покопаться досконально — можно сделать самому этот роботс. Это несложно кстати. В самом начале ведения блога я копировала этот файл, подставляя свои данные. Потом постепенно разобралась и оказалось, что он не такой уШ ;) и заморочливый. Материала накопала море по многим темам, статьи лежат ;) — всё — начинаю работать по полной.

  • У меня google индексировала replytocom несмотря на запрет в роботсе, пришлось запрещать в интсрумене вебмастеров, чтобы от дублей избавиться.
    Интересно существует ли идеальный роботс? Вот бы поисковые системы его выработали, чтобы нам было меньше проблем

    • Наверное, идеального роботс нет. Если бы он был, то у всех на сайтах стоял бы один шаблон рубрик — по стандарту. А так как рубрики у всех разные — вывод напрашивается сам. Я в роботсе прописала все — вроде бы все — посмотрю, что будет дальше.

  • А в свое время я с этим роботом так намучалась, когда совсем новичком была! За то теперь покопаться в нем труда большого не составляет! :P

    • Да УШ. Я сама хватанула с этим роботом, а с учётом того, что все пишут по разному и советуют тоже всяко разно. Но зато научилась и всем подсказываю.

  • Посмотрела robots.txt у Володи, и просто обалдела! Таких коротких еще не видела ни разу. Мне кажется так до конца и не ясно, каким он должен быть в идеале.

    • Верно Наталья, идеала нет, и что правильно, а что не так — многое непонятно. И какой робот файл поисковые индексируют лучше — тоже вопрос. Так и пробираемся сквозь джунгли к свету.

    • Есть такое мнение, что robots должен быть, как можно меньше. А закрывать от индексации надо средствами движка, смотрела у многих роботс почти пустой. Но сама я его заполнила, и пока все нормально работает

      • Я тоже просмотрела много сайтов, где роботс практически из двух строчек. Свой роботс я столько раз переделывала — пока пусть стоит, поумнею, может еще что придумаю. =)

  • Здравствуйте! статья и правда хорошая и подробная. Мне конечно как новичку тяжело еще все это проделать ,но в закладки занес буду разбираться, спасибо за хорошую информацию. =)

    • Ничего Котан, научитесь. Со временем разберётесь со всеми делами, не так всё сложно, просто нужно вникать, а на всё это нужно время. Так потихоньку и двигаемся. Что непонятно, задавайте вопросы, буду создавать темы и объяснять.

  • Приветствую, Надежда! Мне кажется, что в деле составления robots.txt главное не переусердствовать. Лучше пусть робот индексирует дольше, чем не индексирует какие-то важные части сайта. Вот, кстати, robots.txt на моем любимом сайте разработчиков WordPress.
    h ttp://digwp.com/robots.txt
    Посмотрите, ребята занимаются WordPress’ом много лет.

    • Рада видеть Вас Володя! Да Володя, согласна, главное не переусердствовать. Я запомнила хорошо Ваши слова, помните Вы мне писали не помню в какой статье, что мы все пробуем, идёт эксперимент. Как знать, чем он закончится? Что правильно, а что неверно? Каждый успех имеет свою цену.

      Ведь посмотрите, алгоритмы начали меняться вообще конкретно — многое непонятно практически для основного процента рунетчиков. Раньше ключи играли основную роль, потом другое началось, следом третье. Спасибо Вам за сайт — очень много такого, о чём я и не подозревала. Буду изучать. Думала — думала, буду продолжать также писать на блог ДЛЯ ЛЮДЕЙ, а там — что будет.

  • Такая подробная статья. Спасибо. Глянула одним глазом на ваш файл. Кажется, нашла там незнакомую строчку. Надо будет еще более внимательно все перечитать. Пока беру в закладки.

    • Да, статью делала долго, но все моменты осветила. По крайней мере те, которые мне встречались и были непонятны.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *