Как составить Robots.txt

Как создать robots.textRobots.txt. Давайте сегодня мы поговорим  с Вами разговор о том, как правильно составить и использовать файл под названием robots.txt. Но прежде всего давайте все же  разберемся для чего служит  этот файл robots.txt? Этот файл служит для того, чтобы показать поисковым роботам, прежде всего таким поисковым системам, как Яндекс и Google, какие папки и файлы сайта или блога запрещены к индексации ими. Файл robots.txt  распологается как правило  в корневой директории блога или сайта.

Для таких сайтов,которые состоят из небольшого количества страниц, где то до 50, сайтов, составление  файла robots.txt практически ненужно. Такие сайты создаются для того, чтобы все страницы его индексировались поисковыми системами. Иначе, для чего его вообще создавать.

Совсем по другому состоит дело при создании больших динамических многостраничных проектов. Они создаются, как правило на CMS WordPress, DLE и других. Их в интернете довольно много: как платных, так и бесплатных. К примеру на WordPress, при создании блога или другого какого ресурса, имеется возможность появления дублированного контекста. А это может отриццательно влиять на ранжирование сайта или блога в поисковых системах. Поэтому там активно используется файл robots.txt.

Например, Yandex, для более быстрого удаления из индексации некоторых  директорий блога  требует прописывания исключаемых из индекса  директорий в файле robots.txt.

Файл robots.txt обычно выглядит так:

User-agent: *
Disallow: /delo.php
Disallow: /d123/
Disallow: /travel/dat/

Разберем поподробней.

В строчке User-agent мы  указываем  конкретный робот ( Yandex, Google, StackRambler ) или ставим * – тем самым мы указуваем - все роботы.

В строчке Disallow указываем  путь к конкретному файлу или  папке , запрещенной к индексации . Для разрешения  доступа  роботу  к конкретным  частям блога  или блогу  целиком, используют такую  директиву, как  Allow.  При этом,пустые строки  в файле  robots.text между строками  User-agent и Disallow, и Allow не допускаются.

Многие, для улучшения индексации сайта используют  sitemaps.xml. С помощью этого файла составляется карта сайта или блога. Вот ее и скармливают поисковому роботу.Путь к  Sitemap также прописывают в robots.text.

Наример:

User-agent: Yandex
Allow: /
Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml

Так же в robots.text можно вставить главное зеркало Вашего сайта.Для этого используется  директива Host.  Эта  директива, как утверждает  Help Яндекса, не дает гарантии при  выборе  указанного хоста как главного зеркала, но при принятии нужного  решения все же учитывает ее с довольно высоким приоритетом.

Например: Возьмем  www.mysite.ru как главное зеркало блога, следовательно  robots.txt для всех блогов из группы зеркал будет выглядеть так

User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.mysite.ru

Воспользовавшись  директивой Crawl-delay, вы  можете задать время обхода поисковиком страниц Вашего блога.С помощью этой директории задается  минимальный промежуток  времени (в секундах), между окончанием просмотра им  одной страницы и началом просмотра  последующей.

Например:

User-agent: Yandex
Crawl-delay: 2 # задает таймаут в 2 секунды

User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймаут в 4.5 секунды

Используя robots.text, Вы тем самым помогаете поисковому роботу индексировать Ваш ресурс так, как Вы бы это хотели.

А сейчас представляю Вашему вниманию следующие несколько сайтов, с которых можно получить жирные ссылки:

1.24open.ru ТИЦ650 Создаем свой блог

2.9months.ru Создаем дневникhttp://blogstill.ru/wp-admin/post-new.php

3.aeterna.ru Создаем блог. Пишим статьи.

Узнайте, как можно организовать Кросспостинг в ЖЖ, твиттер, LI, blogger для повышения ТИЦ и PR блога.

Похожие статьи


Понравилась статья? Вы можете оставить отзыв или подписаться на RSS, чтобы автоматически получать информацию о новых статьях.

Комментариев пока нет.

Ваш отзыв

Деление на параграфы происходит автоматически, адрес электронной почты никогда не будет опубликован, допустимый HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

*

*