На страницу 1, 2 След. |
|
|
.. давайте еще раз уточним.. насчет сабжа..
для трех топ се - Гугль/Яху/Мсн
для полной и неограниченной индексации сайта, как лучьше
1) оставить robots.txt пустой полностью ( я так делаю.. и СЕ понни-боты бегают хорошо)
2) или заполнить его строками:
Код: |
User-agent: *
Allow: /
|
3) это строки верны.. ? т.е. такой код точно разрешит ВСЕМ индексить ВСЁ ?
4) что грамотнее для 3-ТОП-СЕ, пустой файл оставлять или с кодом:
Код: |
User-agent: *
Allow: /
|
.. чтоб обеспечить лучшую "прогрузку" моего поника.. ?
далее,
по материалу http://ru.wikipedia.org/wiki/Robots.txt
тама я вижу.. такие директивы
Нестандартные директивы:
строка1
Crawl-delay: 10
( 10 это секунды, устанавливает время, которое робот должен выдерживать между загрузкой страниц. )
строка2
Request-rate: 1/5
(загружать не более одной страницы за пять секунд)
5) какой из этих двух строк кого перекрывает, имеет больший приоритет, какая СЕ и какой понимает ?
6) Гугль/Яху/Мсн их соблюдают.. все или кто то частично ?
7) если кто то соблюдает.. и я ставлю задержки более, тама 5 сек-5 мин, то из за этого непоследует частичная и/или медленная индексация сайта.. т.к. при таких таймингах.. бот будет мене внимателен к сайту ?
_____________
тут именно не пони-боты, а понни-боты надо писать... две нн, так как мой позывной "..нормально?..нормально!.."
Оффтоп: |
http://ru.wikipedia.org/wiki/Robots.txt :
Allow: имеет действие, обратное директиве Disallow — разрещает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.
Allow: /album1/photo.html
Disallow: /album1/
|
|
|
|
|
|
|
IseeDeadPeople писал(а): |
тут именно не пони-боты, а понни-боты надо писать... две нн, так как мой позывной "..нормально?..нормально!.."
|
Может не стоит больше есть грибы? |
|
|
|
|
|
Crawl-delay google не понимает |
|
|
|
|
|
Оставляй
User-agent: *
Allow: /
и не парься, и пусть боты сами ходят и выбирают за сколько пробегать по страницам, иначе можно такого наковырять  |
|
|
|
|
|
Lexix писал(а): |
Оставляй
User-agent: *
Allow: /
и не парься, и пусть боты сами ходят и выбирают за сколько пробегать по страницам, иначе можно такого наковырять
|
Бред написал. Если не шаришь, лучше помолчи. |
|
|
|
|
|
Может конечно и не шарю куда уж мне. На всех своих сайтах именно такой роботс и делаю, так как в панели вебмастера в гугле изначальная конфигурация роботса именно такая. Это лишь моё мнение и человеку самому решать интересно оно ему или нет, я не навязываюсь.  |
|
|
|
|
|
Lexix,
.. файл..
пустой файл (длина 0 байт), но существующий физически на хосте.. для гугля/мсн/яху.. считаеться также (разрешающий всё индексить) как такой содержимое:
Код: |
User-agent: *
Allow: /
|
?
.. и вообще, пробелы можно опускать (т.е. неставить вообще их) в коде выше.. ?
т.е. такой ликвиден
Код: |
User-agent:*
Allow:/
|
.. также, после "Allow: /" - пробел, за слешем (/) должен быть ?
и также, в строке "User-agent: *" - пробел, после звездочки (*) должен быть ? |
|
|
|
|
|
спокойно во всех поисковиках двигаю сайты (есть и топ1 по конкурентным ВЧ) с пустым роботсом. как говорится иногда лучше недобздеть. |
|
|
|
|
|
зачем нужен роботос?
правильно - верно указать куда ходить и как ходить
оператор Allow и нах не надо... робот и без него ходит по сайту
если нет конечно Disallow... а если он есть. тогда и ВИКИ помогает...
Цитата: |
http://ru.wikipedia.org/wiki/Robots.txt :
Allow: имеет действие, обратное директиве Disallow — разрещает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.
Allow: /album1/photo.html
Disallow: /album1/
|
PS гляньте на роботсы наших гуру блогеров...
pSS у каждой посочнецы свои правила |
|
|
|
|
|
так что посоветуете, использовать.. какой вариант.. 1 или 2, для полного разрешения всем индексации.. и дальнейшей поддержки:
1) robots.txt пустой полностью.
2) или заполнить его строками:
Код: |
User-agent: *
Allow: /
|
(кстати, а директива "Allow" точно существует ? .. просто сам её в мануалах невидел)
также, если я хочу запретить двум ботам.. напр яндексу и мсн индексить мой сайт, но все остальные могут.. то robots.txt будет так выглядеть:
Код: |
User-agent: *
Allow: /
User-agent: msn
Disallow: /
User-agent: yandex
Disallow: /
|
- правильно ?
также, в строке User-agent: можно указывать полную строку агента.. типа "Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)" (с пробелами) .. а не подстроку-признак "Twiceler"
+ там кстати, сравнение регистро независимо ?
спасибо!
Оффтоп: |
- это `самочка`, .. я вижу что она плачет.. что мне сделать, чтоб она перестала лить слезы ?
|
|
|
|
|
|
|
я вот что прочел,
http://robotstxt.org.ru/RobotstxtErrors#h83-15
Цитата: |
Инструкции Allow не существует!
Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!
Отдельные роботы (например googlebot) понимают директиву Allow
|
.. но я вот использую такой роботс сейчас:
Цитата: |
User-agent: *
Allow: /
|
так директива "Allow: /" для топовых СЕ ботов никак небудет мешать индексировать.. типа воспринимать как подстрока как "Disallow: /" .. и давать запрет?
или лучьше пустой роботс.тхт сделать, чтоб точно небыло никаких путаных ограничений.. ? |
|
|
|
|
|
robots.txt нужен для настройки особенностей сканирования поисковиков.
Также в него неплохо добавить ссылку на sitemap. |
|
|
|
|
|
Оффтоп: |
Цитата: |
robots.txt нужен для настройки особенностей сканирования поисковиков.
Также в него неплохо добавить ссылку на sitemap.
|
|
мне надо составить строчку "Disallow .."
т.е.
User-agent: Baiduspider
Disallow: ?
что поставить вместо "?", чтобы разрешить этому боту есть/индексировать/переходить на любые странички домена(неважно какой глубины), за исключением, тех.. в которых есть хоть одна цифра.. (неважно в папке, или имени самого файла) ?
напр.
Код: |
http://domain.com/aaaa.html - можно индексировать
http://domain.com/aaaa/aaaa.html - можно индексировать
http://domain.com/aaaa2.html - нельзя индексировать
http://domain.com/aaa2/aaaa.html - нельзя индексировать
http://domain.com/12aa.html - нельзя индексировать
http://domain.com/aaa221/aaaa.html - нельзя индексировать
http://domain.com/1112.html - нельзя индексировать
http://domain.com/221/aaaa.html - нельзя индексировать
|
спасибо.
_____
вообще, СЕ baidu.com это чисто японский поисковик (т.е. трафик тама из Японии в основном ?), или Китайский.. (т.е. трафик тама из Китая в основном ?).. или композитный для всех азиатских языков.. стран.. или выборочный список превалирующих стран азии есть?  |
|
|
|
|
|
IseeDeadPeople, в японии популярен другой поисковик у которого лого синишар
Байда - китайце |
|
|
|
|
|
Мой роботс для WP (если кому вдруг нужен)
Цитата: |
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-content/languages/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/upgrade/
Disallow: /xmlrpc.php
|
getcash сайт мап актуален только в случае, если сайт не в индексе. Проиндексированный сайт и так посещают боты поисковиков. |
|
|
|
|
|
|
|