robots.txt - "последние штрихи". > ПОИСКОВЫЕ СИСТЕМЫ > Форум для вебмастеров ArmadaBoard.com

robots.txt - "последние штрихи".

На страницу 1, 2 След.

Новая тема

Написать ответ

ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ

# Чт Май 14, 2009 10:41 pmIseeDeadPeople Зарег.: 06.12.2005 ; Сообщ.: 21912

Ответить с цитатой

.. давайте еще раз уточним.. насчет сабжа..

для трех топ се - Гугль/Яху/Мсн

для полной и неограниченной индексации сайта, как лучьше

1) оставить robots.txt пустой полностью ( я так делаю.. и СЕ понни-боты бегают хорошо)
2) или заполнить его строками:

Код:

User-agent: *
Allow: /

3) это строки верны.. ? т.е. такой код точно разрешит ВСЕМ индексить ВСЁ ?

4) что грамотнее для 3-ТОП-СЕ, пустой файл оставлять или с кодом:

Код:

User-agent: *
Allow: /

.. чтоб обеспечить лучшую "прогрузку" моего поника.. ?

далее,
по материалу http://ru.wikipedia.org/wiki/Robots.txt
тама я вижу.. такие директивы
Нестандартные директивы:
строка1
Crawl-delay: 10
( 10 это секунды, устанавливает время, которое робот должен выдерживать между загрузкой страниц. )

строка2
Request-rate: 1/5
(загружать не более одной страницы за пять секунд)

5) какой из этих двух строк кого перекрывает, имеет больший приоритет, какая СЕ и какой понимает ?

6) Гугль/Яху/Мсн их соблюдают.. все или кто то частично ?
7) если кто то соблюдает.. и я ставлю задержки более, тама 5 сек-5 мин, то из за этого непоследует частичная и/или медленная индексация сайта.. т.к. при таких таймингах.. бот будет мене внимателен к сайту ?

_____________

тут именно не пони-боты, а понни-боты надо писать... две нн, так как мой позывной "..нормально?..нормально!.."

Оффтоп:

http://ru.wikipedia.org/wiki/Robots.txt :
Allow: имеет действие, обратное директиве Disallow — разрещает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.

Allow: /album1/photo.html
Disallow: /album1/

# Чт Май 14, 2009 11:46 pmMr.UFO Зарег.: 13.08.2006 ; Сообщ.: 513

Ответить с цитатой

IseeDeadPeople писал(а):

тут именно не пони-боты, а понни-боты надо писать... две нн, так как мой позывной "..нормально?..нормально!.."

Может не стоит больше есть грибы?

# Чт Май 14, 2009 11:56 pmSerebron Зарег.: 29.04.2009 ; Сообщ.: 16

Ответить с цитатой

Crawl-delay google не понимает

# Пт Май 15, 2009 5:18 pmLexix Зарег.: 11.07.2008 ; Сообщ.: 2143

Ответить с цитатой

Оставляй
User-agent: *
Allow: /
и не парься, и пусть боты сами ходят и выбирают за сколько пробегать по страницам, иначе можно такого наковырять

# Пт Май 15, 2009 6:00 pmMr.UFO Зарег.: 13.08.2006 ; Сообщ.: 513

Ответить с цитатой

Lexix писал(а):

Бред написал. Если не шаришь, лучше помолчи.

# Пт Май 15, 2009 6:27 pmLexix Зарег.: 11.07.2008 ; Сообщ.: 2143

Ответить с цитатой

Может конечно и не шарю куда уж мне. На всех своих сайтах именно такой роботс и делаю, так как в панели вебмастера в гугле изначальная конфигурация роботса именно такая. Это лишь моё мнение и человеку самому решать интересно оно ему или нет, я не навязываюсь. :smk:

# Пт Июн 12, 2009 11:24 pmIseeDeadPeople Зарег.: 06.12.2005 ; Сообщ.: 21912

Ответить с цитатой

Lexix,

.. файл..

пустой файл (длина 0 байт), но существующий физически на хосте.. для гугля/мсн/яху.. считаеться также (разрешающий всё индексить) как такой содержимое:

Код:

User-agent: *
Allow: /

?

.. и вообще, пробелы можно опускать (т.е. неставить вообще их) в коде выше.. ?
т.е. такой ликвиден

Код:

User-agent:*
Allow:/

.. также, после "Allow: /" - пробел, за слешем (/) должен быть ?
и также, в строке "User-agent: *" - пробел, после звездочки (*) должен быть ?

# Сб Июн 13, 2009 9:19 amhill Зарег.: 07.07.2008 ; Сообщ.: 2121

Ответить с цитатой

спокойно во всех поисковиках двигаю сайты (есть и топ1 по конкурентным ВЧ) с пустым роботсом. как говорится иногда лучше недобздеть.

# Сб Июн 13, 2009 10:39 amshhef Зарег.: 14.09.2007 ; Сообщ.: 7694

Ответить с цитатой

зачем нужен роботос?
правильно - верно указать куда ходить и как ходить
оператор Allow и нах не надо... робот и без него ходит по сайту
если нет конечно Disallow... а если он есть. тогда и ВИКИ помогает...

Цитата:

PS гляньте на роботсы наших гуру блогеров...

pSS у каждой посочнецы свои правила

# Вт Июн 16, 2009 2:25 pmIseeDeadPeople Зарег.: 06.12.2005 ; Сообщ.: 21912

Ответить с цитатой

так что посоветуете, использовать.. какой вариант.. 1 или 2, для полного разрешения всем индексации.. и дальнейшей поддержки:

1) robots.txt пустой полностью.
2) или заполнить его строками:

Код:

User-agent: *
Allow: /

(кстати, а директива "Allow" точно существует ? .. просто сам её в мануалах невидел)

также, если я хочу запретить двум ботам.. напр яндексу и мсн индексить мой сайт, но все остальные могут.. то robots.txt будет так выглядеть:

Код:

User-agent: *
Allow: /
User-agent: msn
Disallow: /
User-agent: yandex
Disallow: /

- правильно ?

также, в строке User-agent: можно указывать полную строку агента.. типа "Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)" (с пробелами) .. а не подстроку-признак "Twiceler"

+ там кстати, сравнение регистро независимо ?

спасибо!

Оффтоп:

- это `самочка`, .. я вижу что она плачет.. что мне сделать, чтоб она перестала лить слезы ?

# Сб Сен 26, 2009 9:40 pmIseeDeadPeople Зарег.: 06.12.2005 ; Сообщ.: 21912

Ответить с цитатой

я вот что прочел,

http://robotstxt.org.ru/RobotstxtErrors#h83-15

Цитата:

Инструкции Allow не существует!

Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!

Отдельные роботы (например googlebot) понимают директиву Allow

.. но я вот использую такой роботс сейчас:

Цитата:

User-agent: *
Allow: /

так директива "Allow: /" для топовых СЕ ботов никак небудет мешать индексировать.. типа воспринимать как подстрока как "Disallow: /" .. и давать запрет?
или лучьше пустой роботс.тхт сделать, чтоб точно небыло никаких путаных ограничений.. ?

# Вс Сен 27, 2009 6:51 pmgetcash Зарег.: 13.09.2009 ; Сообщ.: 16

Ответить с цитатой

robots.txt нужен для настройки особенностей сканирования поисковиков.
Также в него неплохо добавить ссылку на sitemap.

# Чт Окт 01, 2009 9:12 pmIseeDeadPeople Зарег.: 06.12.2005 ; Сообщ.: 21912

Ответить с цитатой

Оффтоп:

Цитата:

мне надо составить строчку "Disallow .."
т.е.
User-agent: Baiduspider
Disallow: ?

что поставить вместо "?", чтобы разрешить этому боту есть/индексировать/переходить на любые странички домена(неважно какой глубины), за исключением, тех.. в которых есть хоть одна цифра.. (неважно в папке, или имени самого файла) ?

напр.

Код:

http://domain.com/aaaa.html - можно индексировать
http://domain.com/aaaa/aaaa.html - можно индексировать

http://domain.com/aaaa2.html - нельзя индексировать
http://domain.com/aaa2/aaaa.html - нельзя индексировать

http://domain.com/12aa.html - нельзя индексировать
http://domain.com/aaa221/aaaa.html - нельзя индексировать

http://domain.com/1112.html - нельзя индексировать
http://domain.com/221/aaaa.html - нельзя индексировать

спасибо.

_____

вообще, СЕ baidu.com это чисто японский поисковик (т.е. трафик тама из Японии в основном ?), или Китайский.. (т.е. трафик тама из Китая в основном ?).. или композитный для всех азиатских языков.. стран.. или выборочный список превалирующих стран азии есть? Shocked

# Чт Окт 01, 2009 10:20 pmnomer8 Зарег.: 09.12.2008 ; Сообщ.: 2081

Ответить с цитатой

IseeDeadPeople, в японии популярен другой поисковик у которого лого синишар

Байда - китайце

# Пт Окт 02, 2009 2:32 amCyb Зарег.: 07.02.2009 ; Сообщ.: 839

Ответить с цитатой

Мой роботс для WP (если кому вдруг нужен)

Цитата:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-content/languages/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/upgrade/
Disallow: /xmlrpc.php

getcash сайт мап актуален только в случае, если сайт не в индексе. Проиндексированный сайт и так посещают боты поисковиков.

Новая тема	Написать ответ	ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ
На страницу 1, 2 След.

Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.