Запрет на индексацию папки wp-admin
На страницу 1, 2  След.
Новая тема Написать ответ
# Сб Сен 08, 2007 12:47 pmvold Зарег.: 12.04.2006 ; Сообщ.: 46Ответить с цитатой
В своих советах Мэт Катс говорил, что нужно запретить индексировать поисковикам папку wp-admin в блогах ВордПресса, с помощью файла robots.txt.
Понятно, что при этом снижается количество работы роботов на сайте, увеличивается скорость индексации и это очевидно представляет интерес для поисковиков.
Но происходит ли при этом улучшение индексируемости полезной информации на сайте? То есть что получает сайт, если запретить индексацию бесполезных страниц?
Кто какого мнения по поводу запрета на индексацию папки wp-admin?
Может есть смысл запретить индексацию на блоге некоторых других папок?
# Сб Сен 08, 2007 3:31 pmChin Зарег.: 29.01.2007 ; Сообщ.: 2890Ответить с цитатой
vold,
Цитата:
Понятно, что при этом снижается количество работы роботов на сайте, увеличивается скорость индексации и это очевидно представляет интерес для поисковиков.


Ага, просто непомерно снижается. Файлов этак 5 не надо индексировать ))
Ничего сайт не получает, а на эту папку надо ставить пароль вообще, а не в robots.txt ее закрывать.
Имеет смысл запретить к индексации или запаролить всё, что не должно быть видно обычным серферам (в т.ч. служебно-системные папки)
# Сб Сен 08, 2007 3:36 pmdr.Greg Зарег.: 29.07.2006 ; Сообщ.: 2042Ответить с цитатой
Это можно и нужно делать для любых служебных/админских страниц, но никакого преимущества это ни в чем не дает.
# Вс Сен 09, 2007 4:58 pmTaburetkin Зарег.: 25.02.2007 ; Сообщ.: 1426Ответить с цитатой
User-agent: Googlebot
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$


User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
# Вс Сен 09, 2007 5:05 pmChin Зарег.: 29.01.2007 ; Сообщ.: 2890Ответить с цитатой
Taburetkin,
Думаю хватит такого Wink

User-agent: *
Disallow: wp-
Disallow: feed
Disallow: trackback
# Вс Сен 09, 2007 5:56 pmTaburetkin Зарег.: 25.02.2007 ; Сообщ.: 1426Ответить с цитатой
Chin,

в твоем случае не хватает / в начале (неправильный синтаксис)
например /feed

но в этом случае он запретит /feed, но проиндексирует /blah/feed

Disallow: /*/feed/$
*/ любя папка до
$ все файлы после
# Пн Сен 10, 2007 1:42 pmChin Зарег.: 29.01.2007 ; Сообщ.: 2890Ответить с цитатой
Насколько я понимаю синтаксис robots.txt - мой вариант запретит индексацию всего, что содержит указанную часть строк
А вот $ я вообще не припомню. Надо сходить почитать Smile
# Пн Сен 10, 2007 3:07 pmTaburetkin Зарег.: 25.02.2007 ; Сообщ.: 1426Ответить с цитатой
Chin,

твой пример имеет не правильный синтаксис. Всегда нужен / в начале.

Disallow: /wp-
Disallow: /feed
Disallow: /trackback
# Пн Сен 10, 2007 8:11 pmChin Зарег.: 29.01.2007 ; Сообщ.: 2890Ответить с цитатой
Нашел информацию, что можно и так и так, но предпочтительнее со слешем (хотя стандарт разрешает и без него)
Вот кстати полезные ссылки по сабжу
http://www.robotstxt.org/wc/faq.html
http://www.robotstxt.org/wc/norobots-rfc.html
Про использование * и $ в robots.txt так ничего и не нашел. Ты где взял то это хоть? Почитаю с интересом Smile
# Пн Сен 10, 2007 8:12 pmChin Зарег.: 29.01.2007 ; Сообщ.: 2890Ответить с цитатой
З.Ы. http://robotstxt.org.ru/RobotstxtErrors - тут про слеши
http://webmascon.com/topics/adv/8a.asp - тут про слеши тоже
(на русском обе ссылки)

UPD.: нашел по * и $
Это частные операторы гугля, как директива host для яндекса.
Т.е. общие стандарты файла robots.txt нарушаются, но в гугле это сработает.
http://www.google.ru/support/webmasters/bin/answer.py?answer=40367&topic=8846
но как то мне не нравится стандарты нарушать. Например в оригинале нет оператора allow, а гугль им зачем-то оперирует Smile
Т.е. * и $ в гугле работать будет, а вот в остальных - хз, так что смотрите внимательнее, и пишите конкретно для гугля и для остальных пауков несколько блоков в robots.txt
# Пн Сен 10, 2007 11:30 pmTaburetkin Зарег.: 25.02.2007 ; Сообщ.: 1426Ответить с цитатой
Да все верно, У меня в первом посте как раз по ботам и разнесено.
# Пн Сен 10, 2007 11:41 pmChin Зарег.: 29.01.2007 ; Сообщ.: 2890Ответить с цитатой
Taburetkin, мне все равно не понятно, зачем Smile
Уж если совсем "оптимизировать", по моему так красивше:

User-agent: *
Disallow: wp-
Disallow: feed
Disallow: trackback

Синтаксис всё-таки не нарушается. Ну или можно слеш в начале поставить, те же яица, но вид с боку.
Делать этот robots.txt должен то же, что и твой (если слеши не ставить - то абсолютно точно то же, что и твой)
# Пн Сен 10, 2007 11:49 pmTaburetkin Зарег.: 25.02.2007 ; Сообщ.: 1426Ответить с цитатой
Chin,
Ну можно еще Яху и МСН туда всунуть.

Но я не хочу всем роботам feed, trakback запрещать. В этом-то все и дело. Есть куча ботов тянут фиды и иногда дают дополнительные линки
# Вт Сен 11, 2007 12:47 amChin Зарег.: 29.01.2007 ; Сообщ.: 2890Ответить с цитатой
Taburetkin, зачем туда яху и мсн всовывать?
Вот если не всем ботам хочешь запрещать - дело другое, еще есть смысл. Но тогда можно просто указать те, которым запретить хочешь Smile Минимализм рулит кмк Smile
# Вт Сен 11, 2007 2:18 pmalexf2000 Зарег.: 28.10.2005 ; Сообщ.: 62Ответить с цитатой
Цитата:
Disallow: feed
Disallow: trackback



Если я статью про трекбеки или фиды напишу, то её не проиндексирует, так что вариант Табуреткина лучше.
Новая тема Написать ответ    ГЛАВНАЯ ~ СОЦИАЛЬНЫЕ СЕТИ И БЛОГИ
 На страницу 1, 2  След.
Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.