Помогите создать 1 правильную директиву в robots.txt
Новая тема Написать ответ
# Пн Апр 28, 2014 3:38 pmМАРС Зарег.: 08.02.2014 ; Сообщ.: 22Ответить с цитатой
Приветствую всех дорогие друзья !!! С некоторых пор в вебмастере яндекса начал находить проиндексированные ссылки на одну и туже статью, сайт на платформе bloggspot, например:

http://www.box-boi.ru/2014/04/Dmitriy-Chudinov-Svetlana-Kulakova-boi-1-iuynia-Moskve.html

и такую:

http://www.box-boi.ru/2014/04/Dmitriy-Chudinov-Svetlana-Kulakova-boi-1-iuynia-Moskve.html?utm_source=twitterfeed&utm_medium=twitter&utm_campaign..... и тд.

Я понимаю эти проиндексированные ссылки с твитера, фейсбука и тд.

Я с начало в файле robots.txt сделал такую дерективу:

Disallow: /*?

Но на следующий день в вебмастере повылетали нужные ссылки типа файла Sitemap, мобильная версия и др. Подскажите подойдет, если я сделаю такой вариантConfused

Disallow: /*?utm_source*

Или может какие другие варианты есть, чтоб закрыть динамические страницы, напоминаю сайт на платформе Bloggspot.

Всем заранее спасибо !!!
# Пн Апр 28, 2014 6:45 pmIseeDeadPeople Зарег.: 06.12.2005 ; Сообщ.: 21729Ответить с цитатой
Во первых, посмотри сорцы сайта,

Код:
<meta content='blogger' name='generator'/>



CMS у них правильнее назвать или blogger или blogspot, с одной g.

Иное лечиться скорее просто удалением роботса, или же выставления его в полное разрешение на индексацию.

Код:
User-agent: *
Allow: /




Сейчас СЕ достаточно умные, чтобы определить какая страница наиболее значима, если она схожа с мной на сайте.

Как раз всякие директивы в роботсе, в которых ты сам не уверен, приводят к подобным проблемам.

Пройдет какое то время, и СЕ склеит дубли выкинув не нужные страницы из выдачи. А то что их наблюдаешь по индексации, так оно и должно быть.

Цитата:
Или может какие другие варианты есть, чтоб закрыть динамические страницы



Они там все динамические. Расширение .html уже как лет 10 ни о чем не говорит.
# Пн Апр 28, 2014 8:34 pmМАРС Зарег.: 08.02.2014 ; Сообщ.: 22Ответить с цитатой
Спасибо за ответ . Я тоже думал о том что лучше ничего не делать, что робот сам поймет что выкинуть, что оставить, но не был в этом уверен, так как шаблон не стандартный и в нем намного больше (в два раза) разметки данных.

Комментарии я был уверен и закрыл:

Disallow: /*?showComment* так как они у меня от ВК.

Признаюсь я чайник и только учусь ). Для меня чужое мнение было значимым. Ещё раз спс.
# Вт Апр 29, 2014 8:03 amIseeDeadPeople Зарег.: 06.12.2005 ; Сообщ.: 21729Ответить с цитатой
Хоть стандарты по роботс едины, на деле каждый СЕ некоторые указания в нем может воспринимать по разному, поэтому проще оставить его по дефолту (с разрешением полной индексации сайта / удалить его) на рассмотрение СЕ.
# Вт Апр 29, 2014 6:46 pmМАРС Зарег.: 08.02.2014 ; Сообщ.: 22Ответить с цитатой
Совсем удалить, я не согласен. Тогда в индексе будет и архив и ярлыки. В дефолтном robots.txt blogger ярлыки по умолчанию уже закрыты. Сегодня опять в вебмастере увидел 2 новые ссылки на одну страницу (на новый пост), а старые не вылетают, остаются, че делать хз. Может все таки поставить ?

Disallow: /*?utm_source*

И роботу будет легче сайт индексировать, не обходить лишние дубли.

Кстати раньше такого не замечал, все началось последние пару апов.
# Вт Апр 29, 2014 7:33 pmIseeDeadPeople Зарег.: 06.12.2005 ; Сообщ.: 21729Ответить с цитатой
МАРС писал(а):
Совсем удалить, я не согласен. Тогда в индексе будет и архив и ярлыки. В дефолтном robots.txt blogger ярлыки по умолчанию уже закрыты. Сегодня опять в вебмастере увидел 2 новые ссылки на одну страницу (на новый пост), а старые не вылетают, остаются, че делать хз. Может все таки поставить ?

Disallow: /*?utm_source*

И роботу будет легче сайт индексировать, не обходить лишние дубли.

Кстати раньше такого не замечал, все началось последние пару апов.



Цитата:
Совсем удалить, я не согласен.



Это универсальное решение. Если особо в движок не вникать, так сбросить на дефолт его достаточно.

Цитата:
Может все таки поставить ?

Disallow: /*?utm_source*



Не спец, но тогда уж ставь просто Disallow: ?utm_source

Значение директивы тут не регулярное выражение по моему. Учитывая то что я сообщал выше насчет разности восприятия этих тегов для СЕ.
# Вт Апр 29, 2014 8:54 pmМАРС Зарег.: 08.02.2014 ; Сообщ.: 22Ответить с цитатой
Так если я правильно понимаю директива Disallow: ?utm_source без слэша ( / ) наоборот дает добро на индексацию, или я ошибаюсь ?

Вроде как:

Disallow: / - запретить индексировать а

Disallow: - наоборот все индексировать
# Ср Апр 30, 2014 7:45 amIseeDeadPeople Зарег.: 06.12.2005 ; Сообщ.: 21729Ответить с цитатой
МАРС писал(а):
Так если я правильно понимаю директива Disallow: ?utm_source без слэша ( / ) наоборот дает добро на индексацию, или я ошибаюсь ?

Вроде как:

Disallow: / - запретить индексировать а

Disallow: - наоборот все индексировать



Чуть не так.

Разрешение индексации это директива, Allow: (значение-ссылка)

Запрет Disallow:

Речь о том, что в запрещающей директиве в (значение-ссылка) не нужно указывать корень /, а также иные обозначения регулярных выражений, такие как * - любой символ,

достаточно строго задать ?utm_source

Подробнее почитай на том же яндексе,

http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#allow-disallow

или на

http://robotstxt.org.ru/robotstxterrors

Цитата:
Использование в Disallow символов подстановки (т.е. *)

Иногда хочется написать что-то вроде:

User-agent: *
Disallow: file*.html

для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).



Цитата:
Отсутствие слешей при указании директории

Как в этом случае поступит робот?

User-agent: Yandex
Disallow: john

По стандарту, он не будет индексировать файл с именем “john” и директорию с именем “john”. Для указания только директории надо писать так:

User-agent: Yandex
Disallow: /john/



В общем вникай. Wink


Или конкретно.

замени

Disallow: /*?utm_source*

на

Disallow: ?utm_source

Если иных указаний в роботс.тхт нет,

то он будет таким.

Код:

User-agent: *
Disallow: ?utm_source

# Ср Апр 30, 2014 11:17 amМАРС Зарег.: 08.02.2014 ; Сообщ.: 22Ответить с цитатой
Цитата:
Подробнее почитай на том же яндексе,

http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#allow-disallow

или на

http://robotstxt.org.ru/robotstxterrors



В том то и дело, я его перечитал вдоль и поперек, чем больше читаю, тем больше путаюсь Shocked , действует обратный эффект :nah:

Ты добрый человек, спс тебе что ещё возишься с таким неучем как я.

Поставлю так как ты советуешь:

Disallow: ?utm_source

Ещё есть маленький вопросик ? Я закрыл у себя коменты от ВК:

Disallow: /*?showComment*

Может мне переделать на:

Disallow: ?showComment

Как посоветуешь?
# Ср Апр 30, 2014 2:32 pmМАРС Зарег.: 08.02.2014 ; Сообщ.: 22Ответить с цитатой
Не приемлемо в яндексе robots.txt такая директория:

Disallow: ?utm_source

Сделал как вы посоветовали и мне в вебмастере яндекса, в анализе robots.txt пришло такое критическое сообщение:

Правило начинается не с символа '/' и не с символа '*'

Буду пробовать:

Disallow: /*?utm_source*
# Ср Апр 30, 2014 9:08 pmIseeDeadPeople Зарег.: 06.12.2005 ; Сообщ.: 21729Ответить с цитатой
Черт их знает.

Попробуй так, не буду тогда тебя более путать рекомендациями. Но звездочка на конце уж точно не нужна. И если он пишет "Правило начинается не с символа '/' и не с символа '*' ", то возможно и слеш в начале также.

Делайте вообще как считаете нужным.. в конце концов, если директива будет корява для СЕ, он её просто не учтет.

Отпиши потом после переиндексации, выкинет ли он "дубли". И какой вариант роботс.тхт у вас конечным будет при этом.
# Ср Апр 30, 2014 10:38 pmМАРС Зарег.: 08.02.2014 ; Сообщ.: 22Ответить с цитатой
Цитата:
Отпиши потом после переиндексации, выкинет ли он "дубли". И какой вариант роботс.тхт у вас конечным будет при этом.



Хорошо.
# Пн Май 12, 2014 3:39 pmМАРС Зарег.: 08.02.2014 ; Сообщ.: 22Ответить с цитатой
IseeDeadPeople, После двух недель наблюдений из *?utm_source что то выкинул, что то оставил. Новые ссылки из этой серии не залетают, т.к. я их закрыл. Но начали залетать двойники из мобильной версии .html?m=1 например. Хз что делать, закрывать мобильную версию нельзя, да и все не закроешь. Что то Яша не как не вкурит мой шаблон, наверное такой тупой как и его создатели. Посещаемость правда не падает. Меня пугает то что раньше он не вылазил с моего сайта, только статью опубликуешь, минут через пять она уже в поиске, сейчас же заходит через день наскоками. Это все началось после последнего изменения алгоритма, как удалили сервис поиск по блогам. Остается надеется на лучшее =), может все устаканится.
# Пн Май 12, 2014 4:18 pmIseeDeadPeople Зарег.: 06.12.2005 ; Сообщ.: 21729Ответить с цитатой
Если по трафику все ОК, о чем беспокоиться.

А дальнейшее закручивание гаек в роботсе, как мне кажется приведет еще к большим простоям в индексации.

Моя рекомендация та же, полный индекс и пускай сам разбирается.
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ
 
Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.