|
|
|
|
Во первых, посмотри сорцы сайта,
Код: |
<meta content='blogger' name='generator'/>
|
CMS у них правильнее назвать или blogger или blogspot, с одной g.
Иное лечиться скорее просто удалением роботса, или же выставления его в полное разрешение на индексацию.
Код: |
User-agent: *
Allow: /
|
Сейчас СЕ достаточно умные, чтобы определить какая страница наиболее значима, если она схожа с мной на сайте.
Как раз всякие директивы в роботсе, в которых ты сам не уверен, приводят к подобным проблемам.
Пройдет какое то время, и СЕ склеит дубли выкинув не нужные страницы из выдачи. А то что их наблюдаешь по индексации, так оно и должно быть.
Цитата: |
Или может какие другие варианты есть, чтоб закрыть динамические страницы
|
Они там все динамические. Расширение .html уже как лет 10 ни о чем не говорит. |
|
|
|
|
|
Спасибо за ответ . Я тоже думал о том что лучше ничего не делать, что робот сам поймет что выкинуть, что оставить, но не был в этом уверен, так как шаблон не стандартный и в нем намного больше (в два раза) разметки данных.
Комментарии я был уверен и закрыл:
Disallow: /*?showComment* так как они у меня от ВК.
Признаюсь я чайник и только учусь ). Для меня чужое мнение было значимым. Ещё раз спс. |
|
|
|
|
|
Хоть стандарты по роботс едины, на деле каждый СЕ некоторые указания в нем может воспринимать по разному, поэтому проще оставить его по дефолту (с разрешением полной индексации сайта / удалить его) на рассмотрение СЕ. |
|
|
|
|
|
Совсем удалить, я не согласен. Тогда в индексе будет и архив и ярлыки. В дефолтном robots.txt blogger ярлыки по умолчанию уже закрыты. Сегодня опять в вебмастере увидел 2 новые ссылки на одну страницу (на новый пост), а старые не вылетают, остаются, че делать хз. Может все таки поставить ?
Disallow: /*?utm_source*
И роботу будет легче сайт индексировать, не обходить лишние дубли.
Кстати раньше такого не замечал, все началось последние пару апов. |
|
|
|
|
|
МАРС писал(а): |
Совсем удалить, я не согласен. Тогда в индексе будет и архив и ярлыки. В дефолтном robots.txt blogger ярлыки по умолчанию уже закрыты. Сегодня опять в вебмастере увидел 2 новые ссылки на одну страницу (на новый пост), а старые не вылетают, остаются, че делать хз. Может все таки поставить ?
Disallow: /*?utm_source*
И роботу будет легче сайт индексировать, не обходить лишние дубли.
Кстати раньше такого не замечал, все началось последние пару апов.
|
Цитата: |
Совсем удалить, я не согласен.
|
Это универсальное решение. Если особо в движок не вникать, так сбросить на дефолт его достаточно.
Цитата: |
Может все таки поставить ?
Disallow: /*?utm_source*
|
Не спец, но тогда уж ставь просто Disallow: ?utm_source
Значение директивы тут не регулярное выражение по моему. Учитывая то что я сообщал выше насчет разности восприятия этих тегов для СЕ. |
|
|
|
|
|
Так если я правильно понимаю директива Disallow: ?utm_source без слэша ( / ) наоборот дает добро на индексацию, или я ошибаюсь ?
Вроде как:
Disallow: / - запретить индексировать а
Disallow: - наоборот все индексировать |
|
|
|
|
|
МАРС писал(а): |
Так если я правильно понимаю директива Disallow: ?utm_source без слэша ( / ) наоборот дает добро на индексацию, или я ошибаюсь ?
Вроде как:
Disallow: / - запретить индексировать а
Disallow: - наоборот все индексировать
|
Чуть не так.
Разрешение индексации это директива, Allow: (значение-ссылка)
Запрет Disallow:
Речь о том, что в запрещающей директиве в (значение-ссылка) не нужно указывать корень /, а также иные обозначения регулярных выражений, такие как * - любой символ,
достаточно строго задать ?utm_source
Подробнее почитай на том же яндексе,
http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#allow-disallow
или на
http://robotstxt.org.ru/robotstxterrors
Цитата: |
Использование в Disallow символов подстановки (т.е. *)
Иногда хочется написать что-то вроде:
User-agent: *
Disallow: file*.html
для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).
|
Цитата: |
Отсутствие слешей при указании директории
Как в этом случае поступит робот?
User-agent: Yandex
Disallow: john
По стандарту, он не будет индексировать файл с именем “john” и директорию с именем “john”. Для указания только директории надо писать так:
User-agent: Yandex
Disallow: /john/
|
В общем вникай.
Или конкретно.
замени
Disallow: /*?utm_source*
на
Disallow: ?utm_source
Если иных указаний в роботс.тхт нет,
то он будет таким.
Код: |
User-agent: *
Disallow: ?utm_source
|
|
|
|
|
|
|
В том то и дело, я его перечитал вдоль и поперек, чем больше читаю, тем больше путаюсь , действует обратный эффект
Ты добрый человек, спс тебе что ещё возишься с таким неучем как я.
Поставлю так как ты советуешь:
Disallow: ?utm_source
Ещё есть маленький вопросик ? Я закрыл у себя коменты от ВК:
Disallow: /*?showComment*
Может мне переделать на:
Disallow: ?showComment
Как посоветуешь? |
|
|
|
|
|
Не приемлемо в яндексе robots.txt такая директория:
Disallow: ?utm_source
Сделал как вы посоветовали и мне в вебмастере яндекса, в анализе robots.txt пришло такое критическое сообщение:
Правило начинается не с символа '/' и не с символа '*'
Буду пробовать:
Disallow: /*?utm_source* |
|
|
|
|
|
Черт их знает.
Попробуй так, не буду тогда тебя более путать рекомендациями. Но звездочка на конце уж точно не нужна. И если он пишет "Правило начинается не с символа '/' и не с символа '*' ", то возможно и слеш в начале также.
Делайте вообще как считаете нужным.. в конце концов, если директива будет корява для СЕ, он её просто не учтет.
Отпиши потом после переиндексации, выкинет ли он "дубли". И какой вариант роботс.тхт у вас конечным будет при этом. |
|
|
|
|
|
Цитата: |
Отпиши потом после переиндексации, выкинет ли он "дубли". И какой вариант роботс.тхт у вас конечным будет при этом.
|
Хорошо. |
|
|
|
|
|
IseeDeadPeople, После двух недель наблюдений из *?utm_source что то выкинул, что то оставил. Новые ссылки из этой серии не залетают, т.к. я их закрыл. Но начали залетать двойники из мобильной версии .html?m=1 например. Хз что делать, закрывать мобильную версию нельзя, да и все не закроешь. Что то Яша не как не вкурит мой шаблон, наверное такой тупой как и его создатели. Посещаемость правда не падает. Меня пугает то что раньше он не вылазил с моего сайта, только статью опубликуешь, минут через пять она уже в поиске, сейчас же заходит через день наскоками. Это все началось после последнего изменения алгоритма, как удалили сервис поиск по блогам. Остается надеется на лучшее =), может все устаканится. |
|
|
|
|
|
Если по трафику все ОК, о чем беспокоиться.
А дальнейшее закручивание гаек в роботсе, как мне кажется приведет еще к большим простоям в индексации.
Моя рекомендация та же, полный индекс и пускай сам разбирается. |
|
|
|
|
|
|
|