Таймаут при парсинге.
Новая тема Написать ответ
# Вт Авг 16, 2011 1:04 pmJohn Doe Зарег.: 25.06.2010 ; Сообщ.: 4332Ответить с цитатой
Какую максимальную частоту запросов с одного IP можно выставить для парсинга выдачи что бы не получить бан? Какую вы паузу ставите?
# Вт Авг 16, 2011 4:16 pmJulpierto Зарег.: 26.07.2010 ; Сообщ.: 219Ответить с цитатой
2-4 сек
# Ср Авг 17, 2011 7:42 amashiko Зарег.: 02.08.2010 ; Сообщ.: 4127Ответить с цитатой
Julpierto писал(а):
2-4 сек


не слишком мало? я ставил 10-15 сек.
# Ср Авг 17, 2011 8:02 amexolon Зарег.: 22.11.2007 ; Сообщ.: 2397Ответить с цитатой
Только ставь таймаут рандомный, а не постоянный.
# Ср Авг 17, 2011 9:56 amYabuti Зарег.: 28.11.2008 ; Сообщ.: 16263Ответить с цитатой
ставлю рандом 10-20, тогда меньше капч просит.
Яндекс более лоялен, а вот Гугл часто капчу запрашивает, плюс не любит паблик прокси (даже из хороших списков).
# Сб Авг 27, 2011 11:52 amplamar Зарег.: 17.03.2010 ; Сообщ.: 69Ответить с цитатой
По поводу лояльности яндекса могу посморить. Я обычно использую пачку проксей и хорошие задержки (минимум 15 сек в рамках работы с одним прокси) - и то банит довольно быстро
# Сб Авг 27, 2011 4:32 pmexolon Зарег.: 22.11.2007 ; Сообщ.: 2397Ответить с цитатой
Прокси только ты юзаешь?
# Вс Авг 28, 2011 3:01 pmpixel Зарег.: 10.08.2008 ; Сообщ.: 626Ответить с цитатой
Yabuti писал(а):
ставлю рандом 10-20, тогда меньше капч просит.
Яндекс более лоялен, а вот Гугл часто капчу запрашивает, плюс не любит паблик прокси (даже из хороших списков).



Я ставлю от 7 до 15 сек

Там есть Google Ajax Api ключ
http://code.google.com/intl/ru-RU/apis/loader/signup.html

С ним капчи не просит, за 8 часов останавливается 2-3 раза на 5 минут. А так все отлично Smile
# Вс Авг 28, 2011 11:46 pmiwfyb Зарег.: 14.03.2008 ; Сообщ.: 2862Ответить с цитатой
если не ошибаюсь там в районе 15-20 сек надо.
но вообще лучше все-таки с прокси)
# Пн Авг 29, 2011 12:12 amIseeDeadPeople Зарег.: 06.12.2005 ; Сообщ.: 21733Ответить с цитатой
зависит от СЕ,
гугля помоему банит полюбому, вне зависимости от тайм аутов (вернее пауз, таймауты это скорее макс. ожидание времени ответа..), вернее дает каптчу, если за какое то кол-во времени, напр. 1 час, было столько то запросов, если юзать inurl: то как замечал побанит в раз 5 быстрее,
поэтому когда мне надо небольшую базу собрать,
я наоборот ставлю до 3-5-7 сек, чтобы он неуспел понять и побанить.
# Пн Авг 29, 2011 10:17 amexolon Зарег.: 22.11.2007 ; Сообщ.: 2397Ответить с цитатой
От запросов кстати очень сильно зависит.
Новая тема Написать ответ    ГЛАВНАЯ ~ ТЕХНИЧЕСКИЕ ВОПРОСЫ
 
Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.