настройка Agress Parser для Яху
Новая тема Написать ответ
# Пн Янв 21, 2008 10:52 pmРужанка Зарег.: 26.12.2007 ; Сообщ.: 890Ответить с цитатой
помогите плиз!
или у меня руки кривые ,или моска нет....
Agress Parser прекрасно парсит Гугл, Яндекс...
но яху- никак!
дефолтовые настройки там вот:
url-
AbsoluteUrl-http://search.yahoo.com/search?ei=UTF-8&fr=sfp&p={REQUEST}{system\topdomains.txt}&fspl=1&n=100
UntilTextAfter-<a class=yschttl id="{TEXT}"
UntilNextLinkAfter-href="{NEXTLINK}">
Pattern-{TEXT}
- видно, что обращение идет, но никакого резалта.
вычитанное на Умаксе :
AbsoluteUrl-http://search.yahoo.com/search?ei=UTF-8&fr=sfp&p={REQUEST}{system\topdomains.txt}&fspl=1 &n=100
UntilTextAfter-/**http%3a//{TEXT}"
UntilNextLinkAfter-<a id="pg-next" class="pg" href="{NEXTLINK}">
Pattern-{TEXT}{BLACKWORD(%25|www.yahoo.com/|my.yahoo.com/|mail.yahoo.com/|help.yahoo.com/help/us/ysearch/|tools.search.yahoo.com/about/forsearchers.html|education.yahoo.com/re
ference/dictionary/search%3fp=article|education.yahoo.com/reference/dictionary/search%3fp=intext|education.yahoo.com/reference/dictionary/search%3fp=article|/search/cache)}
Url-http://

тоже никак. во втором случае даже не идет обращение к Яхе.Пробовала ковырять сама- все равно не получаеццо!(хочу напарсить бэки.но он даже обычный запрос не видит, не говоря уже о "запрос")

bums
# Пн Янв 21, 2008 11:54 pmHello_Kitty Зарег.: 30.04.2007 ; Сообщ.: 10763Ответить с цитатой
попробовал щас потестить. урлы длинные выдаются. вот например искал просто Hello Kitty:

Код:
http://rds.yahoo.com/_ylt=A0geu7bvBZVH5y0ACT5XNyoA;_ylu=X3oDMTFhdDNobGo2BHNlYwNzcgRwb3MDMTc5BGNvbG8DYWMyBHZ0aWQDREZSNV84MARsA1dTMQ--/SIG=12cqprfmj/EXP=1201035119/**http%3a
//extrastellar.net/cjshellokittycrochetpattern.html
http://rds.yahoo.com/_ylt=A0geu7bvBZVH5y0ACz5XNyoA;_ylu=X3oDMTFhbHByMDVjBHNlYwNzcgRwb3MDMTgwBGNvbG8DYWMyBHZ0aWQDREZSNV84MARsA1dTMQ--/SIG=11lphgoq9/EXP=1201035119/**http%3a
//hellokitty.groups.vox.com/
http://rds.yahoo.com/_ylt=A0geu7bvBZVH5y0ADT5XNyoA;_ylu=X3oDMTFhaWtlaXQwBHNlYwNzcgRwb3MDMTgxBGNvbG8DYWMyBHZ0aWQDREZSNV84MARsA1dTMQ--/SIG=11t56oa43/EXP=1201035119/**http%3a
//www.nirve.com/parts.asp%3fcid=3007
http://rds.yahoo.com/_ylt=A0geu7bvBZVH5y0ADz5XNyoA;_ylu=X3oDMTFhaTZhNnNwBHNlYwNzcgRwb3MDMTgyBGNvbG8DYWMyBHZ0aWQDREZSNV84MARsA1dTMQ--/SIG=11k5eq1pe/EXP=1201035119/**http%3a
//www.maxoe.com/hellokitty/



то есть у меня запрос обрабатывает и даже выдает бэки.
но перед бэками стоит урл яху и еще какие-то коды левые...
странно...
# Вт Янв 22, 2008 12:23 amCabal Зарег.: 20.10.2007 ; Сообщ.: 1360Ответить с цитатой
Вот так чегото тащит. Точно есть результаты и мусора на первый взгляд не особо много. Больше ничем не помогу до утра(у меня пол-первого). Должно работать.


Код:

url-
AbsoluteUrl-http://search.yahoo.com/search?ei=UTF-8&fr=sfp&p={REQUEST}{system\topdomains.txt}&fspl=1&n=100
UntilTextAfter-/**http%3a//{TEXT}"
UntilNextLinkAfter-<a id="pg-next" class="pg" href="{NEXTLINK}">
Pattern-{TEXT}{BLACKWORD(%25|www.yahoo.com/|my.yahoo.com/|mail.yahoo.com/|help.yahoo.com/help/us/ysearch/|tools.search.yahoo.com/about/forsearchers.html|edu
cation.yahoo.com/reference/dictionary/search%3fp=article|education.yahoo.com/reference/dictionary/search%3fp=intext|education.yahoo.com/reference/dictionary/search%3fp=article
|/search/cache)}
Url-http://




Hello_Kitty, для этого и нужен паттерн в этой схеме - чтобы убирать мусор.
# Вт Янв 22, 2008 12:42 amHello_Kitty Зарег.: 30.04.2007 ; Сообщ.: 10763Ответить с цитатой
да я просто аггрессовым яху не парсил. только гугла и яшу.
а там все чистенько было, без лишнего хлама. Smile
# Вт Янв 22, 2008 12:08 pmCabal Зарег.: 20.10.2007 ; Сообщ.: 1360Ответить с цитатой
Собственно я взял дефолтную строку запроса и прицепил к ней то что Берсерк на Юмаксе выкладывал. Очень похоже что у меня и у Ружанки один и тот же код, а дело не в нём совсем.
Ружанка, Яху не обробатывает оператор "Link" она перенаправляет на Yahoo Site Explorer при этом запросе. Пробуй тестить на обычных запросах.

PS:
Беки парсятся с яху конструкцией
linkdomain:tabletka-herostavilka.com/ -site:tabletka-herostavilka.com/
# Вт Янв 22, 2008 12:53 pmРужанка Зарег.: 26.12.2007 ; Сообщ.: 890Ответить с цитатой
спасибо всем! буду пробовать!
# Ср Янв 23, 2008 5:31 ammescalito Зарег.: 05.09.2006 ; Сообщ.: 97Ответить с цитатой
для беков:
Код:

url-
AbsoluteUrl-http://siteexplorer.search.yahoo.com/advsearch?p={REQUEST}&bwm=i&bwms=p
UntilTextAfter-<a class="yschttl" href="{TEXT}"
UntilNextLinkAfter-<div id="yschnxtb"><big><a id="yschnxt" href="{NEXTLINK}"
Pattern-{TEXT}

# Ср Янв 23, 2008 1:18 pmРужанка Зарег.: 26.12.2007 ; Сообщ.: 890Ответить с цитатой
нереальный дзякуй!
Новая тема Написать ответ    ГЛАВНАЯ ~ ТЕХНИЧЕСКИЕ ВОПРОСЫ
 
Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.