|
|
|
помогите плиз!
или у меня руки кривые ,или моска нет....
Agress Parser прекрасно парсит Гугл, Яндекс...
но яху- никак!
дефолтовые настройки там вот:
url-
AbsoluteUrl-http://search.yahoo.com/search?ei=UTF-8&fr=sfp&p={REQUEST}{system\topdomains.txt}&fspl=1&n=100
UntilTextAfter-<a class=yschttl id="{TEXT}"
UntilNextLinkAfter-href="{NEXTLINK}">
Pattern-{TEXT}
- видно, что обращение идет, но никакого резалта.
вычитанное на Умаксе :
AbsoluteUrl-http://search.yahoo.com/search?ei=UTF-8&fr=sfp&p={REQUEST}{system\topdomains.txt}&fspl=1 &n=100
UntilTextAfter-/**http%3a//{TEXT}"
UntilNextLinkAfter-<a id="pg-next" class="pg" href="{NEXTLINK}">
Pattern-{TEXT}{BLACKWORD(%25|www.yahoo.com/|my.yahoo.com/|mail.yahoo.com/|help.yahoo.com/help/us/ysearch/|tools.search.yahoo.com/about/forsearchers.html|education.yahoo.com/re ference/dictionary/search%3fp=article|education.yahoo.com/reference/dictionary/search%3fp=intext|education.yahoo.com/reference/dictionary/search%3fp=article|/search/cache)}
Url-http://
тоже никак. во втором случае даже не идет обращение к Яхе.Пробовала ковырять сама- все равно не получаеццо!(хочу напарсить бэки.но он даже обычный запрос не видит, не говоря уже о "запрос")
|
|
|
|
|
|
попробовал щас потестить. урлы длинные выдаются. вот например искал просто Hello Kitty:
Код: |
http://rds.yahoo.com/_ylt=A0geu7bvBZVH5y0ACT5XNyoA;_ylu=X3oDMTFhdDNobGo2BHNlYwNzcgRwb3MDMTc5BGNvbG8DYWMyBHZ0aWQDREZSNV84MARsA1dTMQ--/SIG=12cqprfmj/EXP=1201035119/**http%3a //extrastellar.net/cjshellokittycrochetpattern.html
http://rds.yahoo.com/_ylt=A0geu7bvBZVH5y0ACz5XNyoA;_ylu=X3oDMTFhbHByMDVjBHNlYwNzcgRwb3MDMTgwBGNvbG8DYWMyBHZ0aWQDREZSNV84MARsA1dTMQ--/SIG=11lphgoq9/EXP=1201035119/**http%3a //hellokitty.groups.vox.com/
http://rds.yahoo.com/_ylt=A0geu7bvBZVH5y0ADT5XNyoA;_ylu=X3oDMTFhaWtlaXQwBHNlYwNzcgRwb3MDMTgxBGNvbG8DYWMyBHZ0aWQDREZSNV84MARsA1dTMQ--/SIG=11t56oa43/EXP=1201035119/**http%3a //www.nirve.com/parts.asp%3fcid=3007
http://rds.yahoo.com/_ylt=A0geu7bvBZVH5y0ADz5XNyoA;_ylu=X3oDMTFhaTZhNnNwBHNlYwNzcgRwb3MDMTgyBGNvbG8DYWMyBHZ0aWQDREZSNV84MARsA1dTMQ--/SIG=11k5eq1pe/EXP=1201035119/**http%3a //www.maxoe.com/hellokitty/
|
то есть у меня запрос обрабатывает и даже выдает бэки.
но перед бэками стоит урл яху и еще какие-то коды левые...
странно... |
|
|
|
|
|
Вот так чегото тащит. Точно есть результаты и мусора на первый взгляд не особо много. Больше ничем не помогу до утра(у меня пол-первого). Должно работать.
Код: |
url-
AbsoluteUrl-http://search.yahoo.com/search?ei=UTF-8&fr=sfp&p={REQUEST}{system\topdomains.txt}&fspl=1&n=100
UntilTextAfter-/**http%3a//{TEXT}"
UntilNextLinkAfter-<a id="pg-next" class="pg" href="{NEXTLINK}">
Pattern-{TEXT}{BLACKWORD(%25|www.yahoo.com/|my.yahoo.com/|mail.yahoo.com/|help.yahoo.com/help/us/ysearch/|tools.search.yahoo.com/about/forsearchers.html|edu cation.yahoo.com/reference/dictionary/search%3fp=article|education.yahoo.com/reference/dictionary/search%3fp=intext|education.yahoo.com/reference/dictionary/search%3fp=article |/search/cache)}
Url-http://
|
Hello_Kitty, для этого и нужен паттерн в этой схеме - чтобы убирать мусор. |
|
|
|
|
|
да я просто аггрессовым яху не парсил. только гугла и яшу.
а там все чистенько было, без лишнего хлама. |
|
|
|
|
|
Собственно я взял дефолтную строку запроса и прицепил к ней то что Берсерк на Юмаксе выкладывал. Очень похоже что у меня и у Ружанки один и тот же код, а дело не в нём совсем.
Ружанка, Яху не обробатывает оператор "Link" она перенаправляет на Yahoo Site Explorer при этом запросе. Пробуй тестить на обычных запросах.
PS:
Беки парсятся с яху конструкцией
linkdomain:tabletka-herostavilka.com/ -site:tabletka-herostavilka.com/ |
|
|
|
|
|
спасибо всем! буду пробовать! |
|
|
|
|
|
для беков:
Код: |
url-
AbsoluteUrl-http://siteexplorer.search.yahoo.com/advsearch?p={REQUEST}&bwm=i&bwms=p
UntilTextAfter-<a class="yschttl" href="{TEXT}"
UntilNextLinkAfter-<div id="yschnxtb"><big><a id="yschnxt" href="{NEXTLINK}"
Pattern-{TEXT}
|
|
|
|
|
|
|
|