|
|
|
Появилось предложение о продаже единичных (пока) копий скрипта.
Что делает: парсит контент с указанных сайтов в свою БД и распределяет его по категориям.
Требования: php5, mysql5.
Цена: 200$ (одна копия с закрытым кодом).
Живой пример системы: hapala.ru
Где купить: http://hapala.ru/about
Хотелось бы узнать Ваше общее мнение о такой системе.
P.s. Почему я взялся за размещение этого объявления?
Ответ: мне очень нужен был скрипт, за который никто не хотел браться.
К счастью, человек нашелся. Работу выполнил грамотно, оперативно и терпеливо все объяснил.
По его просьбе, размещаю это объявление здесь.
Автор начнет отвечать на вопросы при первом проявлении интереса. |
|
|
|
|
|
а подробности в студию можно.. на сколько он универсальный ? и автоматический |
|
|
|
|
|
Добрый день. Я автор этого скрипта и буду отвечать на все вопросы.
Более подробно так:
Скрипт грабит контент по HTTP протоколу. В админке создаются сначала категории, после добавляется ссылка на донора. Для донора необходимо добавить 2 строки(хапалки), первая это хапалка для парсинга списка ссылок, вторая хапалка для парсинга содержимого ссылки. Пример можно привести такой:
Есть новостной сайт, задача сграбить все новости по разделу Спорт. Создаем категорию "Спорт", забиваем в админку в созданную категорию ссылку на урл, с которого будем тянуть. Добавлем 2 хапалки и включаем в работу.
При этом надо настроить крон таким образом чтоб скрипт успевал обработать все ссылки, т.е. это зависит от кол-ва доноров и от того как быстро вам это надо. Пример, можно поставить грабить ссылки на новости каждые 30 минут, посты по этим ссылкам каждый час.
Хапалка - это специальное регулярное выражение. Создавать их можете как вы, так и заказывать у меня под каждый сайт. На данный момент программа может парсить только сайта без авторизации. В планах сделать возможность авторизации на удаленных сайтах. |
|
|
|
|
|
вопрос как выдираются статьи . насколько качественно.. а то бывает попадается лишний текст !да и титлы тоже бывают хитрые..
или я так понимаю надо под каждый сайт затачивать скрипт.. от сих до сих |
|
|
|
|
|
Затачивается под каждый сайт сама хапалка. К примеру состоит текст из 2 частей, а между ними рекламный блок. Пишеться хапалка, которая дерет текст из 2-3 кусков страницы. ТОже самое можно и отнести к тайтлу, что он может быт ьв разных местах, но как одна строка вроде всегда.
На счет качества - есть в админке тест-панель для тестирования своих хапалок. |
|
|
|
|
|
хм не буду умничать и хаить чей то продукт. я понимаю что к нему приложено время . знания и усилия..
скажу от себя лично .. продукт не универсален. с точки зрения СЕО грабить постоянно с малого количества сайтов .. ну проект обречен на сопли.. если уж грабить то брать массовостью.. например 300-400 источников !!! этож сколько времени надо потратить на написание хапалок. и настройки под каждый сайт !!!
в природе существую фришная версия. может она конечно и в 10 раз хуже но в всё же Manlix Site Grabber 1.0 который тоже умеет дёргать инфу. и если его подкорректировать то можно получить удобный продукт с исходным кодом.. поэтому считаю 200$ необоснованно высокая цена... или продавец чего то не договаривает !!!! |
|
|
|
|
|
|
Здрасти! Если нужно настраивать регулярку под каждый сайт - это не универсальный парсер, а самый обыкновенный. Универсальным можно назвать только такой, который может самостоятельно определить на странице содержательную часть и вырезать её. Я так считаю. |
|
|
|
|
|
To BrokenBrake: ты такой видел? Я видел попытки, скажу тебе честно - они далеки от уровня парсера с набором регэкспов. |
|
|
|
|
|