Универсальный парсер контента
Новая тема Написать ответ
# Пн Мар 24, 2008 11:47 amъъъ Зарег.: 07.08.2006 ; Сообщ.: 663Ответить с цитатой
Появилось предложение о продаже единичных (пока) копий скрипта.

Что делает: парсит контент с указанных сайтов в свою БД и распределяет его по категориям.
Требования: php5, mysql5.
Цена: 200$ (одна копия с закрытым кодом).
Живой пример системы: hapala.ru
Где купить: http://hapala.ru/about

Хотелось бы узнать Ваше общее мнение о такой системе.


P.s. Почему я взялся за размещение этого объявления?
Ответ: мне очень нужен был скрипт, за который никто не хотел браться.
К счастью, человек нашелся. Работу выполнил грамотно, оперативно и терпеливо все объяснил.
По его просьбе, размещаю это объявление здесь.
Автор начнет отвечать на вопросы при первом проявлении интереса.
# Пн Мар 24, 2008 10:32 pmbaracuda Зарег.: 16.03.2007 ; Сообщ.: 693Ответить с цитатой
а подробности в студию можно.. на сколько он универсальный ? и автоматический
# Вт Мар 25, 2008 10:38 amdisc Зарег.: 24.03.2008 ; Сообщ.: 5Ответить с цитатой
Добрый день. Я автор этого скрипта и буду отвечать на все вопросы.
Более подробно так:
Скрипт грабит контент по HTTP протоколу. В админке создаются сначала категории, после добавляется ссылка на донора. Для донора необходимо добавить 2 строки(хапалки), первая это хапалка для парсинга списка ссылок, вторая хапалка для парсинга содержимого ссылки. Пример можно привести такой:
Есть новостной сайт, задача сграбить все новости по разделу Спорт. Создаем категорию "Спорт", забиваем в админку в созданную категорию ссылку на урл, с которого будем тянуть. Добавлем 2 хапалки и включаем в работу.
При этом надо настроить крон таким образом чтоб скрипт успевал обработать все ссылки, т.е. это зависит от кол-ва доноров и от того как быстро вам это надо. Пример, можно поставить грабить ссылки на новости каждые 30 минут, посты по этим ссылкам каждый час.

Хапалка - это специальное регулярное выражение. Создавать их можете как вы, так и заказывать у меня под каждый сайт. На данный момент программа может парсить только сайта без авторизации. В планах сделать возможность авторизации на удаленных сайтах.
# Вт Мар 25, 2008 11:46 ambaracuda Зарег.: 16.03.2007 ; Сообщ.: 693Ответить с цитатой
вопрос как выдираются статьи . насколько качественно.. а то бывает попадается лишний текст !да и титлы тоже бывают хитрые..

или я так понимаю надо под каждый сайт затачивать скрипт.. от сих до сих
# Вт Мар 25, 2008 12:20 pmdisc Зарег.: 24.03.2008 ; Сообщ.: 5Ответить с цитатой
Затачивается под каждый сайт сама хапалка. К примеру состоит текст из 2 частей, а между ними рекламный блок. Пишеться хапалка, которая дерет текст из 2-3 кусков страницы. ТОже самое можно и отнести к тайтлу, что он может быт ьв разных местах, но как одна строка вроде всегда.
На счет качества - есть в админке тест-панель для тестирования своих хапалок.
# Вт Мар 25, 2008 12:48 pmbaracuda Зарег.: 16.03.2007 ; Сообщ.: 693Ответить с цитатой
хм не буду умничать и хаить чей то продукт. я понимаю что к нему приложено время . знания и усилия..
скажу от себя лично .. продукт не универсален. с точки зрения СЕО грабить постоянно с малого количества сайтов .. ну проект обречен на сопли.. если уж грабить то брать массовостью.. например 300-400 источников !!! этож сколько времени надо потратить на написание хапалок. и настройки под каждый сайт !!!
в природе существую фришная версия. может она конечно и в 10 раз хуже но в всё же Manlix Site Grabber 1.0 который тоже умеет дёргать инфу. и если его подкорректировать то можно получить удобный продукт с исходным кодом.. поэтому считаю 200$ необоснованно высокая цена... или продавец чего то не договаривает !!!!
# Пт Мар 28, 2008 1:47 pmSirgey Зарег.: 06.05.2007 ; Сообщ.: 116Ответить с цитатой
А нафиг покупать за 200 баксов Smile
http://www.armadaboard.com/viewtopic.php?p=4503340#4503340

У меня нету исходников, но что - то мне подсказывает что у меня спёрли код Smile ТОчнее нет, не спёрли - мой открытый и может юзаться всем кто захочет.
# Пт Мар 28, 2008 2:16 pmBrokenBrake Зарег.: 16.02.2007 ; Сообщ.: 3432Ответить с цитатой
Здрасти! Если нужно настраивать регулярку под каждый сайт - это не универсальный парсер, а самый обыкновенный. Универсальным можно назвать только такой, который может самостоятельно определить на странице содержательную часть и вырезать её. Я так считаю.
# Сб Мар 29, 2008 5:53 amSirgey Зарег.: 06.05.2007 ; Сообщ.: 116Ответить с цитатой
To BrokenBrake: ты такой видел? Я видел попытки, скажу тебе честно - они далеки от уровня парсера с набором регэкспов.
Новая тема Написать ответ    ГЛАВНАЯ ~ РЕКЛАМА И ОБЪЯВЛЕНИЯ
 
Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.