Как парсить местные новости?
Новая тема Написать ответ
# Пт Мар 22, 2013 1:00 pmm_Stasuk Зарег.: 23.12.2007 ; Сообщ.: 5967Ответить с цитатой
Привет!
Давно не виделись, а кто-то вообще может быть меня не знает Smile

Есть региональный сайт, на котором я хочу размещать местные новости, которые не хочу писать сам, а хочу парсить с источников и 1 в 1 постить у себя. Как такое сделать?

Я в этой теме вообще ноль, распишите, пожалуйста, подробно. А если кто-то сможет помочь технически, я вообще буду благодарен.
# Пт Мар 22, 2013 4:10 pmNatud Зарег.: 26.10.2010 ; Сообщ.: 1786Ответить с цитатой
А RSS у доноров есть?
Есть варианты RSS грабить. Тем же zerber'ом к примеру, он и постить умеет в некоторые движки.

Развитие зербера остановилось, но софт работоспособен до сих пор.

Или прогеру заказать, если список доноров заранее известен и верстка у них не часто меняется, самый лучший вариант, имхо.

Content Downloader очень гибок в настройках, но чтобы им постить надо извращаться.
# Пт Мар 22, 2013 4:23 pmToulan Зарег.: 12.07.2012 ; Сообщ.: 3172Ответить с цитатой
А разве это не скажется негативно на сайте? Ведь это по сути копипаст.
# Пт Мар 22, 2013 4:41 pmYabuti Зарег.: 28.11.2008 ; Сообщ.: 16263Ответить с цитатой
Привет, m_Stasuk! Smile
Проще всего rss или atom брать, если есть, как уже сказал Natud.
Если ленты нет, то заказать скрипт для парсинга с прямым выводом или обработкой. На php выйдет дешевле всего и универсальное решение (либо чистый php, либо php+curl, если нужна эмуляция).

Вот простой скрипт-образец, выбирает все между двумя тегами заданной страницы (для кириллицы - дополнительно перекодируем либой a.charset.php):
Код:
<?php

$html = file_get_contents('http://litres.se/');

$pattern = '#\<article\>(.*)\<\/article\>#s';
preg_match_all($pattern,$html, $news);

print_r($news[1]);

?>


Берет все между тегами <article> и </article>.

Основные проблемы в этой задаче - нормальный парсинг источника (чтобы отдавал контент без подводных камней и препон) и дальнейшая очистка и подготовка к публикации.
# Пт Мар 22, 2013 6:04 pmm_Stasuk Зарег.: 23.12.2007 ; Сообщ.: 5967Ответить с цитатой
Toulan, если новости появляются у меня и у источника и при этом количество уникального контента на моем сайте велико — проблем не будет.

Пока буду переваривать, спасибо за подсказки, парни.
# Пн Мар 25, 2013 1:24 pmDoc Зарег.: 31.03.2010 ; Сообщ.: 4909Ответить с цитатой
Цитата:
А разве это не скажется негативно на сайте? Ведь это по сути копипаст.


Цель парсига не идексация, а предоставление пользователям полезного контента в одном месте, без утомительного лазания по другим сайтам.
# Вт Мар 26, 2013 1:30 pmPolaris Зарег.: 23.03.2010 ; Сообщ.: 3653Ответить с цитатой
Тоже вопрос к тем кто парсит новости. Откуда это делаете?
# Пн Апр 29, 2013 9:52 pmmordehay Зарег.: 02.02.2013 ; Сообщ.: 25Ответить с цитатой
Doc писал(а):
Цитата:
А разве это не скажется негативно на сайте? Ведь это по сути копипаст.


Цель парсига не идексация, а предоставление пользователям полезного контента в одном месте, без утомительного лазания по другим сайтам.


Сорри, но для меня актуален вопрос: :ks: -С ссылкой на источник? или.. за счет траста...плевать?
# Пн Апр 29, 2013 10:55 pmDrKronos Зарег.: 11.03.2008 ; Сообщ.: 13024Ответить с цитатой
mordehay, с ссылкой конечно. В чем боязнь ставить ссылки?
# Вт Апр 30, 2013 12:56 pmmordehay Зарег.: 02.02.2013 ; Сообщ.: 25Ответить с цитатой
DrKronos писал(а):
mordehay, с ссылкой конечно. В чем боязнь ставить ссылки?


Да как то, думал так :ks:
3 новости в день(минимум) на 30 днёв=90 ссылей ежемесячно на 12 мес
(но, на один рес?)
Стандартная боязнь новичка на исход-ие Mad
# Вт Апр 30, 2013 1:35 pmDrKronos Зарег.: 11.03.2008 ; Сообщ.: 13024Ответить с цитатой
Это же ссылки на источник, а не "купить дипломы оптом". Энциклопедическая ценность статьи вырастает, если указаны источники. Поисковый бот видит, что ты не плагиатишь, а цитируешь.
# Вт Апр 30, 2013 2:05 pmmordehay Зарег.: 02.02.2013 ; Сообщ.: 25Ответить с цитатой
DrKronos писал(а):
Это же ссылки на источник, а не "купить дипломы оптом". Энциклопедическая ценность статьи вырастает, если указаны источники. Поисковый бот видит, что ты не плагиатишь, а цитируешь.


Виноват, не так спросил. Проэкт не для продажи ссылок, тогда? А СДЛ-с монетизацией трафа? (корявые вопросы? сорри) :ks:
# Вт Апр 30, 2013 3:13 pmDrKronos Зарег.: 11.03.2008 ; Сообщ.: 13024Ответить с цитатой
mordehay, топик про СДЛ.
# Вт Апр 30, 2013 3:16 pmmordehay Зарег.: 02.02.2013 ; Сообщ.: 25Ответить с цитатой
DrKronos писал(а):
mordehay, топик про СДЛ.


Мне очень стыдно, за невнимательность :ks:
# Пн Май 06, 2013 2:50 amSpurius Зарег.: 28.11.2012 ; Сообщ.: 11Ответить с цитатой
m_Stasuk писал(а):
Привет!
Есть региональный сайт, на котором я хочу размещать местные новости, которые не хочу писать сам, а хочу парсить с источников и 1 в 1 постить у себя. Как такое сделать?



Ночной Бдун Smile wm.alensoft.com, в режиме парсера - бесплатный. (один месяц)
Делите, складываете источники по каналам, рубрикам, по времени запускается, парсит.

По видео - можно разобраться как каналы настраиваются.

Публикатор - платный :`( :`( :`(

Хорошая прога ИМХО.
Новая тема Написать ответ    ГЛАВНАЯ ~ ТЕХНИЧЕСКИЕ ВОПРОСЫ
 
Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.