Выдрать Содержимое html Страниц?
Новая тема Написать ответ
# Пн Сен 24, 2012 4:16 pmtvsm22 Зарег.: 03.03.2008 ; Сообщ.: 556Ответить с цитатой
Нужно вытащить содержимое html страниц, которое находится между двумя строками:
<!-- InstanceBeginEditable name="content" -->
текст
<!-- InstanceEndEditable -->

Выдрать и сохранить результат как отдельные html. Тобишь берем страницу html, убираем все лишнее, оставляя только между этими строками, сохраняем страницу.

Кто подскажет, чем это лучше сделать? Всего около 500 страниц. Далее планирую экспортировать это дело в Joomla при помощи zebroid'а
# Пн Сен 24, 2012 4:45 pmDK Зарег.: 18.06.2008 ; Сообщ.: 2425Ответить с цитатой
парсером
# Пн Сен 24, 2012 11:13 pmsydoow Зарег.: 29.06.2007 ; Сообщ.: 8213Ответить с цитатой
Если немного через попу, то я бы сделал так:
1) выкачал все страницы какой нибудь качалкой;
2) выдрал нужное содержимое текстпайпом.
# Вт Сен 25, 2012 9:11 amYabuti Зарег.: 28.11.2008 ; Сообщ.: 16263Ответить с цитатой
Два метода:
1) php-функция:
Код:
function get_content($t) {
   $t = "_целевой_урл_";
   $html = file_get_contents($t);
   $html = charset_x_win($html);
   $start_table = '<!-- InstanceBeginEditable name="content" -->';
   $end_table = '<!-- InstanceEndEditable -->';
   $start = strpos($html, $start_table);
   $end = strpos($html, $end_table);
   return substr($html, $start, $end - $start);
}


2) В Datacol создать новый парсер, указав границы <!-- InstanceBeginEditable name="content" --> и <!-- InstanceEndEditable -->.

Вообще практически любым парсером можно это сделать - ContentDownloader и т.д.
Drinks or Beer
# Вт Сен 25, 2012 10:18 amDrKronos Зарег.: 11.03.2008 ; Сообщ.: 13024Ответить с цитатой
http://habrahabr.ru/post/115710/
# Сб Окт 27, 2012 11:05 pmFreeDomain Зарег.: 20.01.2010 ; Сообщ.: 2Ответить с цитатой
Зенка справится . Даже бесплатная демо-версия. Настроить - 20-30 минут.
Новая тема Написать ответ    ГЛАВНАЯ ~ ТЕХНИЧЕСКИЕ ВОПРОСЫ
 
Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.