Выдрать Содержимое html Страниц? > ТЕХНИЧЕСКИЕ ВОПРОСЫ

# Пн Сен 24, 2012 4:16 pmtvsm22 Зарег.: 03.03.2008 ; Сообщ.: 556

Нужно вытащить содержимое html страниц, которое находится между двумя строками:

текст


Выдрать и сохранить результат как отдельные html. Тобишь берем страницу html, убираем все лишнее, оставляя только между этими строками, сохраняем страницу.

Кто подскажет, чем это лучше сделать? Всего около 500 страниц. Далее планирую экспортировать это дело в Joomla при помощи zebroid'а

# Пн Сен 24, 2012 4:45 pmDK Зарег.: 18.06.2008 ; Сообщ.: 2425

Ответить с цитатой

парсером

# Пн Сен 24, 2012 11:13 pmsydoow Зарег.: 29.06.2007 ; Сообщ.: 8213

Ответить с цитатой

Если немного через попу, то я бы сделал так:
1) выкачал все страницы какой нибудь качалкой;
2) выдрал нужное содержимое текстпайпом.

# Вт Сен 25, 2012 9:11 amYabuti Зарег.: 28.11.2008 ; Сообщ.: 16263

Ответить с цитатой

Два метода:
1) php-функция:

Код:

function get_content($t) {
$t = "_целевой_урл_";
$html = file_get_contents($t);
$html = charset_x_win($html);
$start_table = '';
$end_table = '';
$start = strpos($html, $start_table);
$end = strpos($html, $end_table);
return substr($html, $start, $end - $start);
}

2) В Datacol создать новый парсер, указав границы  и .

Вообще практически любым парсером можно это сделать - ContentDownloader и т.д.
Drinks or Beer

# Вт Сен 25, 2012 10:18 amDrKronos Зарег.: 11.03.2008 ; Сообщ.: 13024

Ответить с цитатой

http://habrahabr.ru/post/115710/

# Сб Окт 27, 2012 11:05 pmFreeDomain Зарег.: 20.01.2010 ; Сообщ.: 2

Ответить с цитатой

Зенка справится . Даже бесплатная демо-версия. Настроить - 20-30 минут.

Новая тема	Написать ответ	ГЛАВНАЯ ~ ТЕХНИЧЕСКИЕ ВОПРОСЫ

Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.