|
|
|
Нужно вытащить содержимое html страниц, которое находится между двумя строками:
<!-- InstanceBeginEditable name="content" -->
текст
<!-- InstanceEndEditable -->
Выдрать и сохранить результат как отдельные html. Тобишь берем страницу html, убираем все лишнее, оставляя только между этими строками, сохраняем страницу.
Кто подскажет, чем это лучше сделать? Всего около 500 страниц. Далее планирую экспортировать это дело в Joomla при помощи zebroid'а |
|
|
|
|
|
|
Если немного через попу, то я бы сделал так:
1) выкачал все страницы какой нибудь качалкой;
2) выдрал нужное содержимое текстпайпом. |
|
|
|
|
|
Два метода:
1) php-функция:
Код: |
function get_content($t) {
$t = "_целевой_урл_";
$html = file_get_contents($t);
$html = charset_x_win($html);
$start_table = '<!-- InstanceBeginEditable name="content" -->';
$end_table = '<!-- InstanceEndEditable -->';
$start = strpos($html, $start_table);
$end = strpos($html, $end_table);
return substr($html, $start, $end - $start);
}
|
2) В Datacol создать новый парсер, указав границы <!-- InstanceBeginEditable name="content" --> и <!-- InstanceEndEditable -->.
Вообще практически любым парсером можно это сделать - ContentDownloader и т.д.
|
|
|
|
|
|
|
Зенка справится . Даже бесплатная демо-версия. Настроить - 20-30 минут. |
|
|
|
|
|