Как использовать базу спарсенных главных страниц?
На страницу 1, 2  След.
Новая тема Написать ответ
# Вс Июл 24, 2016 2:46 pmazsx Зарег.: 06.06.2009 ; Сообщ.: 65Ответить с цитатой
Чтобы повторить паскаль и основы БД (постгрес, будь он неладен) я неспешно написал рабочую программу, которая парсит главные и роботс. В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных. Отмечу, что допустил непоправимые ошибки, так что если для чего то рабочего юзать эту базу, надо переделывать чуть более, чем всё. Но зато я знаю как надо сделать лучше Smile
Тупо учусь. Сейчас сама структура БД исчерпала себя для моего обучения (разумнее бросить как есть) и ваще мне лучше оракле посмотреть внимательнее для учебы.
---
Я не знаю как использовать эти данные. Ну ясно, я сливаю альты у анкоров, могу вывести себе сайты рефов от определенных парнерок или найти кто юзает js определенные. Но как бы непонятно, нафига это? Как бы вы такое использовали?
Посоветуйте как можно использовать эти данные и надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)?
Сейчас проблемы требующие улучшения масштабирование до уровня yacu, кодировки (азиаты и арабы).
# Вс Июл 24, 2016 4:11 pmniramus Зарег.: 05.12.2009 ; Сообщ.: 477Ответить с цитатой
azsx писал(а):
Чтобы повторить паскаль и основы БД (постгрес, будь он неладен) я неспешно написал рабочую программу, которая парсит главные и роботс. В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных. Отмечу, что допустил непоправимые ошибки, так что если для чего то рабочего юзать эту базу, надо переделывать чуть более, чем всё. Но зато я знаю как надо сделать лучше Smile
Тупо учусь. Сейчас сама структура БД исчерпала себя для моего обучения (разумнее бросить как есть) и ваще мне лучше оракле посмотреть внимательнее для учебы.
---
Я не знаю как использовать эти данные. Ну ясно, я сливаю альты у анкоров, могу вывести себе сайты рефов от определенных парнерок или найти кто юзает js определенные. Но как бы непонятно, нафига это? Как бы вы такое использовали?
Посоветуйте как можно использовать эти данные и надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)?
Сейчас проблемы требующие улучшения масштабирование до уровня yacu, кодировки (азиаты и арабы).



Больше таких как ты тупо учащихся БД?

Ты по книгам учишься?
# Вс Июл 24, 2016 4:37 pmazsx Зарег.: 06.06.2009 ; Сообщ.: 65Ответить с цитатой
по книге.
# Вс Июл 24, 2016 5:03 pmniramus Зарег.: 05.12.2009 ; Сообщ.: 477Ответить с цитатой
azsx писал(а):
по книге.



Как книга называется?
Дай линк на платную версию книги
Я тоже пока еще думми
# Пн Июл 25, 2016 9:50 amDentz Зарег.: 04.04.2014 ; Сообщ.: 2170Ответить с цитатой
Цитата:
надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)


Было бы гораздо интереснее, если бы ты парсил только текстовый контент или емейл адреса.
# Пн Июл 25, 2016 10:47 amazsx Зарег.: 06.06.2009 ; Сообщ.: 65Ответить с цитатой
niramus я вам отвечу немного позже, книга в читалке, никак не могу домой добраться.
Dentz логично, что я в том числе могу выделять email. Сейчас я ради любопытства парсю альты и ссылки с главных. Предлагают муторный способ убедится, что покупные анкоры в топе яндекса не работают, но некоторый просмотр альтов меня уже почти убедил без эксперементов. Также любопытно сделать авто собираемый каталог (на 6 лямов страниц в хтмл у меня еще не было).
Выделять только текстовой контент, это не так просто для мира. Кодировки - это ваще капец. Некоторые задумки есть, только вот надо ли оно мне пытаться в одиночку перебороть наработки яндекса и гугла по анализу контента? Что я с этим делать то буду?
---
То есть как бы если понять зачем - то можно упереться, переписать, поиск сделать по шинглам прямо по хтмл коду и прочее. Но вот зачем???
# Пн Июл 25, 2016 2:26 pmCoooler Зарег.: 21.06.2010 ; Сообщ.: 4368Ответить с цитатой
azsx, что делать с уже готовой базой я не знаю, но если умеешь парсить, то вполне на этом можно зарабатывать деньги. Можно, к примеру, узнать, по каким запросам конкуренты получают посетителей, наполнять сайты, парсить RSS ленты...
# Вт Июл 26, 2016 4:24 amazsx Зарег.: 06.06.2009 ; Сообщ.: 65Ответить с цитатой
niramus PostgreSQL. Для профессионалов http://www.ozon.ru/context/detail/id/1301929/
сд рома у меня нет, так как я ваще экономный и редко чо покупаю. зы как по мне так постгрес ваще слабо приспособлен из коробки под мою задачу.
---
Цитата:
по каким запросам конкуренты получают посетителей


Coooler интересная идея, сделать базу типа moab. Только надо сперва этим заняться, надо перебрать кучу счетчиков, которые могут отдавать в открытом виде запросы или хотя бы урлы страниц и прочую инфу, а также написать под каждый парсер. Но это ведь ваще много всего делать надо...
# Вт Июл 26, 2016 10:17 amceber Зарег.: 13.05.2010 ; Сообщ.: 4290Ответить с цитатой
azsx, может разместишь объяву на какой-нибудь бирже фриланса? Тебе люди сами напишут, что им надо. Заодно и деньги заработаешь.
# Вт Июл 26, 2016 10:48 amazsx Зарег.: 06.06.2009 ; Сообщ.: 65Ответить с цитатой
хихи. На форуме оптимизаторов не знают нафига этот хлам нужен. а на фрилансе знают?
Может тогда сразу на серч, минусов нахватать?
# Вт Июл 26, 2016 2:46 pmСтранник Зарег.: 28.06.2010 ; Сообщ.: 4617Ответить с цитатой
azsx, далеко не все умеют самостоятельно парсить и обладают нужным для этого функционалом.
# Ср Июл 27, 2016 4:06 amSkyworker Зарег.: 25.12.2013 ; Сообщ.: 11416Ответить с цитатой
azsx писал(а):
хихи. На форуме оптимизаторов не знают нафига этот хлам нужен. а на фрилансе знают?
Может тогда сразу на серч, минусов нахватать?

А нафига сообще такой софт писать, который ты сам не знаешь куда применить? По уму, сначала ставиться задача, а потом создается софт для автоматизации ее решения или ищется уже готовый программный продукт. А у тебя получилось все через задницу, и при этом ты от форумчан непонятно чего хочешь Shout
# Ср Июл 27, 2016 5:02 amazsx Зарег.: 06.06.2009 ; Сообщ.: 65Ответить с цитатой
Цитата:
По уму, сначала ставиться задача, а потом создается софт


задача выполнена, я попробовал свои силы в обработке средних (до 100гб) БД. Запросы всякие попробовать, данные с угла в угол погонять. Многое узнал Smile
Софта там несколько тысяч строчек на паскале, несерьезно.
Цитата:
при этом ты от форумчан непонятно чего хочешь


на этом форуме сорвалось, особо полезных советов нет. На буржуй форуме, например, ваще обсмеяли, мол сделал он, полчаса и несколько дней парсинга - такое любой сделает, мол слишком простая задача. На одном из форумов дали совет как использовать. зы не всегда и не везде всё срастается сразу, иногда надо почитать насмешки, чтобы решить вопрос.
# Ср Июл 27, 2016 8:14 amJohn Doe Зарег.: 25.06.2010 ; Сообщ.: 4332Ответить с цитатой
Цитата:
На одном из форумов дали совет как использовать.


Ну и как это можно применить? Smile
# Ср Июл 27, 2016 11:43 amazsx Зарег.: 06.06.2009 ; Сообщ.: 65Ответить с цитатой
сделаю каталог сайтов.
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ
 На страницу 1, 2  След.
Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.