Как использовать базу спарсенных главных страниц?
На страницу Пред.  1, 2
Новая тема Написать ответ
# Ср Июл 27, 2016 12:19 pmJohn Doe Зарег.: 25.06.2010 ; Сообщ.: 4332Ответить с цитатой
azsx писал(а):
сделаю каталог сайтов.


По какому принципу там будут распределяться сайты? Каталоги тоже разные бывают.
# Ср Июл 27, 2016 12:43 pmazsx Зарег.: 06.06.2009 ; Сообщ.: 65Ответить с цитатой
пока не знаю. Каталога же еще нет.
но думаю тут сделать то всё можно не сложно, по любому параметру, по которому можно создать поле (например ip) - можно сделать выборку.
# Ср Июл 27, 2016 1:21 pmСergio Зарег.: 08.07.2013 ; Сообщ.: 1283Ответить с цитатой
azsx, а зачем тебе паскаль и основы БД? Работаешь программистом? Или для учебы нужно?
# Чт Июл 28, 2016 3:39 amazsx Зарег.: 06.06.2009 ; Сообщ.: 65Ответить с цитатой
Просто интересно, занимаю этим в свободное время. Конечно ресурсов не хватет.
Многие другие вещи меня волнуют очень слабо, которыми обычно забивают свою жизнь другие люди.
---
моя работа ТП финансистов гос служащих. С одной стороны там программирование требуется иногда, с другой стороны программа может целый тех процесс заменить, на котором работают люди (короче сокращает работу у людей). Поэтому программ я не пишу.
Паскаль - потому что другие языки для меня сложные.
зы
пошли разговоры за жизнь уже Smile
Вы Сergio чем занимаетесь?
# Чт Июл 28, 2016 4:54 amYabuti Зарег.: 28.11.2008 ; Сообщ.: 16263Ответить с цитатой
azsx писал(а):
Чтобы повторить паскаль и основы БД (постгрес, будь он неладен) я неспешно написал рабочую программу, которая парсит главные и роботс. В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных. Отмечу, что допустил непоправимые ошибки, так что если для чего то рабочего юзать эту базу, надо переделывать чуть более, чем всё. Но зато я знаю как надо сделать лучше Smile
Тупо учусь. Сейчас сама структура БД исчерпала себя для моего обучения (разумнее бросить как есть) и ваще мне лучше оракле посмотреть внимательнее для учебы.
---
Я не знаю как использовать эти данные. Ну ясно, я сливаю альты у анкоров, могу вывести себе сайты рефов от определенных парнерок или найти кто юзает js определенные. Но как бы непонятно, нафига это? Как бы вы такое использовали?
Посоветуйте как можно использовать эти данные и надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)?
Сейчас проблемы требующие улучшения масштабирование до уровня yacu, кодировки (азиаты и арабы).


Да только если домены хорошие чекнуть, в смысле, трастовые и свободные для регистрации, которые уже разделегированы. Либо на возможность комментирования проверить и базу dofollow-блогов составить для быстрой индексации.
# Чт Июл 28, 2016 5:52 amazsx Зарег.: 06.06.2009 ; Сообщ.: 65Ответить с цитатой
Yabuti спасибо. Например, у меня заодно парсятся ссылки с главных. Таким образом я могу фиксировать ситуации, когда ссылка на домен есть - а сам донор разделегирован. Подумаю.
Как еще можно отверить траст для миллионо доменов?
Цитата:
Либо на возможность комментирования проверить и базу dofollow-блогов составить для быстрой индексации.


Хрумер у меня есть (надо продлять), методы сбора площадок под спам мне известны. Толку от моей базы будет только урлы миллиониками и исключить совсем дохлое изначально (типа на странице только hello). Такое же я соберу хрефером без напряга.
# Чт Июл 28, 2016 8:53 amСergio Зарег.: 08.07.2013 ; Сообщ.: 1283Ответить с цитатой
Цитата:
Вы Сergio чем занимаетесь?


Вебмастер самоучка. Пытаюсь заработать в интернете, раскручивая свои сайты.
# Пт Июл 29, 2016 3:19 pmDoc Зарег.: 31.03.2010 ; Сообщ.: 4909Ответить с цитатой
Цитата:
В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных.


Цитата:
моя работа ТП финансистов гос служащих.


Похоже, у тебя на работе куча свободного времени. С такими ресурсами можно было бы и майнингом заняться. Wink
# Вс Июл 31, 2016 4:37 amSkyworker Зарег.: 25.12.2013 ; Сообщ.: 10901Ответить с цитатой
azsx писал(а):
Yabuti спасибо. Например, у меня заодно парсятся ссылки с главных. Таким образом я могу фиксировать ситуации, когда ссылка на домен есть - а сам донор разделегирован. Подумаю.
Как еще можно отверить траст для миллионо доменов?

Этого мало будет для поиска хороших дропов, нужно еще уметь топы Гугла проверять на трафф для таких доменов. А так-то показатели могут быть хорошими, а толку от таких доменов ноль.
# Пн Авг 01, 2016 12:39 pmToulan Зарег.: 12.07.2012 ; Сообщ.: 3172Ответить с цитатой
azsx, а зачем тебе все это? Планируешь продавать базу или сам в вебмастера решил податься?
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ
 На страницу Пред.  1, 2
Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.