|
|
|
У кого какие варианты использования?
Цитата: |
В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.
Поисковый кластер Common Crawl работает на Hadoop, данные хранятся в файловой системе HDFS, а обработка осуществляется средствами MapReduce, после чего весь контент сжимается в архивы формата ARC, файлы по 100 МБ (общий объём базы 40-50 ТБ). Файлы можно скачать к себе или напрямую обрабатывать на EC2 с помощью того же MapReduce. Доступ к bucket'у возможен только с флагом Amazon Requester-Pays, то есть для зарегистрированных пользователей EC2 (подробнее о Amazon Requester-Pays здесь). Скачать 40-50 ТБ из внешней сети обойдётся примерно в $130 по текущим расценкам Amazon, обращение через MapReduce внутри EC2 — бесплатно.
Данные доступны практически без ограничений: см. инструкцию по доступу к данным и условия пользования. Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.
|
хабр |
|
|
|
|
|
Это довольно интересно .
Жесткий микс контента и все в шоколаде, кто шарит наверное уже серваки запустил в бой...  |
|
|
|
|
|
Аж дух захватывает от вариантов. Можно например взять семраш и проанализировать топовые сайты. Все дело лишь в мощностях. |
|
|
|
|
|
Можно попробовать вычислить алгоритмы Гугла |
|
|
|
|
|
blogmatic писал(а): |
Можно попробовать вычислить алгоритмы Гугла
|
Думаю, что не получится. Т.к параметров в это базе слишком мало (думаю, что вряд ли мы когда-нибудь узнаем вообще все параметры влияющие на продвижение). Наверное можно только более точно подсчитать формулу вычисления PR. |
|
|
|
|
|
|
|