Фришный индекс веба (5 миллиардов веб-страниц) > ПОИСКОВЫЕ СИСТЕМЫ

Фришный индекс веба (5 миллиардов веб-страниц)

Новая тема

Написать ответ

ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ

# Чт Ноя 10, 2011 1:05 pmСтранник Зарег.: 28.06.2010 ; Сообщ.: 4617

Ответить с цитатой

У кого какие варианты использования?

Цитата:

В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.

Поисковый кластер Common Crawl работает на Hadoop, данные хранятся в файловой системе HDFS, а обработка осуществляется средствами MapReduce, после чего весь контент сжимается в архивы формата ARC, файлы по 100 МБ (общий объём базы 40-50 ТБ). Файлы можно скачать к себе или напрямую обрабатывать на EC2 с помощью того же MapReduce. Доступ к bucket'у возможен только с флагом Amazon Requester-Pays, то есть для зарегистрированных пользователей EC2 (подробнее о Amazon Requester-Pays здесь). Скачать 40-50 ТБ из внешней сети обойдётся примерно в $130 по текущим расценкам Amazon, обращение через MapReduce внутри EC2 — бесплатно.

Данные доступны практически без ограничений: см. инструкцию по доступу к данным и условия пользования. Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.

хабр

# Чт Ноя 10, 2011 1:11 pmLonger Зарег.: 09.10.2007 ; Сообщ.: 2782

Ответить с цитатой

Это довольно интересно :thup:

.

Жесткий микс контента и все в шоколаде, кто шарит наверное уже серваки запустил в бой...

# Чт Ноя 10, 2011 1:22 pmСтранник Зарег.: 28.06.2010 ; Сообщ.: 4617

Ответить с цитатой

Аж дух захватывает от вариантов. Можно например взять семраш и проанализировать топовые сайты. Все дело лишь в мощностях.

# Пн Ноя 14, 2011 8:37 amblogmatic Зарег.: 10.08.2010 ; Сообщ.: 4775

Ответить с цитатой

Можно попробовать вычислить алгоритмы Гугла

# Пн Ноя 14, 2011 8:47 amdofollow Зарег.: 14.10.2011 ; Сообщ.: 83

Ответить с цитатой

blogmatic писал(а):

Можно попробовать вычислить алгоритмы Гугла

Думаю, что не получится. Т.к параметров в это базе слишком мало (думаю, что вряд ли мы когда-нибудь узнаем вообще все параметры влияющие на продвижение). Наверное можно только более точно подсчитать формулу вычисления PR.

Новая тема	Написать ответ	ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ

Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.