На страницу 1, 2 След. |
|
|
Исследовательская команда Google опубликовала на arXiv.org статью "Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources", в которой рассматривается вопрос вычисления для определённой веб-страницы специальной репутационной характеристики Knowledge-Based Trust (KBT). Планируется, что KBT должна стать основой для будущего алгоритма поисковой машины Google, выстраивающей сайты в соответствии с их «надёжностью».
Известно, что алгоритм ссылочного ранжирования PageRank определяет важность веб-страницы как число ссылок, ведущих на неё. Реальный поиск Google учитывает ещё множество факторов, таких как наличие определённых слов на страницах сайтов, актуальность информации, местоположение пользователя, адаптивность к мобильным устройствам — всего таких факторов около 200. Считается, что обновление поискового алгоритма в сентябре 2013 года, известное как «Колибри» (Hummingbird), научило Google реагировать не только на ключевые слова, а и на контексты и образы, их сопровождающие. Прошлогоднее обновление алгоритма «Голубь» (Pigeon) привело к более релевантным результатам поиска с географически зависимой информацией.
Новый подход к ранжированию сайтов рассматривает важность веб-страницы как числовую характеристику достоверности фактов. Как и раньше, поисковый робот сканирует сайт, извлекает из него «утверждения», достоверность которых сравнивается с базой знаний Knowledge Vault. Эта база знаний, принадлежащая Google, сейчас содержит примерно 1.6 миллиарда фактов, автоматически собранных из интернета. Её главное отличие от более известной Knowledge Graph заключается в её «всеядности». Если Knowledge Graph использует в качестве источника информации заведомо надёжные Wikipedia и Freebase, то Vault «не брезгует» ничем и собирает информацию с абсолютно всех сайтов, из которых можно извлечь хотя бы что-то. На основе числа совпадений «извлечённых» фактов с хранящимися в Google Vault, и определяется достоверность ресурса.
На тестовых данных вероятностная модель, предложенная авторами работы, показала удовлетворительные результаты. Затем в автоматическом режиме были вычислены показатели KBT для 119 миллионов реальных веб-страниц. Дальнейшая проверка в ручном режиме показала, что и реальные данные вполне поддаются новой системе ранжирования. Как скоро результаты исследования затронут существующий поисковый алгоритм Google пока что неизвестно. |
|
|
|
|
|
Цитата: |
поисковый робот сканирует сайт, извлекает из него «утверждения», достоверность которых сравнивается с базой знаний Knowledge Vault.
|
А как будут ранжироваться сайты вроде Лурка или user-generated контент? |
|
|
|
|
|
Как-то мутно описано что такое KBT и как оно будет работать. Да и странно то, что статья опубликована не на официальном сайте Гугла. |
|
|
|
|
|
Iceberg писал(а): |
Как-то мутно описано что такое KBT и как оно будет работать. Да и странно то, что статья опубликована не на официальном сайте Гугла.
|
Думаю, в скором времени появится больше информации, так как пока действительно весьма расплывчатое представление дают об этом KBT. |
|
|
|
|
|
Странный подход. Если Knowledge Vault не брезгует ничем и собирает информацию с абсолютно всех сайтов, из которых можно извлечь хотя бы что-то, то о какой достоверности фактов здесь может идти речь? Или у нас абсолютно все сайты публикуют достоверные факты? Но тогда зачем изначально весь этот сыр бор? В общем, вопросов пока больше, чем ясности... |
|
|
|
|
|
В качестве подтверждения того, что Гугл планирует отказ от ссылочного ранжирования, можно рассматривать недавние слова Джона Мюллера о том, что наличие ссылок не обязательно для того, чтобы сайт занимал высокие позиции в поисковой выдаче Гугл. |
|
|
|
|
|
Если на отдельной странице ресурса не хватает фактов для оценки, алгоритм может оценивать другие страницы сайта.
Тестирования нового алгоритма прошли положительно.
При этом отмечается, что такая оценка степени доверия к сайту может служить просто дополнительным сигналом и использоваться, в том числе, вместе с существующими факторами ранжирования, например, PageRank, а не заменять их. |
|
|
|
|
|
Поисковые системы будущего все больше в своей работе будут использовать элементы искусственного интеллекта - это просто неизбежно. |
|
|
|
|
|
В этом случае Гугл идет по пути Яндекса, который уже частично отменил ссылочное ранжирование. |
|
|
|
|
|
Я вот например не замечаю чтобы ссылочное ранжирование отменялось хоть в какой-то степени (хотя все об этом давно говорят). Все мои конкуренты (не заслуживающие внимания абсолютно) в топе с десятками тысяч ссылок. Жду вот чуда.
Интересно как KBT будет оценивать доски объявлений |
|
|
|
|
|
Блефует. Уже проходили такое. В коммерческих тематиках без ссылок никак. |
|
|
|
|
|
Исследователи уже протестировали алгоритм с использованием 2.8 млрд. веб-страниц. Достоверными были признаны факты, содержащиеся в контенте лишь 119 млн. страниц. |
|
|
|
|
|
Главное, чтобы ориентация на достоверность фактов не стала для Google главной в ранжировании. Если она будет всего одним из факторов, то это ничего. Хотя пункт странный. прежде всего потому, что достоверность (особенно в Интернете) - вещь очень относительная. |
|
|
|
|
|
Я вот все ни как не пойму какие факты могут быть на адалтовых ресах и юмористических порталах. Шутки/анекдоты как и контент для взрослых можно выпускать круглосуточно и в какую базу знаний это поместится? |
|
|
|
|
|
Интересно, это только для англоязычных сайтов такой алгоритм будет или для других языков тоже. Английский-то несложный, а другие языки с падежами и сложной морфологией гораздо труднее качественно и релевантно отсортировать по таким критериям, как анонсирует Гугл. |
|
|
|
|
|
|
|