Яндекс научился находить одинаковые изображения в Интернете
Новая тема Написать ответ
# Чт Ноя 13, 2008 1:10 amFraud Зарег.: 27.07.2007 ; Сообщ.: 309Ответить с цитатой
А вы думали почему яндекс снова глючит, просто все силы были направлены на поиск клонов картинок Smile

Ссылка на источник

Яндекс.Картинки научились находить одинаковые изображения в интернете. Поиск точных копий картинок никогда не был сложным для поисковиков, но любые небольшие модификации, изменение размеров, добавление надписей и даже просто пережатие JPG помогали картинке стать уникальной и попасть в результаты поиска в виде дубликата.

Наше исследование картинок Рунета показало, что из 600 млн картинок половина уникальна (300 млн), вторая половина склеивается в отношении 3:1, 200 из 300 млн имеют дубликаты только на своем сайте.

Склейка дубликатов позволила найти тот небольшой процент изображений, который интересен многим веб-мастерам, а значит и пользователям. Для таких картинок у нас много подписей, мы можем сравнить их друг с другом и с запросом, чтобы понять, насколько картинка хорошо ему соответствует.

Самый многочисленный класс картинок, оказавшийся в выигрыше, это пары - исходное изображение и его уменьшенная копия, лежащие на одном сайте. Оказывается, что маленькие картинки гораздо чаще хорошо подписаны, но они не попадают на первые страницы поисковиков из-за своих размеров. Благодаря новой технологии мы научились находить маленькую картинку, а показывать ее большой оригинал.

На странице просмотра картинки мы показываем табличку копий картинки на разных сайтах. Сами того не желая, мы рассказываем веб-мастерам о сайтах, которые без разрешения или же во благо воспользовались их творениями. Для этого достаточно лишь найти свою картинку в поиске.

Задача поиска дубликатов оказалась технически сложной. Есть много научных работ на тему интеллектуального сравнения двух изображений, а для специалистов по "компьютерному зрению" задача опознать пару изображений, полученных изменением размеров, не является серьезной задачей. Однако никто из этих специалистов не имел возможности поработать с базой из 600 млн картинок. Попарное их сравнение на одном компьютере потребовало бы около 300 млн лет. К сожалению, обычными методами с помощью хеш-функций задачу решить тоже не удается. Но мы это сделали!
# Чт Ноя 13, 2008 8:02 amRabbit Зарег.: 01.08.2005 ; Сообщ.: 19787Ответить с цитатой
Laughing Блин лучше бы поиск улучшили
# Чт Ноя 13, 2008 8:17 amm_Stasuk Зарег.: 23.12.2007 ; Сообщ.: 5967Ответить с цитатой
так и знал, хреново это )) теперь не только текст надо уникальным делать
Цитата:
Склейка дубликатов позволила найти тот небольшой процент изображений, который интересен многим веб-мастерам, а значит и пользователям. Для таких картинок у нас много подписей, мы можем сравнить их друг с другом и с запросом, чтобы понять, насколько картинка хорошо ему соответствует.



вот что интересно
# Чт Ноя 13, 2008 10:17 ameff Зарег.: 20.07.2008 ; Сообщ.: 1660Ответить с цитатой
Интересно, они научились находить картинку-первоисточник, или как с контентом... источник выкидывать, а потыренное оставлять... r5
# Чт Ноя 13, 2008 11:49 amvitvirtual Зарег.: 11.06.2007 ; Сообщ.: 9061Ответить с цитатой
да они не будут париться, все что не является первоисточником, будут удалять из Яндекса, либо фильтровать, чаще удалять Wink
# Чт Ноя 13, 2008 1:54 pmcaptain Keen Зарег.: 22.10.2008 ; Сообщ.: 206Ответить с цитатой
Яндекс пиарит себя Laughing
Смешно вообще этот их рекламный пресс-релиз читать. Обойти их "супер-пупер систему" труда не составляет. Они же обрабатывают точные копии, только измененные в размерах. Достаточно crop'нуть картинку и будет она уникальной для яндекс-картинок, ну уж про изменение saturation, наложение сверху watermark'ов я вообще молчу.
# Чт Ноя 13, 2008 3:41 pm[weber] Зарег.: 10.08.2008 ; Сообщ.: 248Ответить с цитатой
Баян. Еще весной обсуждалось, что в серпе по картинкам нету дублей...
# Чт Ноя 13, 2008 4:01 pmeff Зарег.: 20.07.2008 ; Сообщ.: 1660Ответить с цитатой
vitvirtual писал(а):
да они не будут париться, все что не является первоисточником, будут удалять из Яндекса, либо фильтровать, чаще удалять Wink


Ну по контенту они первоисточник не очень-то научились определять... получается, что первоисточник и выкидывают. Sad
# Чт Ноя 13, 2008 4:19 pmsemtler Зарег.: 15.10.2008 ; Сообщ.: 905Ответить с цитатой
m_Stasuk писал(а):
так и знал, хреново это )) теперь не только текст надо уникальным делать


ниче) на пхп можно таково наделать)))))
# Чт Ноя 13, 2008 4:29 pmRabbit Зарег.: 01.08.2005 ; Сообщ.: 19787Ответить с цитатой
[weber] писал(а):
Баян. Еще весной обсуждалось, что в серпе по картинкам нету дублей...

Как это нету... Есть, и еще как. Конечно, если искать "бабочка крылатая" - то нету дублей, а если искать к примеру "сундук сокровищ" - ого-го сколько дублей.
# Чт Ноя 13, 2008 4:31 pmDolphin Зарег.: 23.07.2007 ; Сообщ.: 1326Ответить с цитатой
Да брет это все.
У гугла нет такой системы, а в яндексе подавно.
Rabbit, +1 - лучше бы выдачу улучшили
# Чт Ноя 13, 2008 9:56 pmvitvirtual Зарег.: 11.06.2007 ; Сообщ.: 9061Ответить с цитатой
под впечатлением этого топика нарыл (причем у себя на компе!) картинки, которые не знает Яндекс, как раз под рунет тема r5
# Чт Ноя 13, 2008 10:36 pm[weber] Зарег.: 10.08.2008 ; Сообщ.: 248Ответить с цитатой
Цитата:
Как это нету... Есть, и еще как. Конечно, если искать "бабочка крылатая" - то нету дублей, а если искать к примеру "сундук сокровищ" - ого-го сколько дублей.


Ну введи. Нет, конечно, дубли будут по-любому. Но в топе дублей нету. В текстовом поиске есть, а здесь - нету.

Мы это давно обсуждали уже. Была найдена программа какая-то, которая сравнивает изображения и выявляет процент схожести. Берем 2 картинки одинаковые. 100% схожести прога выдает. Ставим на одну вотермарку - схожесть 99-100%. То есть, либо вотермарка должна быть на полкартинки, либо она не решает. Затем меняли тональность, цвет и т.д. Меньше 80% сходства не удавалось достичь. Потом одному пришла в голову идея обрубить пикселей 10 с одного боку. После этого действия программа показала меньше 50% схожести. Добавляем к этому вотермарку и немного шаманства, и получаем уник. Это чисто по той программе. Может быть, у яндекса другие заскоки.

Для тех, кто не верит во все это - потыкайтесь по картинкам. У него там даже поиск специально по гаммам есть. Очень наблюдательные заметят, как в 2-3 апа вывести в топ оп любому запросу любую картинку =) По крайней мере, в начале лета я пытался там что-то делать. Как сейчас - не знаю. Давно это было, а кажется, что вот только что...
# Пт Ноя 14, 2008 12:49 pmRabbit Зарег.: 01.08.2005 ; Сообщ.: 19787Ответить с цитатой
[weber], уговорил. На первой странице и правда нету. Но вообще - в выдаче дубли есть Cool
# Пт Ноя 14, 2008 3:55 pmcaptain Keen Зарег.: 22.10.2008 ; Сообщ.: 206Ответить с цитатой
[weber], важны не программы, а алгоритм. Ты сам подтвердил, что я там выше писал, что достаточно обрезать картинку и она уже уникальная для яндекса. Про тональности и цвет ты не прав. Тональность и цвет надо менять не на одинаковую величину по всей картинке, а на разные, по типу градиентной заливки. Наконец, можно элементарно повернуть картинку на 3 градуса, человеку это будет незаметно, а для компа разница ого-го какая.
Про распознавание образов инфы в Сети до фига, да и книг издано немало и все уязвимости аглоритмов распознавания образов широко известны, кто мешает эксплутировать эти уязвимости?! Элементарный скрипт на PHP наделает тебе из одной картинки тонну "уникальных для яндекс" за минуту.
Весь этот пиар яндекса с дублированными картинками топорный какой-то. То ли их пиарщики сами не понимают о чем пишут, то ли считают читателей за идиотов.
Новая тема Написать ответ    ГЛАВНАЯ ~ БИЗНЕС В РУНЕТЕ
 
Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.