|
|
|
Есть несколько сайтов слитых на винт. Я хочу программно с большой долей вероятности определить, что сайт принадлежит адалт тематике. Вопрос, как это сделать наиболее правильно?
зы
сейчас рассматриваю такое условие
если более чем 60% title имеют адалт кеи в заголовке, то сайт адалт
или
если на 60% страниц сайта, встречается более чем 3 адалт кея (в любом произвольном месте кода страницы) - то сайт адалт.
Не устраивает, что при моем способе надо перебрать большое кол-во файлов. Может ли кто нибудь предложить более рациональный способ? |
|
|
|
|
|
Цитата: |
Есть несколько сайтов слитых на винт
|
в чём проблема ручками посмотреть главные страницы, ведь всего несколько сайтов?
У тебя есть база адалт слов-кеев которая будет смотреть на их наличие в тайтле?
Условие какой-то невнятное - лучше напиши что тебе конкретно нужно и как ты видишь эту реализацию. |
|
|
|
|
|
Цитата: |
лучше напиши что тебе конкретно нужно и как ты видишь эту реализацию
|
Я хочу программно с большой долей вероятности определить, что сайт принадлежит адалт тематике. Вопрос, как это сделать наиболее правильно?
зы
сижу тут думаю... Наверное мой способ при любом раскладе единственно правильный и других способов с очень малой долей погрешностей явно просто нет... И всё таки объемы перебора убивают... |
|
|
|
|
|
смотря что ты будешь задавать как адалт кей. Есть кеи которые однозначно указывают на адалт |
|
|
|
|
|
сотрудник правоохранительных органов? |
|
|
|
|
|
Возьми базу основных адалт кеев и прогоняй по ним сайты свои. |
|
|
|
|
|
Цитата: |
Есть кеи которые однозначно указывают на адалт
|
то есть в принципе вы согласны - что способ верный, правильно?
Цитата: |
Возьми базу основных адалт кеев и прогоняй по ним сайты свои.
|
смысл собранной информации именно в том, чтобы не прогонять сайт по откровенно заспамленым, адалт постами, ресурсам |
|
|
|
|
|