На страницу 1, 2, 3 След. |
|
|
Где его брать,имею ввиду тексты? Можно не читабельный, но не очень корявый....синоминайзеры не катят...
p.s : понятно что в пс можно найти многое, но интерестно каким образом делаете это вы? |
|
|
|
|
|
http://bookfi.org/
один текст > берешь и заменяешь часто встречаемые слова на какой-нибудь бред "экономика > рынок" так 20-50 часто встречаемых слов
также парсь гугл по нужным кеям и заменяй по первой схеме |
|
|
|
|
|
И как к результату текста относиться яша?Какова уникальность текста выходит?
trepsXe,непонял че там за кодировки такие в текстах? |
|
|
|
|
|
ganzhybas писал(а): |
И как к результату текста относиться яша?Какова уникальность текста выходит?
trepsXe,непонял че там за кодировки такие в текстах?
|
под яшу не ориентируюсь, он по другим факторам молодой дор банит
уникален 80% смотря как сам обработаешь, можно мешать абзацы
там книги в основном в формате FB2, но прямо там можно сконвертировать книгу в txt, окрыть страницу книги, нажав на название, и в низу выбрать нужный формат, подождать и скачать |
|
|
|
|
|
|
а как гугл сейчас относится к такому генерированому тексту
особенно после последнего апдейта |
|
|
|
|
|
онлайн библиотеки или ресурсы типа проза.ру, все ровно дорген потом "уникализирует |
|
|
|
|
|
А инструкции Паровоза все еще актуальны? |
|
|
|
|
|
|
Парсинг забанненых доменов, часто обновляющихся сайтов. |
|
|
|
|
|
посмотрите: http://www.armadaboard.com/viewtopic.php?p=4797159#4797159
при этом там не кеи типа buy pill..
а по темам "здоровья" так сказать, т.е. не те кеи, под которые затачивают ресурсы (доры), напр. как buy pill.. а "общие".
я думаю такая база годится для "наполнителя" дора.
вроде для гугля это не так важно, как минимум:
1) текст будет уникален каждый раз.
2) тематика текста - 100% фармовая.
3) слова из базы, ошибок и других элементов разрыва текста, небудет.
я писал не так давно, видел и не раз, доры в серпе, где вообще, весь контент по сути кеи,
т.е. если взять что ключевое слово "таблетка", то 50%+ дора это слово и есть (т.е. плотность ключевых слов = 50%+), так вот в серпе.
а тут гораздо менее агрессивно будет.
сам алгоритм составления текста.
у меня есть функция на ПХП, которая по этой базе делает текст заданной длины.
с нужной пунктуацией.
т.е. запятые, точки.. новое предложение с заглавной буквы.
можно доработать, чтобы через каждый Х символов вставлял нужные кеи из заранее определенного списка (массива).
если кому то нужно, базу просите по линку выше (лично мне пишите),
а скрипт я могу и тут выложить (вернее функцию на пхп, вы её интегрируйте куда угодно), она как и все в нац. германии, компактная и эффективная.
для тестов вот еще в тему: http://www.armadaboard.com/viewtopic.php?p=4802148#4802148
могу как отдельный файл, работа по генерации через web, база будет там же удаленно.
выложу под хайдом в 10 сообщений, если кому то надо (!?) и уточните конкретный вариант, просто функция с заранее определенном массивом кеев из базы, или же отдельное веб приложение, вставка определенных кеев через Х символов (конечно с рандомным отклонением +-20%) (!?) |
|
|
|
|
|
Irbis писал(а): |
Парсинг забанненых доменов, часто обновляющихся сайтов.
|
да,
есть вариант, с любого линка брать текстовый контент, это пару строчек на пхп, могу дать готовое решение (а могу и не дать ), там не просто функция strip_tags, а надо еще все script и style теги вырезать,
напр. если просто "стрипить" с выдачи гугля, то там почему то эти теги оставляет, так у меня есть решение, что вырезает и их, также там и еще несколько признаков надо вырезать. и как не с серпа гугля по кею выдачи брать релевантный текст для заданного кея. тоже ведь вариант.
тут просто минус, что без прокси (вернее не паблики), много ненапарсишь.
полное уточнение формата - интеграция/для ремвиева/отдельное web-приложение. |
|
|
|
|
|
получение контента из песен и радиотрансляций |
|
|
|
|
|
Странник писал(а): |
получение контента из песен и радиотрансляций
|
Ты сам для доров такою юзал? |
|
|
|
|
|
я думаю это шутка,
тексты песен (лирика), на том же лирикдавнлоад.ком можно брать,
только мне кажеться гереренный текст даже по самому простому алгоритму, будет лучьше.. как пони-наполнитель уж точно.
кстати, я вот еще что подумал, только тут надо кое что понять..
есть признаки для парсинга СЕ, сбора баз,
их можно юзать как пони-приманку наполняя пробиваемый "общим" спам-софтом ресурс.. эффективность там на самом деле, даже при очень правильном подходе практически нулевая при условие что нет достаточных других факторов для попадания в ТОП по какому то кею, и даже с этим, мелкие пони вообщем.
но вот то что эти признаки являются выше в приоритете чем просто текст какой то, это очевидно , т.е. пони-наполнитель составленный из этих признаков, будет явно для СЕ как 0y контент, при этом, он конечно каждый раз будет уникальный только при условии рандомной перемешки и соединения пробелом (первый пони алгоритм генерации текста) |
|
|
|
|
|
|
|