Напиши свой генератор текстов!
На страницу Пред.  1, 2, 3, 4  След.
Новая тема Написать ответ
# Пт Апр 25, 2008 7:15 pmCabal Зарег.: 20.10.2007 ; Сообщ.: 1360Ответить с цитатой
alexf2000, данный алгоритм позволяет из грамматически верного осмысленного текста о цветочках сделать грамматически верный не осмысленный(бредовый) текст о собачках на базе заранее заготовленного словаря частей речи. Ничего больше в стартовом посте не написано. По твоему это не возможно? Или будет жраться хуже цепей и хуже обходить фильтры? Задачку превратить текст о цветочках в текст о собачках можно частично решить с помощью словаря общей лексики(смотри ссылку Rabbit), а вот для узко комерческих или эротических тематик понадобится составлять свой словарь и про это тоже написано. Что ты хочешь до нас донести, а то я если честно не совсем понял?..

---добавлено---

То что для шаблонов предложений используется не один текст о цветочках, а несколько предложений из разных текстов я не на секунду не забыл. Просто для полной ясности утрировал.
# Пт Апр 25, 2008 8:28 pmalexf2000 Зарег.: 28.10.2005 ; Сообщ.: 62Ответить с цитатой
Cabal, Объясняю снова, для тех кто не понял. Smile Одно и тоже слово может быть разной частью речи, определить какой именно - не так просто и процент таких слов в языке достаточно высокий. То есть чтобы качественно выполнить пункт первый алгоритма, по замене слов на теги частей речи, надо решить довольно нетривиальную задачу, которая не сводится к простому поиску слова в словаре. Иначе из грамматически верного текста будет получаться грамматически неверный. А значит непонятно, зачем вообще огород городить, качество текста будет таким же как у доргена на цепях Маркова, но при несравнимо больших трудозатратах. Для работы цепей Маркова надо найти хороший исходный текст, причём его нужно не так много, вычистить его от форматирования и прочего мусора и всё, больше ничего не требуется, не нужно никаких дополнительных баз и работать будет с любым языком, где текст в принципе разбивается на слова. Грамматическая правильность кстати вообще непонятная штука, допустим Гугл действительно поумнел и стал банить все грамматически неправильные тексты, что тогда от интернета то останется, кроме энциклопедий и варезных библиотек с Гарри Поттером? Smile
Лучшие результаты получаются у "умных синонимайзеров", учитывающих частотность употребления слов и смысл слов в контексте, правда там уже не всегда можно получить уникальный текст, чтобы без сильных искажений сохранился его смысл.
# Пт Апр 25, 2008 8:52 pmВацлав Зарег.: 21.02.2006 ; Сообщ.: 4965Ответить с цитатой
Решение, которое я предложил в данной статье и не претендует на создание читабельных текстов. Перечитай внимательно: она предлагает вариант БОЛЕЕ быстрого создания качественного и релевантного бреда, чем это делает марковка. Вопрос в том - важен ли для гугла контент или нет, в данном случае вообще вторичен. Речь в статье идет именно о создании быстрого и простого генератора без специальных знаний математики.
# Пт Апр 25, 2008 11:08 pmalexf2000 Зарег.: 28.10.2005 ; Сообщ.: 62Ответить с цитатой
Я внимательно прочитал, были заявлены: 1. большая скорость генерации, 2. лучшее качество генерации, 3. грамматическая верность текста. Из этого ничего не удаётся достичь.
1. Марков в режиме генерации текста работает очень быстро и знаний и умений для его реализации требуется явно меньше, чем для создания каких-то грамматических баз. Математики там нет вообще никакой и даже части речи заучивать не надо.
2. Текст получается нечитаемым во всех случаях и сразу определяется человеком как генерированный.
3. Чтобы грамотно реализовать заявленный тобой алгоритм, который бы сам разбирал любое предложение на части речи - коллективы программистов и лингвистов с учёными степенями работают годами и пока полного успеха достичь не могут. Часть фраз будет случайным образом составлена правильно, но так это и к цепям Маркова относится, там тоже часть полученного текста может оказаться грамматически правильной.
# Сб Апр 26, 2008 7:51 amВацлав Зарег.: 21.02.2006 ; Сообщ.: 4965Ответить с цитатой
Алекс, ты упрямый зануда Smile
Думаешь кто-то будет против, если ты выдашь свою статью на этот счет и выложишь в Open Source свою версию генератора?
# Пт Янв 30, 2009 1:55 pmCancel156 Зарег.: 30.01.2009 ; Сообщ.: 8Ответить с цитатой
Вацлав, я собираюсь писать свой генератор текстов (русский) и возник такой вапрос:
Как поисковик отнесётся к такому тексту, если в нём будут попадаться НЧ ключевики.

Мама летала на машине вдоль зелёных людей скачать порно без смс - это уже както не очень корректно будет. А делить ключевые слова также по частям речи немного геморойно.

Или ты предлагаешь писать генератор который будет генерировать вообще без ключевых слов, ну использовать скажем базу адалт слов и хватит?

P.S. Спасибо за статью :thup:
# Пт Янв 30, 2009 5:31 pmmamurik Зарег.: 02.01.2007 ; Сообщ.: 805Ответить с цитатой
Cancel156 писал(а):
возник такой вапрос:
Как поисковик отнесётся к такому тексту, если в нём будут попадаться НЧ ключевики.

Мама летала на машине вдоль зелёных людей скачать порно без смс - это уже както не очень корректно будет. А делить ключевые слова также по частям речи немного геморойно.

Или ты предлагаешь писать генератор который будет генерировать вообще без ключевых слов, ну использовать скажем базу адалт слов и хватит?

Мне кажется прежде чем писать генератор текста, тебе нужно понять что такое кейворд в принципе Wink а то по-моему ты думаешь что кейворд - это какое то особенное слово, в простой речи не встречающееся. Так вот, кейвордом может быть любое слово. Даже вот ЭТО слово. И вот это СЛОВО.

Цитата:
Ключевое слово, кейворд, киворд, кей (от англ. keyword) — относительно PPC — это запрос посетителя в поисковой системе.



Как ты понимаешь, посетитель может искать что угодно, хоть "сферический пони-бог в вакууме". Если таких искателей будут тысячи - то наш "конь" - ВЧ запрос, т.е. высокочастотный, часто встречающийся. Если же искать его будет три раза в год - то это НЧ - низкочастотный запрос.

Исходя из вышенаписанного, можно сказать, что

1 - текст должен быть читаемый
2 - текст должен быть тематически связан и выдержан.
3 - почитать вот тут еще Генератор текста которому 10 лет
# Пт Янв 30, 2009 9:41 pmCancel156 Зарег.: 30.01.2009 ; Сообщ.: 8Ответить с цитатой
mamurik, я это всё прекрасно понимаю.
Но если не явно генерировать контент (не по определённому кейворду), то и не понятно по чему вылезешь (примерно конечно знаешь).
Вопрос в этом и состоял - точить под определённый НЧ или просто брать количеством.
Просто можно вылезти по запросу летала на машине а сёрфера кинет на адалт партнёрку, что не совсем хорошо Smile
Вообщем высля думаю понятна.
# Сб Янв 31, 2009 6:39 ammamurik Зарег.: 02.01.2007 ; Сообщ.: 805Ответить с цитатой
Cancel156, про гугл бомбинг и историю с "неудачником" слышал? Юзеры проставили кучу ссылок с тегом "неудачник" на страницу с биографией Буша - и она висела долгое время по запросу "неудачник" на первом месте, хотя на самой странице этого слова и в помине не было. Ссылочное ранжирование пока никто не отменял :smk: А если переусердствовать с количеством одинаковых слов на странице - то можно оказаться не в ТОПе а в попе.

Вообще открою тебе один большой секрет. Абсолютно все секреты поисковых систем лежат в выдаче. Смотри выдачу, сайты что в ТОПе, бэки, анализируй. Иначе рискуешь получить совет, который не то что не поможет а просто навредит.

Не смотрите в рот дутым авторитетам! - обязательно прочитай. У меня после этого топика еще больше укрепилась мысль (она и раньше была) что куча инфы вываливается с целью дезинформации конкурентов.
# Сб Янв 31, 2009 2:19 pmLi-Hua Зарег.: 25.12.2005 ; Сообщ.: 11544Ответить с цитатой
Цитата:
Как поисковик отнесётся к такому тексту, если в нём будут попадаться НЧ ключевики.


В любом тексте встречается до 80-90% НЧ ключевиков, собственно как к этому относится? Да никак, ровненько.
# Сб Янв 31, 2009 2:58 pmCancel156 Зарег.: 30.01.2009 ; Сообщ.: 8Ответить с цитатой
mamurik, спасибо за статью Wink
Буду делать как писал Вацлав - генерировать текста какой либо тематики.
Но как делать тогда перелинковку? По каким анкорам если я даже не знаю о чём страничка дора (знаю только тематику).

П.С. Пойду в поисковик искать доры Cool

Добавил:
Хотя можно сделать так чтоб анкоры сами по себе генерировались из базы например адалт слов.
# Сб Янв 31, 2009 4:42 pm4uka Зарег.: 06.08.2006 ; Сообщ.: 293Ответить с цитатой
Внесу свои пять копеек Smile
Не генератором единым. Есть еще много факторов, например: домен (отдельный или на фрихосте, возраст домена, зона домена). Хостинг. Бэки (вес, возраст, продолжительность размещения ссылки). Думаю (не уверен, но думаю что влияет) еще такой фактор, как время нахождения юзера на странице. Не зря существует гугл тулбар и теперь еще и браузер - информацию само собой Гугль с него получает.
# Сб Янв 31, 2009 9:49 pmexpro Зарег.: 29.01.2009 ; Сообщ.: 42Ответить с цитатой
Спасибо за статью, уже начал писать софт… единственная проблема… никак не могу найти список фарма слов…
# Вс Фев 01, 2009 2:33 amCancel156 Зарег.: 30.01.2009 ; Сообщ.: 8Ответить с цитатой
4uka, ты это вообще к чему написал?
Меня не интересуют факторы не касающиеся контента. Может дашь ссылку на статью Гринвуда как доры делать и что такое СЕО?
# Вс Фев 01, 2009 4:37 amvitvvs Зарег.: 12.09.2007 ; Сообщ.: 19Ответить с цитатой
mamurik писал(а):
а то по-моему ты думаешь что кейворд - это какое то особенное слово, в простой речи не встречающееся. Так вот, кейвордом может быть любое слово. Даже вот ЭТО слово. И вот это СЛОВО.

Цитата:
Ключевое слово, кейворд, киворд, кей (от англ. keyword) — относительно PPC — это запрос посетителя в поисковой системе.




помоему вы сами четко не понимаете что такое кейворд,
по правилам поисковых систем в данном примере: вот ЭТО слово
ЭТО - является стоп словом и не влияет на поисковый запрос и в следствии поисковым запросом (кейвордом) с точки зрения сео не является
http://wordstat.yandex.ru/advq?rpt=ppc&key=&shw=1&tm=&checkboxes=&text=%DD%D2%CE+%F1%EB%EE%E2%EE&regions_text=%C2%F1%E5&regions=

http://wordstat.yandex.ru/advq?rpt=ppc&key=&shw=1&tm=&checkboxes=&text=%FD%F2%EE&regions_text=%C2%F1%E5&regions=
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОЛЕЗНЫЕ СТАТЬИ
 На страницу Пред.  1, 2, 3, 4  След.
Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.