|
|
|
Всем привет!
Нашел вот эту тему на форуме: Напиши свой генератор текстов, есть идея написать такой, чтобы не ломать голову, где добывать контент для ГСов.
Такой контент отлично подойдет для наполнения блогов с клоакингом (се отдается этот контент, юзеру - другой).
Написал небольшой прототип, под адалт-тексты, выкладываю для опытов (нужна поддержка php):
Как он работает:
1. В файле index.html выбирается тематика (префикс дата-файлов со словами);
2. В файлах в папке /data хранятся дата-файлы (базы слов, разделенные по-признакам - ajective+noun, ajectives+nouns, 5 видов глаголов (словарная форма, прошедшее вторая форма, третья, +ing, +s (для he\she\it));
3. В файле gen.php выбирается случайный паттерн и выводится предложение.
Если я правильно понимаю, нужно расширить "логику" (морфологически правильные паттерны) и увеличить базу слов. И все, можно генерить тексты
Если кому интересен такой генератор, предлагаю в этой теме вести рабочее обсуждение. Каждый участник, внесший свой труд в создание софта, получит свою копию.
Сейчас самый главный вопрос - как строить "паттерны" ("костяки" предложений), имея всего 7 "элементов:
- прилагательное+существительное,
- прилагательные+существительные,
- глагол в словарной форме,
- глагол в прошедшей (второй) форме,
- глагол в прошедшей (третьей) форме,
- глагол в Present Progressive (+ing),
- глагол для he\she\it (+s).
То есть, я задал в прототипе три "паттерна", вот эти:
Цитата: |
"This $ajnoun2 like $verb52 by the $ajnouns2.",
"$ajnoun2 is $verb52 for the $verb12 $ajnouns2.",
"Look at $ajnoun2 which $verb52 and wanted $verb22."
|
, они генерят, например, такие предложения:
Цитата: |
This nice teen like fucks by the pretty girls.
Look at nice teen which sucks and wanted fucked.
Pretty girl is fucks for the lick nice teens.
Nice teen is sucks for the lick nice teens.
This pretty girl like fucks by the pretty girls.
|
Но это не совсем логические паттерны, тексты с морфологическими ошибками
В общем, буду рад активности в теме, предложениям, мыслям |
|
|
|
|
|
UPDATE:
Сделал на сниппетах, генерить из слов слишком много знаний нужно для создания паттернов. На сниппетах проще, готовые микро-предложения миксуются в абзацы, с хорошей пре-обработкой баз сниппетов будет контент нормального качества.
Может у кого завалялась база дескрипшенов (описаний) к видео, галереям, просто хорошие описательные тексты по фарме\гемблингу - давайте меняться |
|
|
|
|
|
Оффтоп: |
Ты бы еще смайлик залинковал
|
На Армаде до недавнего времени был скрипт генерации (http://www.armadaboard.com/viewtopic.php?t=19958&start=0&tape), но им никто не пользовался и месяц назад выпилили)
Открой проект на Bitbucket, раз уж хочешь коллективного написания) Но вообще, чтобы сделать генератор правильного текста, нужно быть лингвистом (даже для английского языка). И на коленке такое не напишешь, все равно будет на выходе бредотекст. Гугловские черно-белые животные вынюхают самого хитрого генераторщика |
|
|
|
|
|
DrKronos, |
|
|
|
|
|
Даешь github
Соглашусь с DrKronos насчет лингвистики. |
|
|
|
|
|
А есть где-нибудь база бессмысленных англоязычных комментариев, желательно чтобы походило на комментирование адалт-картинок?
Что-то типа "Nice boobs" и т.д. Еще лучше, если по тематикам разбито. |
|
|
|
|
|
exolon, сниппетовый генератор это тот, что я выше выложил, но еще проще (один файл со сниппетами, наполнение без паттернов - просто цикл конкатенирующих переменных в одну большую строку). Гит не нужен |
|
|
|
|
|
Гитхаб для социализации. Показать свой код, например. |
|
|
|
|
|
|
Yabuti, я понимаю. Но github это модно и спортивно |
|
|
|
|
|
|
|