Что включает в себя генерирование текста

Генерация текста для начинающих и не только

Генерация текста это процесс, позволяющий получить из одного шаблона множество других текстов, удовлетворяющих заданным условиям. Показательным примером является любая существующая CMS (система управления контентом), такая как Joomla, WordPress, OpenCart и прочие. В качестве шаблона, выступает некоторая «статическая» страница, куда подставляется существующая информация из базы данных. Например, для карточки товаров в интернет-магазинах информация это описание, блоки, атрибуты, опции и подобное. В статейных же сайтах, информация это тексты статей, данные о публикации, сопутствующие блоки и так далее. Такой подход позволяет существенно сократить время на поддержание сайта.

Однако, только этим примером генерация текста не ограничивается. Этот процесс включает в себя также генерацию псевдоуникальных текстов. Но, обо всем по порядку.

Генерация текста зачем она нужна?

Как вы наверное уже поняли, сегодня, практически каждый сайт это продукт процесса генерации текста. Однако, есть области, где генерация минимальна, например, у статейных сайтов, где основной текст на странице каждой статьи составлен человеком и уникален (относительно уникален). А есть области, где без генерации основного текста попросту не обойтись, так как написание интересных и удивительных текстов для каждого случая просто не оправдано (слишком много времени уйдет, а результат будет минимальным). Такими примерами являются каталоги программ, интернет-магазины, статейное продвижение и прочее.

Просто представьте, что у вас есть 1000 товаров, которые практически ничем не отличаются друг от друга, только несколькими параметрами. Написать 1000 уникальных статей просто нереально. Любой, кто хоть раз написал нормальную статью знает, что в среднем на нее может уходить от часа и до бесконечности. Простая математика. Если в день писать 8 статей, каждая из которых будет занимать не менее часа вместе с оформлением, то вам понадобится порядка 125 дней. Больше трети года, которые можно пустить на что-то более полезное.

Однако, важно понимать, что генерация текста подразумевает аккуратность и вдумчивое использование, так как поисковые системы не нацелены на захламление своей выдачи. От того, как вы подойдете к процессу, будет зависеть результат. Позиции сайта по запросам могут подняться, трафик увеличиться, поведенческие факторы улучшиться и так далее. А может и наоборот приведет к применению фильтров со стороны поисковых систем вплоть до АГС и прочего.

В дальнейшем под генерацией текста будем подразумевать именно создание основных текстов из одного шаблона.

Сегодня, существует более 1 млрд сайтов. Просто вдумайтесь в эту цифру. И на каждом из них далеко не по одной странице. Все эти сайты поисковикам необходимо ранжировать в поисковой выдаче по такому же количеству запросов (в сравнении по порядку). Задача крайне объемная. Поэтому учитывается масса факторов, которые постоянно ужесточаются. К примеру, от года к году увеличивается число необходимых ссылок на сайт для получения определенного ТИЦа.

По этой и некоторым другим причинам, в плане продвижения и генерации страниц на сайте большую популярность приобрел процесс «Размножения статей», который при достаточном навыке позволяет получить буквально за час другой сотни псевдоуникальных статей. Другими словами, относительно уникальных статей с точки зрения поисковиков, но похожих с точки зрения человека.

Что подразумевает под собой размножение статей? Если говорить простыми словами, то процесс состоит из нескольких шагов:

Те, кто часто занимаются размножением текстов, обычно сразу пишут шаблоны и используют сохранившиеся у них конструкции из других шаблонов. Однако, если вы только начинаете заниматься генерацией, то крайне не советую сразу заниматься шаблонами. Вам необходимо на практике «пощупать» этот процесс. Со временем, когда руку набьете, грамотно составленный шаблон позволит вам быстро получить нужное количество статей, каждая их которых не будет похожа на другую.

При этом важно понимать, что в мире, где нормальное явление рерайт и дубликаты в поисковой выдаче, размножение статей процесс вполне естественный (это не плохо и не хорошо, просто как есть).

Так же Важно понимать, что размножение статей не является панацеей и этот процесс стоит использовать аккуратно. Кроме того, сами статьи должны быть читаемыми для людей. Но, подробнее об ошибках ближе к концу статьи.

Основные конструкции в генераторах

Многие программы или сайты генераторы представляют собственный набор уникальных конструкций, однако есть основные конструкции, которые встречаются чаще всего.

Их всего пара, рассмотрим вначале их:

1. Синонимайз. Под данным термином понимают процесс замены слов на похожие по смыслу или же просто случайную подстановку (четкого критерия тут не существует). Сама конструкция представляет собой открывающую фигурную скобку «<«, затем идут слова или предложения разделенные горизонтальной чертой «|«, а в конце идет закрывающая фигурная скобка «>«.

Рассмотрим следующий шаблон:

На выходе будут получаться случайным образом следующие строки:

Как видите, используя такую конструкцию для замены слов или предложений, вы можете получить непохожие друг на друга тексты. Кроме того, важно знать, что такие конструкции так же можно применять внутри друг друга для экономии места, чтобы не повторять одни и те же фразы, отличающиеся только одним словом.

Так как изначально такие конструкции использовались для замены слов по синонимам, то во многих программах и сервисах синонимайзинга и размножения есть собственные готовые базы таких конструкций. По этой причине, вы в принципе можете сразу после установки программы получить вполне уникальные тексты, хоть и которые придется проверять вручную, так как автоматическая замена текста порой приводит к созданию «бредовых» текстов.

2. Перестановка. Данная конструкция позволяет перемешивать слова и фразы. Она встречается практически во всех программах и сервисах генерации текста, но ее наличие не является обязательной. Перестановка очень полезна в случаях, когда необходимо переставлять местами предложения или же описания чего-либо. Конструкция похожа, но с некоторыми отличиями. Начинается с прямоугольной скобки «[«, затем через горизонтальную черту «|» указываются слова и фразы для перестановки, и в конце идет закрывающая фигурная скобка «]«. Важное замечание. В зависимости от версий программ и сервисов, такие конструкции могут быть немного видоизменены, например, добавляется возможность указывать символы или слова, которые будут разделителями, чтобы их не перечислять.

На выходе у вас будут следующие случайные фразы:

Как видите, с помощью этой конструкции можно получить относительно разные фрагменты текста. Важно понимать, что перестановка текста так же влияет на схожесть текстов, хотя смысл при этом в большинстве случаев не меняется.

Теперь рассмотрим некоторые специализированные конструкции:

1. Вставка. Когда у вас есть какие-то заготовки или же информацию можно взять из какой-либо базы данных, то их можно использовать с помощью конструкций вставки. Обычно, вставка представляет собой некоторое специализированное слово, справа и слева от которого стоят скобки или их комбинации. Например, «[name]«, » «, «[[nick]]» и прочие. Формат зависит от программы, но смысл обычно одинаковый.

Рассмотрим пример. Допустим вам нужно сгенерировать тексты для пользователей:

На выходе для каждого пользователя вы получите тексты вида:

Как вы наверное уже догадались, такие вставки особенно полезны при наличии большого количества однотипных данных, таких как товары одной категории, программы в каталогах и прочее.

2. Условные функции. Это некоторые специализированные конструкции, которые позволяют логически вычислить какой необходимо текст вставлять (или не вставлять). К примеру, функции проверки значений: равно, больше, меньше и так далее. Формат этих функций уникален в каждом генераторе, поэтому их невозможно перечислить. Однако, они очень полезны в случаях, когда шаблон составлен под разные области, слабо друг от друга отличающиеся. Тем не менее, такие функции встречаются достаточно редко.

Какие алгоритмы используются для оценки текста

Для оценки схожести текста используется много алгоритмов. Но, наиболее известными из них являются прямое сравнение и метод шинглов. Существуют и другие, но обычно этих двух более чем достаточно для большинства обыденных задач.

1. Прямое сравнение. Как и следует из названия, речь идет о том, насколько тексты получились идентичными. При этом важно понимать, что если вы ставите слово вначале текста, то это не сделает его уникальным. Так как остальная часть будет полностью совпадать. Плюс этого метода заключается в простоте понимания, минусом же является то, что с точки зрения поисковых систем это слабый показатель. К примеру, вы можете просто переставить фрагменты текста и у вас получится уникальная статья, но вот поисковик ее воспримет не как уникальную.

2. Метод шинглов. Этот алгоритм является одним из методов оценки текста поисковыми системами. Он не является полноценным, но и поисковые системы не стремятся раскрывать свои алгоритмы, чтобы сохранить выдачу в нормальном состоянии. Тем не менее, этот метод часто применяется для оценки схожести текста и дает весомые результаты.

Его суть заключается в том, что задается некоторое число слов, идущих подряд. Затем весь текст разбивается на фрагменты по этому количеству слов. При этом сдвиг происходит не на указанное количество слов, а каждый раз на одно слово. Полученные шинглы шифруются определенным образом для экономии места. А в последствии два текста сравниваются именно по количеству шинглов, а не по самому тексту. Такой подход сводит на нет перестановку фраз и предложений в тексте, так как от того, что вы поменяли местами два предложения, шинглы практически не изменятся.

Для примера возьмем число слов равное 3. В таком случае будут получены шинглы

Теперь, если вы перенесете часть «С учетом акции», добавите слова и получите «С учетом акции цена супер товара составляет всего X», такая фраза будет все равно иметь процент схожести, так как некоторые шинглы все же встречаются. При проверке на прямое совпадение эти два предложения были бы практически разными.

Поэтому, при составлении текста очень важно перефразировать предложения, наполнять их нестандартными вставками и словами, добавлять или наоборот убирать абзацы с текстом, чтобы разбавить шинглы. В общем, делать текст разнообразным.

В чем отличие шаблонов товаров и статей?

Если к статьям поисковые системы применяют достаточно высокие требования, то к описанию товаров такие требования снижены. Причины просты. Товары в большинстве своем одинаковы у интернет-магазинов конкурентов. Количество товаров легко исчисляется в тысячах. Далеко не всем нужны простыни текста, многие ориентируются по цене и характеристикам. Сами описания товаров в принципе сложно сделать сильно разными, вспоминаем про самое начало статьи, где я описывал сколько бы ушло времени на составлении 1000 статей на каждый товар.

Поблажки к описаниям товаров обычно следующие:

Конечно, это не значит, что при составлении шаблонов товаров не стоит серьезно подходить к делу. Просто, важно понимать, что составлять шаблоны для генерации текстов товаров легче и многое можно взять из характеристик и метаданных самого товара.

Как создать свой первый шаблон

Прежде всего, если вы создаете шаблон для сайта или интернет-магазина, то необходимо сделать его бэкап. Шаблоны написать вы всегда успеете, а вот после экспериментов восстановить описания сотням товаров весьма непростое занятие. Следующее, что вам нужно знать, если вы еще ни разу не создавали шаблоны, то начинайте с небольших задач или малых объемов. Не стоит браться сразу за все товары на сайте. Вам вначале нужно увидеть собственными глазами как это выглядит и какой получается результат.

Теперь, после предупреждений, перейдем к небольшому алгоритму создания первого шаблона:

1. Открываете поисковую систему, ищите там описания похожих товаров и статей. На основе этих данных составляете свою статью, только хорошую и не похожую как две капли воды на источники.

2. Начинаете наполнять текст специализированными конструкциями, такими как синонимайз, перестановка, вставка, условные функции (смотря какие из них доступны).

3. Проводите генерацию текста.

Читайте также: что подарить родителям на день рождения 60 лет
4. Проверяете насколько тексты получились уникальными. Можно использовать программы или сайты копирайта, коих достаточно в интернете. Если вы используете для проверки программы и метод шингла, то стоит устанавливать число слов в районе 5-7, лучше 5, но не всегда подходит.

5. Если процент схожести меньше, чем нужно, то возвращаетесь на шаг 2 и снова переделываете шаблон (дополняете его, меняете части и так далее). Если меряете анализаторами, то желательно чтобы процент был не меньше 80%. Если «на глаз», то старайтесь смотреть у схожих магазинов в топе поисковой выдаче насколько у них описания товаров похожи. Последнее, конечно, не является эталоном, так как поисковые системы формируют поисковую выдачу, но все же хоть какой-то ориентир.

6. Получаете готовый шаблон. Обязательно его сохраните куда-нибудь.

Первое время шаблоны будут создаваться не быстро, но когда руку набьете, на шаблоны будет уходить не так уж много времени.

Наиболее частые ошибки составления шаблонов и размножения статей

А теперь, вам стоит узнать наиболее частые ошибки новичков при составлении шаблонов и размножении статей, чтобы избежать как можно больше грабель:

Теперь, вы знаете о генерации текста и размножении статей больше, предупреждены о ряде проблемных мест и знаете различные тонкости.

Источник

Практические аспекты автоматической генерации уникальных текстов для SEO

Самая ужасная страшилка для желающих разместить написанный компьютером контент на своих сайтах — санкции поисковых систем. Нас тоже в свое время пугали тем, что сайт с неуникальными и /или сгенерированными текстами, будет плохо индексироваться или что он вообще попадет под бан. При этом точных требований к текстам никто нам сказать не смог. Вообще тема уникального контента и его роли в продвижении сайтов больше похожа на оккультные знания. Каждый следующий «специалист» обещает на своей странице открыть страшную правду, но правда так и не открывается, а суть многих дискуссий на форумах сводиться к тому, что, скажем, Яндекс, распознает сгенерированный контент с помощью магии. Не такими словами, но смысл в этом.

Как на самом деле поисковая система распознает автоматически сгенерированный контент.
… этого мы конечно не знаем. Но, общий принцип метода тайны не составляет, и обратившись к первоисточникам можно сделать некоторые обоснованные выводы о границах возможного. Начнем с того, что на сайте научных публикаций Яндекса имеется статья с многообещающим названием «Поиск неестественных текстов» [1]. Там сказано примерно следующие “в неестественном тексте должно быть нарушено распределение пар [слов]… количество редких, нехарактерных для языка пар должно быть завышено по сравнению со стандартом, а количество частых пар – занижено”. Перед нами, таким образом, первая группа методов То есть, речь так или иначе идет о сравнении статистических параметров данного текста с параметрами «естественных» текстов. Помимо распределения пар, могут использоваться частоты n-грамм большего размера. В более современных работах [2] применяются также частоты n-грамм не самих слов, а частей речи, когда сначала каждому слову определяется часть речи (СУЩ-ПРИЛ-СУЩ-ГЛАГ), а потом подсчитывают частоты полученных n-грамм, и так далее.

Ясно, что самые примитивные описания, сгенерированные с помощью подстановки параметров товаров в шаблонный текст избегают этого фильтра по причине того, что исходный шаблон заготовлен человеком и, соответственно, имеет естественные характеристики. Это конечно, при условии, что в шаблоне приглажены соответствия родов и падежей, чтобы не получалось ничего вроде «Купить стиральная машина за 10399 рубля».

Генераторы на основе современных моделей языка, такие как нейросетевые модели языка, также весьма вероятно избегают этого фильтра, так как общее правило гласит «чтобы поймать текст сгенерированный некоторой моделью языка, надо использовать более совершенную модель языка». А более совершенная модель языка может быть в дефиците, и к тому же требовать огромных вычислительных затрат, так что ее использование для определения автоматических текстов в масштабах интернета просто будет нерациональным

Но генераторы на основе модели языка, примененные напрямую, генерируют тексты, лишенные смысла. Например, такие «Надежность водонагревателей «аристон» побеждает рейтинг бойлеров».

Поскольку владельцы интернет-магазинов как правило не хотят, чтобы водонагреватели побеждали рейтинги бойлеров, они предпочитают простые шаблонные тексты. Но и здесь есть некоторая потенциальная трудность.

Шаблонный текст не отличим от естественного до тех пор, пока он имеется в единственном экземпляре. Размноженные же, они становятся предметом второго класса методов определения машинных текстов. Суть метода в том, что все тексты, написанные на базе шаблона похожи друг на друга за исключением частей, куда вставляются параметры конкретного товара. Получается то, что называется в английской литературе ”near dublicates” — почти дубликаты. Поисковые системы умеют их определять [3], используя всем известный метод шинглов и его усовершенствованные варианты. Если же использовать дополнительно синонимайзер, то увеличится число маловероятных языковых конструкций и текст станет опознаваемым для первой группы алгоритмов [1]. Кроме того, существуют алгоритмы, специфически направленные против синонимайзеров — они убирают из текста все слова, для которых имеются синонимы в словаре, и сравнивают тексты по оставшимся словам [4].

Таким образом, алгоритмы распознавания машинно-генерируемых текстов являясь с одной стороны достаточно сложными, все же не содержат в себе никакой магии и сверхинтеллекта. При желании можно их воспроизвести для целей тестирования текстов, что затратно по времени, но в общем не сложно.

Философское отступление
Мы столкнулись с тем, что есть люди, считающие машинные тексты злом, засоряющим интернет и предназначенным для обмана пользователей. Но мы считаем, что это вряд ли правомочно относить к осмысленным текстам, описывающие конкретные товары по параметрам. Ведь эти тексты содержат фактически верную информацию о товаре. Размещая на странице такой текст мы обозначаем ее содержимое для поисковой системы, поэтому это не является обманом поисковых систем или покупателей.

Практика: Насколько хороши машинные тексты?
Принимая во внимание вышеизложенное, мы остановились на гибридном методе генерации текстов. В нем, сначала базовый каркас текста генерируется с помощью заданной вручную грамматики (подробнее в предыдущей статье), а затем сверху применяется нейросетевой анализатор, натренированный на определение мест, где можно вставить или удалить определенные классы слов без потери смысла. Необходимость создания порождающей грамматики вручную конечно удорожает стоимость решения, но все равно она остается на порядок меньшей, чем заказ текстов копирайтеру. Теперь собственно по качеству.
Читабельность:

Читайте также: начальник умвд россии по камчатскому краю киселев биография
«Смеситель для раковины Grohe Allure 19386000 из новой коллекции Allure, стоимостью всего 5800 рублей. Скрытый монтаж обеспечивает повышенное удобство эксплуатации и, конечно, установки. Cистема GROHE SilkMove позволяет обеспечить исключительно легкое движение рычага. Специальное покрытие, произведенное по технологии StarLight создает долговечность и сохраняет хороший вид изделия на протяжении долгих лет. Вертикальный монтаж с двумя монтажным отверстиями весьма удобен и не должен вызвать трудностей. Величина выноса излива здесь равна 220 мм. Больший размер выноса приводит к тому, что использовать изделие становится намного проще. Все изделие в общем имеет вес равный 1,955 кг. Минимальное давление для данной модели равняется 1 бар. В подключении к электричеству нет необходимости. Бесплатная доставка и надежное, проверенное годами, качество широко известного всем немецкого бренда — главные причины купить смеситель Grohe Allure 19386000».

Конечно, это не великое литературное произведение, но явных огрехов нет. Определить, что текст сгенерирован автоматически трудно, даже для человека.
Уникальность:
a) Глобальная уникальность. Суть глобальной уникальности в том, чтобы текст был уникален относительно всех других текстов, имеющихся в интернете на момент публикации.

Для проверки глобальной уникальности мы использовали известный сервис text.ru (для целей объективности, в этой статье мы приводим результаты анализа со сторонних сервисов, а не данные наших алгоритмов).

Как видно, с глобальной уникальностью нет никаких проблем. Сервис жалуется на орфографию, но при рассмотрении ошибки связаны с тем, употреблением слов ”Allure”, “StarLight” и других специфических терминов, которые сервис не знает. Примечание: это данные до размещения текстов на сайте заказчика. Сейчас, естественно, эти тексты можно обнаружить там.

б) Локальная уникальность. Как мы уже говорили, слишком похожие тексты могут быть сочтены поисковой системой дубликатами друг друга, что может выдать их искусственное происхождение. Для этого мы использовали сервис, размещенный на сайте backlinkmanager (другие реализации сравнения с помощью алгоритма шинглов дают похожие результаты)

Два текста про очень похожие модели с совпадающими параметрами сходны всего на 5%, причем в значительной степени сходство обусловлено упоминанием названия товара «Смеситель для мойки Grohe Alira”. Будем считать это хорошим результатом, ведь есть не так много способов по разному описать один и тот же набор параметров товара.

Индексация поисковыми системами
Индексация машинно-генерируемых текстов была проверена нами ранее на примере сайта reviewdot.ru. Страницы данного сайта не имеют уникального контента. Поэтому вначале этот сайт никак не хотел попадать в индекс Яндекса (из более чем ста тысяч страниц в индексе оказались около 1300 штук). Мы с этим упорно боролись, разместив сначала шаблонные тексты (число страниц в индексе выросло до 5000), потом использовав более сложные алгоритмы генерации, подобные рассмотренному выше. На сегодняшний день в индексе Яндекса около 70 000 страниц. Хотя что конкретно повлияло на ситуацию — наши усилия или изменения в алгоритмах Яндекса, нам неизвестно. Тем не менее, факт остается фактом — страницы, содержащие автоматически сгенерированные тексты успешно попадают в индекс поисковых систем. Несмотря на все опасения SEO специалистов, ~~монстры не явились, что сожрать нас~~ сайт не попал под санкции поисковых систем, хотя к тому имелись теоретические основания.

Причем в индексе не только страницы, но и конкретно автоматически сгенерированные тексты, в чем можно убедиться, введя фрагменты этих текстов в поисковую строку:

А значит, как минимум, машинно-генерируемый контент можно использовать для того, чтобы страница стала релевантной определенным запросам.

Конечно, надо заметить, что мы размещали не бессмысленные тексты, а тексты содержащие полезную пользователю информацию (reviewdot анализирует отзывы на товары, оставленные на разных сайтах и представляет пользователю краткую аннотацию об отмеченных плюсах и минусах).

Мы также провели сравнение времени нахождения пользователя на страницах с текстом.В результате этого обнаружилось, что тексты положительно сказались и на таком параметре, как время нахождения пользователя на странице. Видимо причина этого в том, что если человек видит на странице связный текст, содержащий нужные ему сведения, он начинает его читать, а чтение текста занимает некоторое время.

Заключительные замечания
На сегодняшний день тексты сданы заказчику и размещены на сайте (интернет-магазин сантехники g-online.ru), желающие могут ознакомится и с ними тоже. Пока что мы можем сделать выводы, что сгенерированные тексты могут быть сделаны достаточно сходными с «естественными», и при правильном подходе к делу они не влияют на сайт отрицательно. Сгенерированные тексты могут улучшить индексацию страниц сайта, и сделать страницы релевантными определенным запросам. Можно запрограммировать генератор на упоминание заданных ключевых слов или фраз в точно заданных процентных соотношениях от размера текста.

Литература
1. Е.А. Гречников, Г.Г. Гусев, А.А. Кустарев, А.М. Райгородский. Поиск неестественных текстов//Труды 11й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL’2009, Петрозаводск, Россия, 2009.
2. Aharoni, Roee, Moshe Koppel, and Yoav Goldberg. Automatic Detection of Machine Translated Text and Translation Quality Estimation//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 289–295, Baltimore, Maryland, USA, June 23-25 2014.
3. G. S. Manku, A. Jain, and A. Das Sarma. Detecting Near-duplicates for Web Crawling. In Proceedings of the 16th WWW Conference, May 2007
4. Zhang, Qing, David Y. Wang, and Geoffrey M. Voelker. «Dspin: Detecting automatically spun content on the web.» NDSS, 2014.

Источник