2. Анатомия Грааля, или как работает машинный рерайт, ИИ-плагиат: по следам Пересмешника

S.A.Y.10

гамма

Xena Hough

гамма

Syth

автор

Метки

Вымышленные существа Упоминания секса Темы этики и морали Самоопределение / Самопознание Авторская пунктуация Писатели Матчасть Искусственные интеллекты Сказка Самовставка Фикрайтеры / Фикридеры Творческий кризис Авторская орфография Элементы философии

Описание

Матричное копирование становится все более частым явлением: Пересмешники загружают чужие тексты в нейронку и пишут на их основе свои, забывая подтереть артефакты. Поговорим о том, как это работает.

Примечания

Не так давно я обнаружила LLM-рерайт своего текста, а именно — пропущенные через нейронку постельные сцены с ксеносом. Сей статьей я пытаюсь выбраться из творческого блэкаута, спровоцированного этим событием, а также поддержать других авторов, оказавшихся в подобной ситуации. Подозреваю, нас будет становиться больше. Статья состоит из трех частей, будет выкладываться раз в 1-2 дня.

Посвящение

Идейной вдохновительнице Xena Hough, впервые поднявшей эту непростую тему: https://ficbook.net/readfic/019e6cc2-30db-7476-a9f7-79710674eab0 Всем моим читателем, что поддержали и выразили солидарность. Ради них, возможно, я продолжу свои впроцессники здесь. Любому автору, пострадавшему от Пересмешников. Обнимаю ❤️

Читать онлайн 0Отзывы

2. Анатомия Грааля, или как работает машинный рерайт

01 июля 2026, 06:27

Чтобы распознать подделку, необходимо понимать, как она создается. Я не буду грузить вас нейронаучной теорией на двести страниц, для наших целей достаточно усвоить несколько фундаментальных вещей. LLM (она же Грааль) расшифровывается как Large Language Model. По сути, это программа, натренированная на чудовищном объеме текстов: книги, статьи, форумы, фанфики — все, до чего дотянулись разработчики. На основе этого массива модель учится предсказывать, какое слово вероятнее всего идет после предыдущего, и порой довольно неплохо подражает литературе. Модели бывают публичные и локальные. Публичные — это, например, ChatGPT, Claude, Gemini и им подобные; вы заходите на сайт, пишете запрос, получаете ответ, все данные хранятся на серверах. Они жестко цензурируются и, как правило, отказываются писать откровенный сексуальный контент, инструкции по изготовлению взрывчатки и прочее. В общем контексте это не так важно, в данной статье — да, потому что в моем случае, например, копируют PWP-сцены. «Как нейросеть вообще смогла написать эротику?», можете спросить вы. Отвечу: путей обхода два. Во-первых, локальные модели. Те же нейросети, но скачанные на персональный компьютер и запущенные без каких-либо ограничений (названий и подробностей не скажу, дабы не облегчать Пересмешникам задачу); любой человек с более-менее мощным компьютером может установить себе такую модель и снять с нее фильтры. Некоторые версии публичных моделей можно обойти при помощи так называемых jailbreak-промптов — специальных формулировок, которые заставляют модель забыть о своих ограничениях. Достаточно подобрать промт, способный обмануть машину. Если Пересмешник заимствует не-эротические элементы (что встречается ничуть не реже), то барьера нет вовсе. Достаточно скопировать текст, вставить его в окно чата со словами: «Перепиши в таком же стиле, но вместо персонажа А пусть будет персонаж B, с такой-то и такой-то анатомией»; модель примется за задачу с энтузиазмом, через несколько итераций воспроизведет и авторский слог, и сюжетную структуру. Но все же она не всемогуща. Она не умеет думать, чувствовать и понимать в человеческом смысле. Искусственный Интеллект — это имитация интеллекта, простроенная на базе человеческих знаний и последовательных цепочек их использования, так что любой человек, обладающий языковым чутьем и базово знакомый с технологией, чует ИИ-текст за милю. Машинный синтаксис, обывателю кажущийся волшебством невероятным, в действительности работает довольно топорно. Модель предсказывает следующий токен, опираясь на контекст, буквально: получает последовательность на входе и рассчитывает вероятность каждого возможного элемента. Допустим, в исходнике есть предложение: «Язык гулял по груди кругами, неторопливо и со знанием…» — и модель прикидывает: «кругами» — 12%, «неторопливо» — 9%, «со знанием» — 7%… Выбирает, приклеивает и зачитывает следующее, повторяя эту петлю раз за разом до самого конца текста. Как если бы вы собирали паззл с завязанными глазами, ориентируясь исключительно на форму выемок. Финальная картинка может получиться частично связной, но она собрана вслепую, безо всякого понимания, что на ней изображено. Вы можете возразить: мол, как же так, а вот у меня нейронка все понимает, она запомнила кличку моей собаки, которую я обронил(а) давным-давно, и воспроизвела в нужный момент. Отчасти правда, LLM помнит контекст, но помнить и понимать смысл — разные вещи. Модель отслеживает связи между словами и знает, что «неторопливо и со знанием» хорошо продолжает «гулял по груди кругами», но не понимает, почему эта фраза работает. Она не знает, каково это — чувствовать то, что вы описываете; она не выбирает «неторопливо» вместо «медленно», потому что первое точнее передает ощущение ласки. Ее критерии сугубо машинны — и иногда она угадывает, а иногда нет. Теперь представьте, что кто-то загрузил в эту машину ваш текст и попросил: «напиши похожий рассказ, но замени дракона на змею, POV с первого лица на третье, добавь змеиную специфику». Модель честно возьмется за работу. Большую часть предложений она перестроит, но кое-что оставит нетронутым. Хорошо написанная фраза, с точки зрения модели, уже оптимальна и доработки не требует: если каждое слово стоит на своем месте, вероятность именно этого продолжения высока, и у модели нет мотива его менять. Она не понимает, что воспроизводит чужое, просто считает вероятности — и вероятность оригинала оказывается выше, чем вероятность парафраза. Так рождаются артефакты — дословные осколки исходного текста, проступающие сквозь машинную переработку.

// АРТЕФАКТЫ: ЧТО ИСКАТЬ И ГДЕ

Артефакт — своеобразный опечаток пальца на месте преступления, один из немногих признаков, по которому вы можете распознать матричное использование. Бывают разных типов, от очевидных до почти неуловимых, и я расположу их по убывающей силе — от косвенной улики до приговора. 1) Дословное ядро. Самый сильный тип — сложные конструкции, которые нейронка пропускает, когда обрабатывает большие объемы информации. Цепочка из шести-семи и более слов подряд, воспроизведенная в чужом тексте практически без изменений, не терпит проверок на вшивость. Ключевое слово тут — авторских: совпадение в духе «она застонала от удовольствия» ничего не доказывает, поскольку это жанровый штамп, который встречается в каждом втором эротическом тексте. А вот «язык гулял по груди кругами, неторопливо и со знанием» — это буквальный приговор, потому что в каждой позиции этой цепочки существовали альтернативы. Вместо «гулял» — скользил, блуждал, вместо «неторопливо» — медленно, лениво и так далее. Вероятность того, что два автора независимо выберут одну и ту же комбинацию из десятков возможных в каждой точке, совершенно невозможна. Как искать ядра: можете вручную, а можете загрузить оба текста в LLM (Gpt или Claude) и попросить провести n-граммный анализ — поиск совпадающих цепочек длиной 4, 5, 6, 7 слов. Отфильтруйте служебные слова (предлоги, союзы, местоимения), остаток — ваши кандидаты. Минимальным порогом считаю совпадение в четыре слова, шесть-семь и более — точно не случайность. Пример ядра, которое обнаружила я в нейрокопии своей работы: // RE: Syth «Драконий язык гулял по груди кругами, неторопливо и со знанием: то затягивал сосок глубоко в пасть, то легонько прихватывал зубами, то поддевал кончиком, как бы дразнясь». // RE: Peresmeshnik «И змеиный язык загулял по её груди кругами, неторопливо и со знанием: N то обводил раздвоенным кончиком соски… то алыми губами прихватывал их глубоко в рот, дразнясь». Думаю, комментарии тут излишни. Что особенно примечательно — после того, как я указала на артефакт в своем отзыве к работе, Пересмешница не сумела объясниться, удалила его из текста и закрыла комментарии. 2) Скелет сцены. Менее очевидный, но не менее убийственный признак. Разбейте свою сцену и ту, что кажется вам подозрительно похожей, на биты — минимальные единицы действия. Запишите их в два столбца, затем сосчитайте совпадения. В качестве примера приведу сцену, которую скопировали у меня: // RE: Syth Героиня приходит в шатер → описание двух существ → прямое заявление «речь о сексе» → «Раздевайся» → раздевается → осмотр обнаженного тела → язык на груди/сосках → тактильное знакомство → демонстрация промежности → куннилингус → обнаружение двойного пениса (гемипениса) → «Их два?» → приглашение потрогать → тактильное исследование → проникновение (сзади) → обнаружение девственности → «Я буду ласков» → смена позиции (она сверху), стимуляция пальцами → второй партнер присоединяется (спереди) → оргазм героини → смена позиции → оральный секс (героиня + второй) → финиш первого внутрь → второй берет сразу после → поцелуй (язык в рот) → второй оргазм героини + финиш внутрь → послекоитальный отдых → тянется к одежде → запрет одеваться → предложение продолжить → героиня одевается и уходит // RE: Peresmeshnik Героиня в гроте, ждет → существо появляется → описание существа → «Не бойся, не причиню вреда» → тактильное знакомство → ладонь на грудь → язык по щеке и горлу → поцелуй (язык в рот) → существо раздевает героиню → осмотр обнаженного тела → вибрация погремушки на клиторе → язык на груди/сосках → хвост в анус — подготовка (со смазкой) → куннилингус → оргазм героини → «Их два?» → описание гемипениса → приглашение потрогать → мастурбация → двойное проникновение (вагинальное + анальное) → несколько раундов → финиш внутрь (двумя членами) → послекоитальный отдых → второй куннилингус → еще раунд + вибрация на клиторе → второй оргазм героини → отдых → тянется к одежде → запрет одеваться Теперь — совпадающий скелет в порядке появления: Осмотр тела → язык на груди → куннилингус → оргазм → обнаружение двух пенисов → реплика → «потрогай» → тактильное исследование → проникновение → несколько раундов → финиш внутрь → отдых → второй раунд → второй оргазм → отдых → тянется к одежде → запрет Совпали пятнадцать из девятнадцати битов, все в том же порядке. Различия — вставки змеиной специфики (кольца, хвост, погремушка), то есть ровно те адаптации, которые превращают персонажа-дракона в персонажа-змея, не трогая каркас. Жанр объясняет, почему в обоих текстах есть секс, но он не может объяснить, почему он идет в одной и той же последовательности из пятнадцати шагов. Интересная деталь — если не ограничиваться анализом одной из глав, можно обнаружить еще больше совпадений. Например, бит «Не причиню вреда» и двойное проникновение гемипенисом заимствовано из той же работы, но другой главы — то есть, вероятно, нейронке скормили массивный объем данных. Это наводит на мысли не о копировании какой-то отдельной сцены или сюжетного куска, а о комплексном обучения ИИ модели на чужих текстах. Как вам такое, рукописные авторы? Подытожим наш бенчмарк: 5–7 совпадающих битов — серая зона. 10+ в том же порядке — жирный красный флаг. 15+ — матрица. 3) Кластерные речевые совпадения. Сразу уточню, что повторяющиеся речевые обороты сами по себе — сомнительный аргумент. Мы читаем тонны текстов каждый день и так или иначе цепляемся глазами за те или иные средства выразительности, мозг фиксирует, запоминает. Но кластерность, то есть частота и плотность повторения — реальная улика. Так, например, призыв потрогать за член — не что-то новое; «Их два?» — естественный вопрос, более чем; «Я не причиню тебе вреда» — распространенное заверение. Но когда все эти пустячки кластеризованы в одной сцене, появляются в тех же функциональных позициях (обнаружения анатомической особенности > приглашение потрогать > тактильный контакт) и набираются в количестве 8–10 штук — это устойчивый паттерн, для появления которого необходимо было залезть в чужой текст Кластерность определяется следующим образом: выпишите все короткие фразовые совпадения, затем проверьте — появляются ли они в тех же местах сценарной цепочки? Если фразы идут после определенных действий, и у подозреваемого повторяются в схожей последовательности, и так шесть-восемь раз подряд — это слепок, который вы можете смело добавлять в свою доказательную базу. 4) Амплификация. Специфический машинный артефакт. Единичная удачная находка (необычное прилагательное, характерный оборот, меткая деталь описания) в чужом тексте размножается, как бактерия в чашке Петри. Вы написали «венозный» один раз — у Пересмешника оно может встретиться три или четыре. Вы использовали конструкцию «[обращение]… [ощущение]…» для одной реплики — у Пересмешника каждая вторая реплика построена так. Это происходит потому, что дурочка-машина, обнаружив в исходнике удачный элемент, не понимает, что его сила в уникальности. Она тиражирует его, блаженно полагая, что раз он хорош здесь, то будет хорош и там, и вон там тоже. Автор-человек так не делает — вне зависимости от степени своей непорядочности, он все-таки помнит, что не должен палиться. 5) Безупречная смена рассказчика. Можно проследить, если ваш текст, например, написан от первого лица, а подозрительный от третьего. Данный артефакт не подтверждает копирование само по себе, но может свидетельствовать в пользу LLM-рерайта, доказать, что это именно он, а не ручное копирование. Обращайте внимание на качество перехода: человек, переписывающий вручную, почти всегда оставляет швы — случайные проскоки первого лица, несогласованности во внутреннем монологе, путаницу между мыслями героини и авторским описанием. LLM делает эту работу чисто, равномерно и без единого шва. Подозрительная безупречность — сама по себе маркер. 6) Хронология публикации. Любое обвинение в копировании упирается в хронологию. По сути своей это не доказательство, а формальная необходимость. Отметка о времени публикации — обязательный штрих, финализирующий всю доказательную базу.

// ПОВЕДЕНИЕ ПЕРЕСМЕШНИКА

Технический анализ — бесспорный фундамент. Но есть и другой слой доказательств, не менее важный: как человек реагирует, когда его ловят за руку. Во время своего расследования я пронаблюдала классический набор поведенческих реакций, знакомый всем, кто сталкивался с нечистыми на руку персонами. > Смена темы. Вы предъявляете конкретные фразу или сюжетные биты, например: восемь слов, слово в слово, или шесть действий, одно за другим. В ответ получаете длинное философское рассуждение о том, что «в сексе невозможно придумать ничего нового» (вот эту фразу запомните обязательно, они повторяют ее, как заведенные), или «секс строится по одной логике», или «тропы в жанре общие». Все верно — тропы действительно общие, только вот спрашивать вы должны, основываясь не на общей канве, а конкретной последовательности совпадений. > Удаление фрагмента. Если человек искренне считает фразу своей, у него нет причин ее удалять. Удаление — это действие того, кто знает, что фраза чужая, и пытается уничтожить улику. Особенно показательно, когда удаление происходит после публичного заявления, но сопровождается словами «я ни у кого ничего не брала». Отрицание на словах, признание действием — вещи взаимоисключающие. > Отрицание знакомства с текстом. Особенно при фактическом пословном копировании, особенно в совокупности с другими отрицаниями. «Не читала ваш текст, не использую ИИ, ничего не заимствую». Три барьера, выстроенные один за другим — не потому, что каждый из них правда, а потому что если падет первый (признание, что текст был прочитан), неизбежно встанет вопрос: «Хорошо, а зачем ты его загружала в модель?», то есть Пересмешник перестраховывается, предлагая вам дополнительные тезисы, которые придется переспорить, чтобы вернуться к основному. > Закрытие комментариев. Может быть типичной реакцией на стресс, но в контексте предшествующего спора, в котором автор так и не ответил на прямой вопрос — это попытка закрыть площадку, на которой лежат неудобные аргументы. > Давление на жалость. Пересмешники любят примерять позицию жертвы. «Меня травят», «меня обвиняют», «мне больно это слышать», «вы не понимаете, каково мне сейчас» — эмоционально понятная реакция, но заметьте, что в ней отсутствует ответ на вопрос. Сочувствие аудитории перенаправляется на подозреваемого, а конкретное доказательство тонет в эмоциональном шуме.

// ЗАКЛЮЧЕНИЕ

Ни один из перечисленных маркеров не является доказательством сам по себе, но комплекс совпадений складывается в неопровержимую картину. Самый мощный аргумент — повторение языковых конструкций (дословное ядро), если заметили его, то вероятность копирования взлетает до обещанных 95-99% еще на старте. С матчастью все, в следующей части поговорим о том, что можно сделать.

0Отзывы

Отзывы

Пока нет отзывов.

Оставить отзыв

Что еще можно почитать

Новые Популярные Обсуждаемые