诗歌小说生成：文学创作新范式-深圳市維司達科技有限公司

诗歌小说生成：文学创作新范式

在当代数字创作的浪潮中，越来越多的作家开始尝试让AI成为自己的“笔友”——不是替代写作，而是协助构思、延续风格、甚至唤醒灵感。一位诗人上传了自己过去十年的手稿，输入一句“请以我惯用的意象，写一首关于暮春落花的五言绝句”，几秒钟后，屏幕上跳出一首押韵工整、意境清冷的小诗，连编辑都难以分辨是人是机。这并非科幻场景，而是基于像Anything-LLM这类平台的真实应用。

这类系统之所以能实现“懂你”的创作辅助，核心并不在于单纯调用一个大模型，而是一套精密协同的技术架构：它把用户的私人文档变成AI的“记忆库”，通过检索增强生成（RAG）机制引导模型输出，再结合多模型灵活调度与自动化向量化流水线，构建出真正个性化的智能写作环境。尤其在诗歌与小说这类对语义连贯性、风格一致性要求极高的文本生成任务中，这种设计展现出远超通用聊天机器人的专业能力。

RAG：让AI“记得住”你的创作风格

传统大语言模型在写作时，本质上是在“凭空发挥”。即使提示词写得再详细，模型也无法真正记住你上个月写的那部小说里主角的名字到底叫“林深”还是“沈川”——它没有外部记忆，只能依赖训练数据中的泛化模式。这就导致生成内容容易出现角色错乱、设定漂移、风格断裂等问题。

而 Anything-LLM 引入的检索增强生成（Retrieval-Augmented Generation, RAG）机制，正是为了解决这一痛点。它的思路很清晰：与其指望模型“记住一切”，不如让它随时可以“查资料”。

整个流程分为两个阶段：

首先是检索阶段。当用户提出请求，比如“续写第三章，保持男主角冷静克制的性格”，系统会将这句话编码成向量，在预先建立的向量数据库中搜索最相关的文本片段。这些片段可能来自用户上传的小说前两章、人物设定文档，甚至是作者私下整理的“角色语录集”。

接着进入生成阶段。系统将检索到的内容拼接成上下文，连同原始指令一起送入大语言模型。此时模型不再是闭门造车，而是基于真实存在的文本依据进行续写。这就像给作家配备了一个永不疲倦的研究助理，总能在关键时刻递上你需要的参考资料。

这种方式带来的好处是实实在在的：

风格可迁移：通过引入个人作品作为检索源，AI能模仿特定句式、修辞偏好和情感基调。
设定不崩塌：世界观、人物关系、关键情节节点都被纳入索引，避免“上一章已死的角色在下一章复活”这类低级错误。
知识可更新：无需重新训练模型，只要更新文档库，AI就能立刻“学到”新内容。比如新增一章后重新索引，后续生成自然包含最新进展。

下面是一个简化版的 RAG 实现示例，使用 Hugging Face 的transformers库：

from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration # 初始化RAG组件 tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq") retriever = RagRetriever.from_pretrained( "facebook/rag-sequence-nq", index_name="exact", use_dummy_dataset=True ) model = RagSequenceForGeneration.from_pretrained("facebook/rag-sequence-nq", retriever=retriever) # 输入用户查询 input_text = "请写一首关于秋天的五言诗" inputs = tokenizer(input_text, return_tensors="pt") # 生成响应 generated = model.generate(inputs["input_ids"]) output = tokenizer.batch_decode(generated, skip_special_tokens=True) print(output[0]) # 输出生成的诗句

虽然这是通用 RAG 模型的演示，但其原理与 Anything-LLM 内部逻辑一致。区别在于，后者会将用户上传的文档（如.pdf、.txt）先解析并索引至本地向量数据库（如 FAISS），形成专属知识库。这样一来，每一次生成都带有“个人印记”，而非千篇一律的模板输出。

多模型支持：按需切换，掌控创作节奏

另一个常被忽视的问题是：没有一种模型适合所有写作场景。

写初稿时，你可能更看重速度和流畅度，愿意牺牲一点文采换取快速产出；而在润色阶段，则希望模型具备更强的语言美感和修辞能力，哪怕推理慢一些也无妨。此外，隐私敏感的创作者可能坚持本地运行，而团队协作项目则倾向使用性能更强的云端 API。

Anything-LLM 的多模型支持机制正是为此而生。它不绑定单一 AI 引擎，而是提供一个统一接口，允许用户自由选择底层模型——无论是本地部署的 Llama3、Mistral，还是远程调用的 GPT-4、通义千问。

系统通过适配器模式封装不同模型的 SDK，屏蔽底层差异。用户只需在前端界面点选所需模型，后台便会自动路由请求，无需重启服务或修改配置文件。这种“热切换”能力极大提升了创作灵活性。

例如，你可以这样做：
- 用Llama3-8B快速生成小说草稿，全程离线运行，保障内容安全；
- 切换到GPT-4-Turbo对关键段落进行润色，提升语言表现力；
- 使用Qwen-Max处理中文古风文本，利用其在本土语料上的优势。

这一切的背后，靠的是标准化的模型配置管理。以下是一个典型的 YAML 配置示例：

models: - name: "llama3-8b-local" type: "local" path: "/models/llama3-8b.Q4_K_M.gguf" backend: "llama.cpp" context_size: 8192 enabled: true - name: "gpt-4-turbo" type: "api" provider: "openai" api_key_env: "OPENAI_API_KEY" endpoint: "https://api.openai.com/v1/chat/completions" enabled: true - name: "qwen-max" type: "api" provider: "dashscope" api_key_env: "DASHSCOPE_API_KEY" enabled: true

系统启动时读取该配置，初始化可用模型列表。前端据此展示选项，用户选择后，所有后续请求均定向至指定模型。这种设计不仅降低了技术门槛，也让资源分配更加合理：简单任务用轻量模型，复杂创作调用高性能引擎，真正做到“好钢用在刀刃上”。

文档处理流水线：从 PDF 到“可检索的记忆”

如果说 RAG 是大脑，多模型是肌肉，那么文档上传与向量化处理就是感官系统——它决定了 AI 能“看到”什么、记住多少。

Anything-LLM 支持多种格式文档上传：PDF、DOCX、TXT、Markdown 等。无论你是扫描版手稿、Word 排版的章节草稿，还是纯文本笔记，系统都能自动提取内容，并转化为可用于检索的向量表示。

整个过程完全自动化，主要包括五个步骤：

文档解析：使用 PyPDF2、python-docx 等工具提取原始文本。对于图像型 PDF，还可集成 OCR 模块识别文字。
文本分块：将长文档切分为语义完整的片段（chunk）。通常每个 chunk 包含 512~1024 个 token，避免句子被截断。
嵌入生成：采用 Sentence-BERT 类模型（如all-MiniLM-L6-v2）将每一块文本编码为高维向量，捕捉其语义信息。
向量存储：将向量存入轻量级向量数据库，如 FAISS 或 Chroma，支持高效近似最近邻（ANN）搜索。
索引构建：建立快速检索索引，确保在毫秒级时间内返回最相关的结果。

这个流程看似技术细节繁多，但对用户而言极其简单：点击“上传”，等待几秒，即可在对话中引用这份文档。

以下是模拟该流程的一段 Python 代码：

from langchain.document_loaders import PyPDFLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import HuggingFaceEmbeddings import faiss import numpy as np # 加载PDF文档 loader = PyPDFLoader("poetry_collection.pdf") pages = loader.load() # 分割文本 text_splitter = RecursiveCharacterTextSplitter(chunk_size=512, chunk_overlap=50) texts = text_splitter.split_documents(pages) # 生成嵌入 embedding_model = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2") embeddings = [embedding_model.embed_document(text.page_content) for text in texts] embedding_matrix = np.array(embeddings).astype("float32") # 构建FAISS索引 dimension = embedding_matrix.shape[1] index = faiss.IndexFlatL2(dimension) index.add(embedding_matrix) # 保存索引与文本映射 faiss.write_index(index, "poetry.index") with open("text_chunks.txt", "w") as f: for i, text in enumerate(texts): f.write(f"{i}: {text.page_content[:200]}...\n")

在实际系统中，这些操作由后台 Worker 异步执行，不影响前端交互。更重要的是，系统会对分块策略进行优化，尽量保持诗句完整性或段落连贯性，避免将一句诗拆成两半导致语义失真。

从理论到实践：一个真实的创作闭环

让我们还原一个典型的应用场景：一位网络小说作者正在连载一部玄幻题材作品，已有二十万字正文和一份详细的世界观设定文档。他希望通过 AI 协助完成下一章的情节推进，同时确保角色性格不变、伏笔回收准确。

他的操作流程如下：

将已完成的章节打包为 PDF 并上传至 Anything-LLM；
系统自动解析、分块、向量化，构建专属知识库；
在聊天界面输入：“请根据前文，描写主角进入秘境后的遭遇，突出其隐忍果断的性格特征。”
系统触发 RAG 流程：检索出与“主角性格”“秘境探索”相关的多个文本片段；
拼接上下文后送入选定模型（如本地 Llama3）生成内容；
返回一段风格一致、逻辑连贯的新章节草稿，耗时约 3 秒。

相比传统方式，这套流程解决了三大痛点：

传统问题	Anything-LLM 解法
AI 忘记角色设定	通过 RAG 检索历史文本，实时补充上下文
内容脱离个人风格	用户文档作为知识源，实现风格锚定
部署复杂难私有化	提供 Docker 镜像，一键部署，支持离线运行

尤其是在长篇小说创作中，几十个角色、多重时间线、复杂势力关系，仅靠人类记忆都容易出错，更别说 AI。而有了持续维护的“创作备忘录”，系统始终能基于完整设定生成内容，极大提升了叙事稳定性。