Dify平台支持关键词提取与主题归纳-深圳市維司達科技有限公司

Dify平台支持关键词提取与主题归纳

在内容爆炸的时代，企业每天都在面对海量的用户反馈、产品评论、客服对话和行业报告。如何从这些非结构化文本中快速提炼出关键信息？传统方法依赖人工阅读或基于统计的NLP模型，但前者效率低下，后者又难以应对语义复杂的真实场景。有没有一种方式，既能保留人类的理解力，又能具备机器的速度？

答案正在浮现——以Dify为代表的低代码AI应用开发平台，正让大语言模型（LLM）的能力变得触手可及。它不只是一套工具，更是一种全新的工作范式：通过可视化编排，将复杂的自然语言处理任务转化为“配置即用”的流程，尤其在关键词提取与主题归纳这两项基础但关键的任务上，展现出前所未有的灵活性与准确性。

关键词提取：从“找高频词”到“理解重点”

过去我们做关键词提取，常用TF-IDF或TextRank这类算法。它们本质上是基于词频和共现关系的数学计算，虽然实现简单、可解释性强，但在真实业务中常常显得“机械”。比如一段关于“新能源汽车电池寿命衰减”的用户反馈，系统可能只会提取“汽车”“电池”“寿命”这样的通用词，而忽略了更具价值的“续航焦虑”“质保争议”等深层表达。

而Dify的做法完全不同。它利用大语言模型本身强大的语义理解能力，通过精心设计的提示词（Prompt），引导模型像专业人士一样思考：“哪些词最能代表这段话的核心？”这种过程不再依赖预训练的主题模型或语料库，而是动态地根据上下文判断重要性。

整个流程非常直观：

用户输入原始文本；
在Dify的可视化界面中设定指令，例如：“请提取5个最关键的术语，优先考虑技术名词和用户痛点，返回JSON格式”；
平台调用后端LLM（如GPT-4、通义千问等）进行推理；
输出结果被自动解析为结构化数据，直接供下游系统使用。

这看似简单的几步，背后却解决了几个长期困扰工程团队的问题：

无需训练模型：省去了标注数据、调参优化的漫长周期；
灵活控制输出：可以随时调整关键词数量、领域偏好甚至语气风格；
多语言兼容：只要底层LLM支持，就能无缝处理中英文混合内容；
上下文感知更强：结合RAG机制后，还能参考企业内部知识库，避免误解专业术语。

更重要的是，这种方式特别适合那些术语密集、逻辑复杂的垂直领域。比如金融研报中的“流动性紧缩预期”，医疗记录里的“非小细胞肺癌靶向治疗”，传统方法很难准确捕捉，但LLM结合Prompt却能精准识别。

当然，有人会担心可控性和稳定性。这里有个实用建议：不要只靠自由生成，一定要强制结构化输出。例如明确要求“以JSON数组形式返回，字段名为keywords”，这样后续程序才能稳定解析。Dify的API也完全支持这一点，开发者可以用Python轻松集成进现有系统。

import requests import json API_KEY = "your_api_key" BASE_URL = "https://api.dify.ai/v1/applications/your-app-id/completion-messages" payload = { "inputs": { "text": "人工智能正在改变各行各业的发展模式，特别是在教育、医疗和交通领域展现出巨大潜力。" }, "query": "请从中提取最能代表主题的3个关键词，返回JSON格式，字段名为keywords。", "response_mode": "blocking" } headers = { "Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json" } response = requests.post(BASE_URL, data=json.dumps(payload), headers=headers) if response.status_code == 200: result = response.json() try: keywords_data = json.loads(result['answer']) print("提取关键词：", keywords_data.get("keywords", [])) except Exception as e: print("解析失败：", e) else: print("请求错误：", response.status_code, response.text)

这段代码展示了如何通过Dify的Completion Messages API实现自动化调用。设置response_mode="blocking"表示同步等待结果，非常适合批处理任务。实际部署时，还可以加入重试机制、缓存策略和日志追踪，进一步提升鲁棒性。

主题归纳：给每段文字一个“灵魂标签”

如果说关键词提取是“抓细节”，那么主题归纳就是“看全局”。它的目标不是列出一堆词，而是用一句话甚至一个短语概括整段内容的本质。这对于内容分类、工单路由、舆情监控等场景至关重要。

举个例子，客服系统收到一条反馈：“APP更新后登录总是跳转错误页面，换了两个账号都一样。”
人工来看，很容易判断这是“登录异常”问题。但如果是几百条类似的反馈同时涌入呢？这时候就需要自动化主题归纳来帮忙。

Dify的做法是将这一任务建模为“受控摘要生成”。你可以在Prompt中明确规定输出格式和长度，比如：“请用不超过六个汉字概括以下问题的主题，仅返回主题词。” 模型就会输出类似“登录失败”“页面跳转异常”这样简洁一致的结果。

这个过程之所以高效，是因为它绕开了传统主题建模的重重障碍。像LDA这样的方法需要大量训练数据，且生成的主题往往是抽象的词分布，难以直接用于业务分类。而Dify基于LLM的方式，几乎零成本启动，只需定义好规则即可上线运行。

而且，它的能力远不止于单文档归纳。当面对一组相关文本时，Dify还能实现多文档聚合归纳。比如把一周内的用户投诉汇总起来，自动生成“本周高频问题：支付超时、注册验证码收不到、订单状态不同步”这样的周报摘要，极大提升了运营效率。

值得一提的是，Dify还支持与RAG模块联动。这意味着，在归纳过程中，模型不仅可以理解文本本身，还能查询外部知识库来辅助判断。例如遇到“车机黑屏无法唤醒”这样的描述时，系统可通过RAG查到该问题是某款车型的已知固件缺陷，从而将其归类为“硬件兼容性问题”而非普通的“系统卡顿”。

下面是一个典型的API调用示例：

import requests import json API_KEY = "your_api_key" URL = "https://api.dify.ai/v1/applications/your-topic-app-id/completion-messages" text_input = """ 最近多位用户反映APP登录频繁失败，主要集中在安卓版本。 部分用户尝试重启设备也无法解决，怀疑是服务器认证接口异常。 """ prompt_instruction = "请用四个汉字以内概括上述问题的主题，仅返回主题词，不要解释。" payload = { "inputs": {"text": text_input}, "query": prompt_instruction, "response_mode": "blocking" } headers = { "Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json" } response = requests.post(URL, json=payload, headers=headers) if response.status_code == 200: result = response.json() topic = result['answer'].strip().strip('\"\'') print(f"归纳主题：{topic}") # 输出示例：登录故障 else: print("调用失败：", response.status_code, response.text)

这个脚本的关键在于精确的指令控制。通过限定字数、禁止解释、去除标点干扰，确保输出结果可以直接写入数据库或用于前端展示。在构建智能工单系统时，这种确定性的输出格式尤为宝贵。

实战落地：客户反馈自动分类系统的构建

让我们看一个真实的应用场景：一家电商平台希望提升客服响应速度，计划对每日上千条用户反馈进行自动分类。

传统的做法是建立规则引擎+关键词匹配，比如包含“退款”就归为“交易纠纷”，包含“加载慢”就标记为“性能问题”。但这种方法维护成本高、覆盖不全，新出现的表达方式往往无法识别。

借助Dify，我们可以设计一个更加智能的解决方案：

[用户提交反馈] ↓ [进入消息队列] ↓ [Dify平台并行处理] ↙ ↘ 关键词提取 主题归纳 （识别具体问题点） （生成高层类别） ↓ ↓ [合并输出JSON] ↓ [后端系统路由分发] ↦ 若主题为“支付问题” → 转财务组 ↦ 若含“闪退”“崩溃” → 转技术组 ↓ [推荐历史解决方案] ↓ [存入分析数据库]

在这个架构中，Dify作为核心AI引擎，承担了语义理解的关键角色。它不仅提高了分类准确率，还带来了额外收益：