news 2026/4/23 14:10:50

如何利用LLM处理非结构化数据

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何利用LLM处理非结构化数据

大型语言模型(LLMs)解决了非结构化数据(如文本、图片和音频文件)带来的重大挑战,使得从大量数据中提取有价值的见解或信息成为可能。

非结构化数据的挑战

非结构化数据与结构化数据相反,结构化数据具有预定义的格式或模式。文本文档、社交媒体帖子、电子邮件,甚至音频和视频录音,都是非结构化数据的例子。处理这类数据可能耗时且劳动密集,通常需要人工干预以提取有意义的信息。

大型语言模型如何提供帮助

LLM已经在大量文本数据上进行了训练,能够识别数据中的模式、关系和上下文。通过将这些能力应用于非结构化文本数据,LLM可以执行以下任务:

  1. 提取关键词和短语:从大量文本中识别相关术语和概念。
  2. 分类和分类:根据内容、情感或意图将无结构文本组织成预设的类别或类别。
  3. 总结与摘要:将冗长文本浓缩为简明摘要,保留最重要的信息。
  4. 计算主观指标:计算诸如“专业素养”或呼叫中心客服对特定话术执行的程度等指标。这些都是主观指标,没有理解文本模式和关系的模型,很难量化。

将非结构化数据转化为结构化数据

利用大型语言模型的一个极其强大的方法是将非结构化数据转化为结构化数据,使其更容易分析和用于其他应用、机器学习模型、仪表盘等。以下是一些常见的使用场景:

情绪分析:分析客户从社交媒体帖子或评论中获得的反馈,以评估情绪并识别趋势。

主题建模:在大量文本(如新闻文章或研究论文)中识别主要主题和子主题。

实体提取:从非结构化文本数据中提取特定实体,如名称、位置和组织。

音频转录:将口述音频录音转换为文字转录,便于分析。

例子:呼叫中心分析

MLRun呼叫中心演示是使用LLM处理非结构化数据的一个绝佳例子。它基于银行客户的真实用例,将呼叫中心坐席与客户之间的音频录音分析为结构化数据,这些数据可以在仪表盘中可视化,并用于其他下游应用。

呼叫分析工作流程

调用分析工作流程包含多个步骤,所有主要功能都从MLRun函数中心导入。您可以通过点击以下列表中的函数名称查看每个集线器函数的docstring、代码和示例:

调用数据插入数据库 —将调用元数据插入到 MySQL 数据库。

进行语音记录——中心功能:分析每个人在通话时的发言时间,以便后续改进转录和分析。日语化为LLM提供了上下文,并产生更好的结果。该函数采用silero-VAD模型。语音解析基于呼叫中心录音中每个音频声道属于不同扬声器的假设,按每个通道进行。

转录——枢纽功能:使用 Hugging Face 的 ASR 流水线与 OpenAI 的 Whisper 模型。该函数将通话转录并翻译成文本,并保存为文本文件。它是OpenAI的Whisper软件包的优化版本——支持批处理、CPU向多处理工作者卸载,并可通过MLRun和OpenMPI在多个GPU上分发。

识别个人身份信息——枢纽功能:采用三种技术识别个人身份信息:RegEx、Flair以及Microsoft的Presidio分析器和匿名化器。该功能清除已识别的个人数据,并生成多个工件以审查和理解识别过程。

分析——枢纽功能:使用大型语言模型分析给定文本。它期望一个提示模板和问题发送给LLM,然后从回答中构建一个数据帧数据集。本演示使用了GPTQ量化版的Mistral-7B来分析通话内容。提取以下特征有助于:

topic: str——从给定主题列表中选出通话的一般主题。

summary: str——简短几句总结了整个通话内容。

concern_addressed: bool——客户的关切是否在通话结束时得到回应。可能是{是,不是}。

customer_tone: str——通话中的一般客户语气。可以是{正、中性、负}之一。

agent_tone:&

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 8:23:28

手把手教程:在ARM64实例上搭建Kubernetes集群

在 ARM64 服务器上从零搭建 Kubernetes 集群:一次真实的实战记录最近,我在 AWS 上启动了一台 T4g 实例(基于 Graviton2 的 arm64 架构),想试试在非 x86 平台上部署一套完整的 Kubernetes 集群。起初我以为只是换个架构…

作者头像 李华
网站建设 2026/4/23 8:22:16

参与PyTorch开源项目提升个人技术影响力

参与 PyTorch 开源项目提升个人技术影响力 在人工智能研发日益标准化的今天,一个刚入门的研究生和一家顶级科技公司的工程师可能使用完全相同的工具链:PyTorch 搭配 CUDA 加速,在容器化环境中完成从实验到部署的全流程。这种一致性背后&#…

作者头像 李华
网站建设 2026/4/23 9:57:00

从零实现同步整流buck电路图及其原理分析

从零构建同步整流Buck电路:不只是看懂图,更要搞懂它为何高效你有没有遇到过这样的情况?设计一个电源模块时,明明选了“够用”的电感和二极管,结果负载一加大,芯片烫得像火炉,效率掉得比自由落体…

作者头像 李华
网站建设 2026/4/21 3:26:02

利用电路仿真软件分析频率响应的系统学习

深入掌握频率响应仿真:从原理到实战的完整指南你有没有遇到过这样的情况?电路在纸上设计得完美无缺,一上电却自激振荡、输出失真,甚至完全无法工作。而当你回头用示波器测量时,才发现问题出在某个“看不见”的频率点上…

作者头像 李华
网站建设 2026/4/22 14:03:07

SpringSecurity、Shiro 和 Sa-Token,选哪个更好?

前言 今天我们来聊聊一个让很多Java开发者纠结的技术选型问题:Spring Security、Apache Shiro和Sa-Token,这3个主流安全框架到底该选哪个? 有些小伙伴在工作中可能遇到过这样的场景:新项目启动会上,架构师坚持要用Sp…

作者头像 李华
网站建设 2026/4/23 9:59:55

Google Colab Pro解锁更高GPU算力运行大模型

Google Colab Pro解锁更高GPU算力运行大模型 在深度学习的世界里,算力就是生产力。当你的本地笔记本还在为加载一个7B参数的LLaMA模型而内存告急时,有人已经用云端A100显卡完成了微调任务——这种差距的背后,不只是硬件配置的问题&#xff0c…

作者头像 李华