news 2026/6/19 20:43:33

AI核心知识47——大语言模型之Data Cleaning(简洁且通俗易懂版)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI核心知识47——大语言模型之Data Cleaning(简洁且通俗易懂版)

数据清洗 (Data Cleaning),在大语言模型(LLM)的开发流程中,属于预训练之前的准备工作。

如果说预训练是 AI 的“正餐”,那么数据清洗就是“备菜”——把买回来的菜里的烂叶子摘掉、泥土洗净、切好分类,确保 AI 吃到肚子里的是营养而不是垃圾。

在 AI 界有一句至理名言,完美解释了数据清洗的重要性:

"Garbage In, Garbage Out" (垃圾进,垃圾出)。 如果你喂给模型的是垃圾数据,那么无论你的模型架构多先进,它吐出来的也只能是垃圾。


1. 🗑️ 为什么要清洗数据?(互联网真的很脏)

大模型的训练数据主要来自互联网(Common Crawl)。但原始的互联网数据是极度混乱、肮脏和低质的。

如果不清洗,直接把互联网数据喂给 AI,会出现什么问题?

  1. 学坏了(有害内容):互联网上充斥着色情、暴力、仇恨言论、种族歧视。如果不删掉,AI 就会变成一个满嘴脏话的“键盘侠”。

  2. 变笨了(低质内容):到处都是广告弹窗(“澳门首家线上...”)、乱码、HTML 标签(<div>...</div>)、毫无意义的流水账。这些噪音会浪费 AI 的脑容量。

  3. 复读机(重复数据):互联网上有很多复制粘贴的内容(比如同一篇新闻被 100 个网站转载)。如果 AI 反复看同一句话 100 遍,它就会死记硬背(过拟合),而不是理解规律

  4. 泄密(隐私问题):网页里可能包含真实的人名、电话、邮箱、身份证号。如果不擦除,AI 可能会在聊天时把别人的隐私背出来。


2. 🚿 数据清洗都在洗什么?(四大工序)

数据清洗通常是一个自动化的流水线(Pipeline),包含以下几个核心步骤:

A. 格式清洗 (Formatting)
  • 目标:把乱七八糟的网页代码变成纯净的文本。

  • 操作

    • 去除 HTML 标签(如<br>,&nbsp;)。

    • 修正乱码(把é变回é)。

    • 去除表情符号(如果不需要的话)。

B. 去重 (Deduplication) ——最重要的一步
  • 目标:让 AI 看到的每一条知识都是独一无二的。

  • 操作

    • 精确去重:完全一样的句子直接删掉。

    • 模糊去重 (MinHash):两篇文章改了几个字,内容99%相似,也要删掉一篇。

  • 效果:研究表明,去重可以显著提升模型的智商,防止它变成只会背书的书呆子。

C. 质量过滤 (Quality Filtering)
  • 目标:只保留“教科书级”的高质量文本。

  • 操作

    • 基于规则:删掉太短的句子、删掉标点符号过多的句子、删掉非目标语言(比如训练英文模型时删掉中文)。

    • 基于模型:用一个小模型先读一遍,给文本打分。像“美女荷官在线发牌”这种广告文本,打低分直接扔掉;像“维基百科”这种,打高分保留。

D. 隐私与安全清洗 (Privacy & Safety)
  • 目标:打马赛克。

  • 操作:使用正则表达式自动识别并替换掉所有的邮箱、电话号码、IP 地址、社保号。把它们变成[EMAIL],[PHONE]这样的占位符。


3. ⚖️ 清洗前 vs. 清洗后

为了让你直观感受到区别:

  • 🚫 清洗前(Raw Data):

    <div> 2023-10-01 </div> <p> 大家好!!!今天心情不错。。。买了个表⌚️。点击这里领取优惠券:http://spam.com/ads。联系电话:13800138000。联系电话:13800138000。(重复) </p>

  • ✅ 清洗后(Clean Data):

    大家好,今天心情不错,买了一块手表。

区别:后者是人类正常的语言,前者是噪音。模型学后者能学会写作,学前者只能学会发小广告。


4. 🚀 现代趋势:合成数据 (Synthetic Data)

由于互联网上的高质量数据(书、论文、代码)快被 AI “吃光”了,而且清洗起来很累。

现在 AI 界的一个新趋势是:用最聪明的 AI(如 GPT-4)来生成高质量的教科书数据,然后喂给小模型(如 Llama 3)吃。

  • 这叫“合成数据”

  • 这就像:既然外面的水太脏(互联网数据),不如我们自己蒸馏纯净水(AI 生成数据)给孩子喝。

  • 微软的Phi-3模型就是典型的例子,它用了大量 AI 生成的“教科书级”数据,虽然模型很小,但极其聪明。


总结

数据清洗是 AI 工程师的“淘金”过程。

他们从互联网这条充满了泥沙(垃圾数据)的大河里,通过层层筛网(清洗算法),筛选出最后那一点点金沙(高质量 Token)。

正是这些纯净的“金沙”,铸就了 ChatGPT 们惊人的智慧。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/18 14:47:46

投入1分,回报10分?深挖AI开发平台“吸金”的三大黄金场景!

引言&#xff1a; 企业投资的终极目标是回报。所有技术引入&#xff0c;ROI&#xff08;投资回报率&#xff09;是最关键的考量。那么&#xff0c;AI开发平台到底能在哪些场景下&#xff0c;为企业带来最直接、最可观的“真金白银”&#xff1f;本文将抛开概念&#xff0c;直击…

作者头像 李华
网站建设 2026/6/18 23:05:30

你的同行都在偷偷用的AI开发平台,到底强在哪里?三大高阶场景曝光。

引言&#xff1a; 在激烈的市场竞争中&#xff0c;保持技术领先是塑造品牌高端形象的关键。当你的同行还在讨论概念时&#xff0c;领先者早已利用AI开发平台在核心业务上构筑了难以逾越的护城河。本文将曝光那些“闷声发大财”的企业正在深耕的三大高阶应用场景&#xff0c;展现…

作者头像 李华
网站建设 2026/6/19 1:10:14

3分钟快速上手:Cropper.js图像裁剪终极指南

3分钟快速上手&#xff1a;Cropper.js图像裁剪终极指南 【免费下载链接】cropperjs JavaScript image cropper. 项目地址: https://gitcode.com/gh_mirrors/cr/cropperjs 在当今数字化时代&#xff0c;图像处理已成为网页开发中不可或缺的重要环节。Cropper.js作为一款功…

作者头像 李华
网站建设 2026/6/19 2:02:36

基于Android的云养殖的服务APP的设计与实现

前言 &#x1f31e;博主介绍&#xff1a;✌CSDN特邀作者、全栈领域优质创作者、10年IT从业经验、码云/掘金/知乎/B站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战&#xff0c;以及程序定制化开发、文档编写、答疑辅导等。✌…

作者头像 李华
网站建设 2026/6/19 1:54:45

1.vmware虚拟机安装和配置os

vmware虚拟机安装centos7os vmware虚拟机就相当于一个裸机&#xff0c;然后下载的centos7镜像就是这个裸机的os 如何关机 虚拟机快照 当快照完这个状态&#xff0c;以后搞崩了就可以恢复到这个快照 FinalShell远程连接到Linux敲命令 在vmware界面使用terminal终端太卡&#xff…

作者头像 李华
网站建设 2026/6/19 14:36:30

大脑各组织类型及其电磁特性

大脑的组织构成是神经科学与生物医学工程的基础&#xff0c;其分类需兼顾解剖结构、功能特性&#xff08;如脑电磁环境、神经刺激&#xff09;&#xff0c;核心可分为神经组织、结缔组织、体液组织三大类&#xff0c;各类组织在电磁参数&#xff08;电导率、介电常数&#xff0…

作者头像 李华