news 2026/4/23 9:16:11

GPT的前世今生

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GPT的前世今生

AIGC

AIGC爆发元年:2023
什么是AIGC?AI Generated Content,利用AI创造内容。据某权威机构,未来10年,互联网AIGC内容占比将达到50%。

机器学习知识补充

无监督学习 vs 有监督学习

无监督学习和有监督学习都是机器学习中常见的方法。

有监督学习是指使用带有标签的数据来训练模型,以便在未来对新数据进行分类或预测。在有监督学习中,模型需要学习从输入数据中提取特征,并将其与相应的标签进行关联。优点是可以获得高精度的预测结果,缺点是需要大量标记数据来训练模型。

无监督学习是指使用未标记的数据来训练模型,以便从数据中发现隐藏的结构、模式或特征。在无监督学习中,模型需要自己发现数据中的规律和模式,而不需要人为指定标签。优点是可以利用大量未标记数据来训练模型,缺点是难以评估模型的性能和效果。

总之,有监督学习适用于预测任务,需要大量标记数据来训练模型;而无监督学习适用于聚类、降维和异常检测等任务,可以利用大量未标记数据来训练模型。在实际应用中,通常需要根据具体问题选择合适的方法或结合两种方法来进行训练。

Sklearn常用算法:

无监督学习算法:

  • 聚类算法:K-Means、层次聚类、DBSCAN等。
  • 降维算法:主成分分析(PCA)、独立成分分析(ICA)、t-SNE等。
  • 关联规则学习算法:Apriori、FP-Growth等。
  • 异常检测算法:孤立森林、LOF(局部离群因子)等。

有监督学习算法:

  • 分类算法:决策树、支持向量机(SVM)、逻辑回归、随机森林等。
  • 回归算法:线性回归、岭回归、梯度提升回归等。
  • 神经网络算法:多层感知器(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)等。
  • 集成学习算法:AdaBoost、Bagging、随机森林等。

Sklearn是什么:

Sklearn(全称 scikit-learn)是一个基于 Python 的开源机器学习库,专注于提供简单、高效的工具来完成各种机器学习任务。它构建在 NumPy、SciPy 和 matplotlib 等科学计算库之上,广泛应用于数据挖掘、数据分析以及模型训练和预测。

Sklearn 提供了丰富的功能,支持分类、回归、聚类、降维等机器学习任务。它的设计简洁且一致,用户可以通过调用 fit、predict 和 score 等方法快速实现机器学习流程。

Sklearn 的主要特点

易用性:Sklearn 的 API 简洁直观,适合初学者和专家使用。

高效性:底层实现依赖于 Cython 和 NumPy,执行速度快。

功能丰富:支持多种经典算法,如逻辑回归、支持向量机、随机森林、K均值聚类、主成分分析等。

兼容性强:与 NumPy、Pandas 等库无缝集成,支持多种数据格式。

Sklearn 的应用场景

Sklearn 被广泛应用于以下领域:

监督学习:如分类(垃圾邮件检测、图像分类)和回归(房价预测、股票价格预测)。

无监督学习:如聚类(客户分群)和降维(数据可视化)。

教育与研究:用于教授机器学习算法或进行学术研究。

工业项目:在自然语言处理、图像识别等领域中应用。

Sklearn 的工作流程

Sklearn 的典型机器学习流程包括以下步骤:

1.数据加载:通过内置数据集(如 datasets.load_iris())或外部数据源加载数据。

2.数据预处理:进行标准化、缺失值填充等操作。

3.模型训练:选择算法(如逻辑回归、支持向量机)并使用 .fit() 方法训练模型。

4.模型评估:通过交叉验证或测试集评估模型性能。

5.模型优化:使用网格搜索(GridSearchCV)等方法调整超参数。

总结:Sklearn 是机器学习领域的核心工具之一,适合从入门到高级的各种用户。

强化学习

强化学习是一种机器学习方法,奖罚机制在强化学习中起着至关重要的作用,通过试错和奖励来学习最优决策策略。

神经网络模型

神经网络模型强调“模型”这个概念,是因为它是一种数学模型,用于描述神经网络的计算过程和行为。虽然神经网络模型最终需要通过编程语言来实现和运行,但它本质上是一种抽象的数学概念,用于描述神经元和它们之间的连接、权重、偏置等参数的计算过程。
常见神经网络模型:CNN、RNN等

GPT通识基础

什么是GPT

GPT(Generative Pre-trained Transformer)是一种基于Transformer架构的自然语言(NLP)模型。

  • Generative:基于概率的生成式模型,通过预测下一个文字出现概率来输出
  • Pre-trained:通过大量无标签样本数据进行训练
  • Transformer:能够设置海量神经元并拥有强劲的自然语言处理性能,GPT3拥有1750亿以上的神经元。

什么是大模型

大模型全称为LLM(Large Language Model) 是指大型的自然语言处理(NLP)模型,这些模型通常具有大量的参数,能够在海量无标签数据上进行预训练,从而学习到丰富的语言表示和知识。

GPT vs 大模型

结论:GPT本质是一种模型范式,是大模型的一种,拥有大量参数和通过海量训练,例如GPT3。其他任何模型如果足够“大”,都可以成为大模型。

  • 如OpenAI在2018年发布GPT1时,并不是“大模型”,只是验证了GPT模型本身的有效性。

GPT vs NLP

  • NLP更多的是有监督学习,针对某一类数据集进行训练,而大模型是无监督学习(海量知识的学习),再在某个领域进行微调得到。
  • NLP是基于RNN神经网络训练,强调的是自然语言理解能力和简单的交互,而GPT采用Transformer架构,通过对问题向量词进行重构,来更好的理解自然语言,且具有强大的生成能力。
  • Transformer模型解决了以前模型关注不到上下文的信息的问题。

ChatGPT vs GPT

ChatGPT是基于GPT模型构建的基于web端的聊天机器人。而GPT本质是一个模型,这个模型可以通过接口(API)进行调用,类似sklearn,可以在不同的场景进行调用,以完成对应的NLP任务。

openAI开发平台

https://www.platform.openai.com,注意:必须外服,港服不行

全球开源大模型性能评估榜

Hugging Face: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

开源大模型学习推荐

  • ChatGLM:
    清华大学团队开发的ChatGLM6B(60亿)参数规模的模型,根据智谱AI公司的GLM-130B修改而来,支持个人GPT部署和使用,最低6G显存即可使用;
  • LLAMA:Meta公司“被”开源的大模型,参数量可调6B-65B之内,训练复杂度高于chatGLM。
  • GPT4ALL:训练数据集采用OpenAI GPT-3.5-Trubo模型创建的对话语料,相当于用AI训练AI
  • 其他开源大模型:miniGPT4,来自沙特国安大学的华人团队,具备多模态能力,即除了识别文字外,还可以识别图像。

提示词工程

提示工程(Prompt Engineering) 是一种针对大模型的技术,旨在通过设计合适的输入提示来引导模型生成更准确、更相关的输出结果。

开源提示词库Awesome ChatGPT Prompts:https://prompts.chat/

提示词技巧:

  1. 技巧1:角色+场景+任务+规则
  2. 技巧2,提供样例:
    • zero-shot
    • one-shot
    • few-shot
  3. 技巧3:思维链(Chain of Thought)
    思维链的本质:将复杂任务拆解为多个简单的子任务。

为什么要用到思维链?

思考这样一个问题:人类为什么不能直接一眼看出一道数学难题的答案,而是经过解题步骤的一步步推导,就大概能得到正确的答案? – 没有足够的思考时间。
而GPT同样如此,一步步思考可以充分利用它的算力。

  1. 技巧4:用结构化数据来代替文字描述
    优点:
    1. 能够节省大量文字描述;
    2. 节省tokens消耗;
    3. 能够轻松表达复杂数据之间的结构关系。
    json本质上还是文本。
{"AI_Tutor":{"Python":{"beginner":{"description":"你是一名初级研发工程师,帮我..."},"professional":{"description":"你是一名资深的架构师,帮我..."}},"Java":{},"WEB":{
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/20 2:21:15

如何构建智能文档索引:推理检索的终极指南

在处理长篇专业文档时,传统的基于向量的搜索技术往往依赖于语义的相似性,而非真正的相关性。然而,我们需要的正是这种相关性,它要求有推理能力的支持。当处理需要领域专业知识的多步骤推理的专业文档时,仅仅基于相似性…

作者头像 李华
网站建设 2026/4/15 5:55:20

【C++】哈希表实现

1. 哈希概念 哈希(hash)又称散列,是⼀种组织数据的方式。从译名来看,有散乱排列的意思。本质就是通过哈希函数把关键字Key跟存储位置建立⼀个映射关系,查找时通过这个哈希函数计算出Key存储的位置,进行快速查找。 1.1 直接定址法…

作者头像 李华
网站建设 2026/4/22 5:55:22

fastText预训练模型终极指南:5个步骤快速部署高效文本处理

fastText预训练模型终极指南:5个步骤快速部署高效文本处理 【免费下载链接】fastText Library for fast text representation and classification. 项目地址: https://gitcode.com/gh_mirrors/fa/fastText 想要快速构建高质量的文本分类和词向量应用&#xf…

作者头像 李华
网站建设 2026/4/18 0:03:35

【微信小程序城市公交查询系统】(免费领源码+演示录像)|可做计算机毕设Java、Python、PHP、小程序APP、C#、爬虫大数据、单片机、文案

摘 要 当今社会已经步入了科学技术进步和经济社会快速发展的新时期,国际信息和学术交流也不断加强,计算机技术对经济社会发展和人民生活改善的影响也日益突出,人类的生存和思考方式也产生了变化。传统城市公交查询管理采取了人工的管理方法…

作者头像 李华
网站建设 2026/4/21 13:13:40

10、UNIX 系统中的进程与程序详解

UNIX 系统中的进程与程序详解 进程组身份与程序执行 在 UNIX 系统里,进程可以通过执行 getpgrp 系统调用来确定其组身份,示例代码如下: int mygroup; mygroup = getpgrp();程序是进程的重要组成部分。当通过 fork 系统调用创建一个新进程时,它会获得其父进程的程序…

作者头像 李华