GPT的前世今生-深圳市維司達科技有限公司

AIGC

AIGC爆发元年：2023
什么是AIGC？AI Generated Content，利用AI创造内容。据某权威机构，未来10年，互联网AIGC内容占比将达到50%。

机器学习知识补充

无监督学习 vs 有监督学习

无监督学习和有监督学习都是机器学习中常见的方法。

有监督学习是指使用带有标签的数据来训练模型，以便在未来对新数据进行分类或预测。在有监督学习中，模型需要学习从输入数据中提取特征，并将其与相应的标签进行关联。优点是可以获得高精度的预测结果，缺点是需要大量标记数据来训练模型。

无监督学习是指使用未标记的数据来训练模型，以便从数据中发现隐藏的结构、模式或特征。在无监督学习中，模型需要自己发现数据中的规律和模式，而不需要人为指定标签。优点是可以利用大量未标记数据来训练模型，缺点是难以评估模型的性能和效果。

总之，有监督学习适用于预测任务，需要大量标记数据来训练模型；而无监督学习适用于聚类、降维和异常检测等任务，可以利用大量未标记数据来训练模型。在实际应用中，通常需要根据具体问题选择合适的方法或结合两种方法来进行训练。

Sklearn常用算法：

无监督学习算法：

聚类算法：K-Means、层次聚类、DBSCAN等。
降维算法：主成分分析（PCA）、独立成分分析（ICA）、t-SNE等。
关联规则学习算法：Apriori、FP-Growth等。
异常检测算法：孤立森林、LOF（局部离群因子）等。

有监督学习算法：

分类算法：决策树、支持向量机（SVM）、逻辑回归、随机森林等。
回归算法：线性回归、岭回归、梯度提升回归等。
神经网络算法：多层感知器（MLP）、卷积神经网络（CNN）、循环神经网络（RNN）等。
集成学习算法：AdaBoost、Bagging、随机森林等。

Sklearn是什么：

Sklearn（全称 scikit-learn）是一个基于 Python 的开源机器学习库，专注于提供简单、高效的工具来完成各种机器学习任务。它构建在 NumPy、SciPy 和 matplotlib 等科学计算库之上，广泛应用于数据挖掘、数据分析以及模型训练和预测。

Sklearn 提供了丰富的功能，支持分类、回归、聚类、降维等机器学习任务。它的设计简洁且一致，用户可以通过调用 fit、predict 和 score 等方法快速实现机器学习流程。

Sklearn 的主要特点

易用性：Sklearn 的 API 简洁直观，适合初学者和专家使用。

高效性：底层实现依赖于 Cython 和 NumPy，执行速度快。

功能丰富：支持多种经典算法，如逻辑回归、支持向量机、随机森林、K均值聚类、主成分分析等。

兼容性强：与 NumPy、Pandas 等库无缝集成，支持多种数据格式。

Sklearn 的应用场景

Sklearn 被广泛应用于以下领域：

监督学习：如分类（垃圾邮件检测、图像分类）和回归（房价预测、股票价格预测）。

无监督学习：如聚类（客户分群）和降维（数据可视化）。

教育与研究：用于教授机器学习算法或进行学术研究。

工业项目：在自然语言处理、图像识别等领域中应用。

Sklearn 的工作流程

Sklearn 的典型机器学习流程包括以下步骤：

1.数据加载：通过内置数据集（如 datasets.load_iris()）或外部数据源加载数据。

2.数据预处理：进行标准化、缺失值填充等操作。

3.模型训练：选择算法（如逻辑回归、支持向量机）并使用 .fit() 方法训练模型。

4.模型评估：通过交叉验证或测试集评估模型性能。

5.模型优化：使用网格搜索（GridSearchCV）等方法调整超参数。

总结：Sklearn 是机器学习领域的核心工具之一，适合从入门到高级的各种用户。

强化学习

强化学习是一种机器学习方法，奖罚机制在强化学习中起着至关重要的作用，通过试错和奖励来学习最优决策策略。

神经网络模型

神经网络模型强调“模型”这个概念，是因为它是一种数学模型，用于描述神经网络的计算过程和行为。虽然神经网络模型最终需要通过编程语言来实现和运行，但它本质上是一种抽象的数学概念，用于描述神经元和它们之间的连接、权重、偏置等参数的计算过程。
常见神经网络模型：CNN、RNN等

GPT通识基础

什么是GPT

GPT（Generative Pre-trained Transformer）是一种基于Transformer架构的自然语言（NLP）模型。

Generative：基于概率的生成式模型，通过预测下一个文字出现概率来输出
Pre-trained：通过大量无标签样本数据进行训练
Transformer：能够设置海量神经元并拥有强劲的自然语言处理性能，GPT3拥有1750亿以上的神经元。

什么是大模型

大模型全称为LLM(Large Language Model) 是指大型的自然语言处理（NLP）模型，这些模型通常具有大量的参数，能够在海量无标签数据上进行预训练，从而学习到丰富的语言表示和知识。

GPT vs 大模型

结论：GPT本质是一种模型范式，是大模型的一种，拥有大量参数和通过海量训练，例如GPT3。其他任何模型如果足够“大”，都可以成为大模型。

如OpenAI在2018年发布GPT1时，并不是“大模型”，只是验证了GPT模型本身的有效性。

GPT vs NLP

NLP更多的是有监督学习，针对某一类数据集进行训练，而大模型是无监督学习(海量知识的学习)，再在某个领域进行微调得到。
NLP是基于RNN神经网络训练，强调的是自然语言理解能力和简单的交互，而GPT采用Transformer架构，通过对问题向量词进行重构，来更好的理解自然语言，且具有强大的生成能力。
Transformer模型解决了以前模型关注不到上下文的信息的问题。

ChatGPT vs GPT

ChatGPT是基于GPT模型构建的基于web端的聊天机器人。而GPT本质是一个模型，这个模型可以通过接口(API)进行调用，类似sklearn，可以在不同的场景进行调用，以完成对应的NLP任务。

openAI开发平台

https://www.platform.openai.com，注意：必须外服，港服不行

全球开源大模型性能评估榜

Hugging Face: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

开源大模型学习推荐

ChatGLM：
清华大学团队开发的ChatGLM6B(60亿)参数规模的模型，根据智谱AI公司的GLM-130B修改而来，支持个人GPT部署和使用，最低6G显存即可使用；
LLAMA：Meta公司“被”开源的大模型，参数量可调6B-65B之内，训练复杂度高于chatGLM。
GPT4ALL：训练数据集采用OpenAI GPT-3.5-Trubo模型创建的对话语料，相当于用AI训练AI
其他开源大模型：miniGPT4，来自沙特国安大学的华人团队，具备多模态能力，即除了识别文字外，还可以识别图像。

提示词工程

提示工程(Prompt Engineering) 是一种针对大模型的技术，旨在通过设计合适的输入提示来引导模型生成更准确、更相关的输出结果。

开源提示词库Awesome ChatGPT Prompts：https://prompts.chat/

提示词技巧：

技巧1：角色+场景+任务+规则
技巧2，提供样例：
- zero-shot
- one-shot
- few-shot
技巧3：思维链（Chain of Thought）
思维链的本质：将复杂任务拆解为多个简单的子任务。

为什么要用到思维链？

思考这样一个问题：人类为什么不能直接一眼看出一道数学难题的答案，而是经过解题步骤的一步步推导，就大概能得到正确的答案？ – 没有足够的思考时间。
而GPT同样如此，一步步思考可以充分利用它的算力。

技巧4：用结构化数据来代替文字描述
优点：
1. 能够节省大量文字描述；
2. 节省tokens消耗；
3. 能够轻松表达复杂数据之间的结构关系。
json本质上还是文本。

{"AI_Tutor":{"Python":{"beginner":{"description":"你是一名初级研发工程师，帮我..."},"professional":{"description":"你是一名资深的架构师，帮我..."}},"Java":{},"WEB":{

GPT的前世今生