OWASP AI安全Top 10：大模型、智能体、数据安全风险与防护策略全解析！-深圳市維司達科技有限公司

本文系统梳理了OWASP发布的5份AI安全报告，涵盖大模型、智能体、AI数据、技能和机器学习等领域的10大风险，如提示注入、数据投毒、供应链漏洞等。文章详细分析了各风险场景及应对措施，强调数据安全是贯穿所有层次的共性主线，并指出Skill层是当前最薄弱环节。同时，文章揭示了2026年AI安全风险已从理论进入实战阶段，多个大规模攻击事件（如ClawHavoc）已发生，提示企业需高度重视AI安全防护。

前言

本文对OWASP发布的《OWASP-Top-10-for-LLM-Applications》、《OWASP-Top-10-for-Agentic-Applications》、《OWASP-GenAI-Data-Security-Risks-and-Mitigations》、《OWASP-Agentic-Skills-Top-10》、《OWASP-Machine-Learning-Security-Top-10》等5份研究报告进行系统梳理，为大模型、智能体、AI数据、技能、机器学习的安全风险分析和应对措施设计提供参考。

一、OWASP AI安全5大报告概述

（一）大模型应用十大风险（LLM Top 10 v2.0）

报告定位：全球首个专注于大语言模型应用安全的权威Top 10清单，已成为金融、政务、医疗等行业AI合规建设的基准参考

发布时间：2025年（v2.0版本，对应2023年初版全面升级）

使用对象：LLM应用开发者、安全工程师、红队测试人员、企业安全管理者

（二）智能体应用十大风险（Agentic Applications Top 10）

报告定位：聚焦AI Agent在自主执行任务过程中的运行时安全风险，是LLM Top 10在Agent场景的自然延伸

发布时间：2025年12月（2026年发布）

使用对象：AI Agent系统架构师、安全评估团队、Agent平台运营方、集成服务商

（三）生成式AI数据安全二十一项风险（GenAI Data Security Risks）

报告定位：首个系统性覆盖GenAI全流程数据安全风险的权威框架，涵盖训练数据、模型权重、向量数据库、API调用、数据跨境等21个风险点

发布时间：2026年3月（v1.0）

使用对象：数据安全负责人、隐私合规团队、MLOps工程师、云安全架构师

（四）智能体技能安全十大风险（Agentic Skills Top 10）

报告定位：首个针对AI Agent“技能层”（介于模型与工具之间的行为抽象层）的安全风险框架，填补了MCP协议层之下的安全空白

发布时间：2026年3月（v1.0）

使用对象：Agent平台开发者、Skill生态运营方、安全审计人员

（五）机器学习安全十大风险（ML Security Top 10）

报告定位：面向传统机器学习模型（非大模型）的安全风险框架，聚焦模型本身的对抗性攻击、数据投毒、成员推断等底层安全威胁

发布时间：2023年（草案v0.3）

使用对象：ML安全研究人员、传统机器学习工程师、对抗性测试团队

二、OWASP AI安全风险及应对

（一）大模型应用10大风险（LLM Top 10）

图1：大模型应用架构与威胁建模

LLM01 提示注入（Prompt Injection）

风险描述：用户通过输入以非预期方式改变LLM行为或输出的指令。注入可能在人类无法察觉的情况下影响模型——内容只要能被模型解析即可发挥作用，无需对人类可见。

攻击场景：在文本中植入隐藏指令使模型忽略原有系统提示；通过RAG检索文档注入恶意指令；多轮对话中累积注入改变模型行为。

预防缓解：对用户输入充分验证和清洗，分离不可信内容与系统指令；权限控制限制模型输出可执行的操作范围；对输出内容实施安全过滤。

LLM02 敏感信息披露（Sensitive Information Disclosure）

风险描述：LLM应用可能泄露PII、财务记录、健康数据、商业机密、安全凭证（API密钥、密码）、法律文件，以及专有训练方法和源代码。

攻击场景：精心构造提示词诱导输出训练数据中的个人信息；利用’角色扮演’绕过限制套取敏感信息；在多轮对话中积累上下文获取原本无法直接访问的敏感数据。

预防缓解：严格输入过滤和输出过滤机制；敏感数据分类分级管理避免进入训练数据；最小权限原则限制LLM可访问的数据范围。

LLM03 供应链漏洞（Supply Chain）

风险描述：LLM应用的供应链各环节（训练数据、预训练模型、第三方库、部署平台）均可能引入安全漏洞，损害训练数据完整性、模型安全性或平台可靠性。

攻击场景：使用被污染的第三方数据集训练模型导致输出偏差；引入存在漏洞的第三方插件被攻击者借此横向移动；在模型托管平台引入恶意依赖建立持久化据点。

预防缓解：对第三方数据集和模型进行来源验证和完整性校验；建立供应链安全清单（SBOM）；部署前对第三方插件和扩展进行安全审查。

LLM04 数据和模型投毒（Data & Model Poisoning）

风险描述：在预训练、微调或嵌入数据阶段被人为植入恶意内容、后门或偏见，破坏模型的安全性，性能或道德标准。

攻击场景：在训练数据中植入特定触发词使模型产生预设偏差响应；通过微调数据污染诱导模型在特定领域输出误导性信息；在嵌入向量中植入隐蔽后门影响检索结果。

预防缓解：对训练数据来源实施严格管控和验证；在训练流程中引入数据清洗和异常检测；使用对抗性训练提升模型对投毒攻击的鲁棒性。

LLM05 不当输出处理（Inadequate Output Handling）

风险描述：LLM生成的输出在传递给其他组件前未经充分验证和清洗，可成为攻击者间接访问下游系统的通道，可能导致代码执行、命令注入或数据泄露。

攻击场景：模型输出被直接拼入SQL或系统命令引发注入攻击；生成的文件或代码片段包含恶意内容被下游系统误执行；输出中的链接被导向钓鱼网站。

预防缓解：对所有LLM输出进行严格的内容安全和格式验证；下游系统接口实施输入安全过滤；禁止将LLM输出直接用于高权限操作或系统命令构造。

LLM06 过度代理（Excessive Agency）

风险描述：LLM被赋予过多代理权限，自主决定调用哪些扩展或执行哪些操作时，如果缺乏充分的安全审查，可能导致意外或高风险操作。

攻击场景：模型被诱导调用本不应该暴露的敏感函数（如删除文件、发送邮件）；攻击者通过提示词操纵模型执行连串高风险操作，每个单独看都看似合理。

预防缓解：最小权限原则，仅授予模型完成特定任务所必需的权限；对高风险操作实施人工确认机制而非完全自主执行；在系统设计层面限制模型的行动范围和调用链路。

LLM07 系统提示词泄露（System Prompt Leakage）

风险描述：系统提示被攻击者通过各种技术手段获取。开发者常假设提示信息可被安全隔离，但实际应用中提示泄露事件频发。

攻击场景：通过特定注入诱导模型输出完整的系统提示内容；利用模型对’忽略之前指令’的敏感性间接获取提示信息。

预防缓解：应用层实施输出过滤，阻止系统提示内容出现在用户可见输出中；对提示内容实施加密保护；定期审计模型的提示泄露风险。

LLM08 向量和嵌入漏洞（Vector & Embeddings）

风险描述：RAG等基于向量嵌入技术的应用面临向量数据库污染、嵌入空间后门注入、检索结果被篡改等风险，这些风险直接影响模型输出的基础数据质量。

攻击场景：在向量数据库植入恶意文档被检索后注入模型上下文；对抗性嵌入修改使恶意内容与合法内容相似导致错误检索。

预防缓解：对入库文档进行安全扫描和内容验证；实施向量数据库访问控制和审计机制；定期对向量库进行完整性检测。

LLM09 虚假信息（Misinformation）

风险描述：LLM可能生成看似合理但实际不准确、误导性或完全虚构的内容（幻觉）。在关键决策场景可能导致严重危害。

攻击场景：模型提供错误的医疗用药剂量危及患者安全；在金融场景生成虚假市场分析报告影响投资决策。

预防缓解：对模型输出实施多源交叉验证而非单一依赖模型生成内容；高风险场景人工审核机制；特定领域微调和RLHF降低幻觉率。

LLM10 无界消费（Unbounded Consumption）

风险描述：在大规模LLM部署场景下，攻击者可通过精心设计的输入快速耗尽系统资源或引发非预期的成本急剧攀升（经济型DoS）。

攻击场景：通过超长或递归性提示触发模型无限生成；大量并发请求利用高计算成本实施经济型DoS；诱导模型反复调用昂贵外部API累积超额费用。

预防缓解：对输入长度和输出token数设置严格上限；API限流和配额管理；监控异常的资源消耗模式及时发现和阻断攻击。

（二）智能体应用10大风险（ASI Top 10）

图2：智能体10大风险概览

ASI01 目标劫持（Agent Goal Hijack）

风险描述：Agent无法可靠区分指令与相关内容的边界。攻击者可通过提示词操纵、欺骗性工具输出、恶意文件、伪造Agent间消息等手段操纵Agent的目标、任务选择或决策路径。

攻击场景：在文档中植入隐蔽指令改变Agent目标；工具返回虚假信息误导Agent后续决策；多Agent场景中伪造其他Agent消息操纵整体任务方向。

预防缓解：在指令解析层引入结构化约束区分系统指令与外部内容；对工具输出实施可信度验证；关键决策节点人工确认机制。

ASI02 工具滥用与利用（Tool Misuse and Exploitation）

风险描述：Agent依赖工具与外部世界交互。当工具存在安全缺陷或调用超出预期时，攻击者可利用工具执行未授权操作、横向移动或数据窃取。

攻击场景：利用Agent对文件系统的广泛访问权限读取SSH密钥、浏览器密码；在MCP工具链中注入恶意工具描述诱导调用伪装组件；利用网络访问能力将窃取数据外传。

预防缓解：工具调用最小权限原则；对工具执行前验证响应完整性；监控工具调用网络行为。

ASI03 身份与权限滥用（Identity and Privilege Abuse）

风险描述：Agent持有API密钥、云平台令牌等凭据，一旦被滥用或窃取，攻击者即可以Agent身份执行未授权操作。

攻击场景：恶意Skill读取Agent持有凭据文件以Agent身份向外部服务发起请求；Agent身份凭据被持久化存储在配置文件中被窃取。

预防缓解：严格限制凭据访问范围禁止Skill直接读取凭据文件；凭据生命周期管理定期轮换；高风险操作强制审计。

ASI04 智能体供应链漏洞（Agentic Supply Chain Vulnerabilities）

风险描述：Agent系统依赖大量第三方组件（预训练模型、工具插件、知识库、Skill包等），任何环节被污染均可导致系统性安全风险。

攻击场景：ClawHavoc事件中攻击者批量注册恶意开发者账号上传341个恶意Skill形成大规模供应链投毒。

预防缓解：第三方组件来源验证并检查数字签名；安装前自动化安全扫描；建立组件完整性校验机制（哈希/Merkle根签名）。

ASI05 意外代码执行（Unexpected Code Execution / RCE）

风险描述：Agent系统在处理非可信输入时可能意外触发代码执行，攻击者可通过恶意构造的输入、工具输出或文件内容使Agent执行任意系统命令。

攻击场景：Agent解析恶意构造的文件触发本地命令注入；通过文件名注入导致命令执行；恶意网页内容被Agent读取时其中的JavaScript代码被意外执行。

预防缓解：非可信输入严格验证和清理；在隔离环境（容器/沙箱）中运行Agent；禁用或严格限制动态代码生成能力。

ASI06 内存与上下文投毒（Memory & Context Poisoning）

风险描述：Agent的长期记忆和会话上下文被攻击者注入恶意内容，在后续交互中持续影响Agent行为。

攻击场景：ClawHavoc攻击中恶意Skill向MEMORY.md写入持久化后门指令使Agent在后续会话中持续执行攻击者指定的操作。

预防缓解：对进入记忆系统的内容严格输入过滤和安全扫描；系统指令与外部内容严格隔离；定期审计记忆内容。

ASI07 不安全的智能体间通信（Insecure Inter-Agent Communication）

风险描述：多Agent协作系统中通信通道缺乏加密或身份验证，攻击者可窃听、篡改或伪造Agent间通信内容。

攻击场景：在不加密的WebSocket连接中窃听Agent间传递的敏感任务信息；伪造其他Agent的消息诱导目标Agent执行错误任务。

预防缓解：Agent间通信传输层加密（TLS）；双向身份认证确保通信双方身份可验证；通信内容完整性校验。

ASI08 级联失效（Cascading Failures）

风险描述：单点故障或性能下降通过组件间依赖链引发连锁反应，导致整个系统不可用或产生大量错误输出。

攻击场景：关键API宕机依赖该API的Agent陷入重试循环大量消耗资源；模型输出微小偏差通过多步任务链逐级放大最终产生严重错误。

预防缓解：关键组件冗余部署避免单点依赖；超时机制和熔断器防止故障组件拖累整体；系统级监控告警发现早期故障信号。

ASI09 人与智能体信任滥用（Human-Agent Trust Exploitation）

风险描述：用户对Agent输出给予较高信任度，攻击者利用这种人机信任关系传播虚假信息、钓鱼内容或诱导用户做出错误决策。

攻击场景：通过Agent生成看似专业的钓鱼邮件利用用户对AI内容的信任诱导上当；Agent被诱导生成虚假法律/医疗建议。

预防缓解：Agent输出中明确标注置信度和局限性；高风险操作强制人工二次确认；建立来源追溯机制。

ASI10 恶意智能体（Rogue Agents）

风险描述：Agent被恶意控制或伪装，冒充合法Agent执行未授权操作。

攻击场景：ClawJacked漏洞中恶意网站暴力破解连接本地OpenClaw实例注册新设备冒充用户身份执行操作；通过供应链投毒部署恶意Skill以用户Agent身份执行数据外传。

预防缓解：Agent身份强身份认证和动态验证；限制Agent注册和接入权限实施白名单制度；持续监控行为识别异常模式。

（三）生成式AI数据安全21项风险（DSGAI Top 21）

DSGAI-01 敏感数据泄露（Sensitive Data Leakage）

**风险描述：**攻击者（或好奇的用户）通过精心构造的指令、枚举查询或高召回提示词，与模型或RAG系统交互，使其返回完整或近似完整的敏感信息（PII/PHI/商业秘密/IP）。大模型可能在没有特定用户提示的情况下无意间泄露训练数据中的秘密信息。微调模型和LoRA适配器尤其脆弱——即使是小样本适配器也会逐字记忆罕见的训练样本，造成有针对性的提取风险。

**缓解措施：**差分隐私训练、输出过滤器与PII检测、RAG权限管控、敏感数据识别与过滤、机器遗忘技术

DSGAI-02 智能体身份与凭据暴露（Agent Identity & Credential Exposure）

**风险描述：**AI智能体管道生成大量非人类身份（NHIs）——服务账号、API密钥、OAuth令牌、工具凭据——但缺乏生命周期治理。核心漏洞是架构错配：三方OAuth流程围绕人类同意设计，但当同样的流程被附加到自主智能体时，人类在环路的同意信号消失，但授予的作用域却没有相应缩减。智能体通常继承其人类操作员的完整OAuth令牌，包括远超任何单一任务所需的权限

**缓解措施：**最小权限OAuth作用域、JIT临时凭据、多因素凭据保护、凭据生命周期管理、监控与审计

DSGAI-03 影子AI与未经授权的数据流（Shadow AI & Unsanctioned Data Flows）

**风险描述：**业务部门在未经IT批准的情况下使用公共AI SaaS工具、浏览器插件和生产力智能体，将敏感提示词、文档和代码粘贴到外部模型，形成无管控的数据流。浏览器智能体和第三方AI服务在没有任何合同或技术保护的情况下捕获数据。

**缓解措施：**数据分类与标记、员工安全意识培训、SaaS管控、DLP监控、外发数据过滤

DSGAI-04 数据、模型与构件投毒（Data, Model & Artifact Poisoning）

**风险描述：**完整攻击生命周期分三个阶段：数据摄入时的训练数据污染、训练期间通过后门触发器的投毒、以及部署后对权重、嵌入或索引的构件篡改。攻击者在公开数据集或模型市场中植入恶意样本，使模型在遇到特定触发条件时产生预设偏差。

**缓解措施：**训练数据来源审计、投毒检测算法、输入验证与过滤、可复现训练流程、模型签名验证

DSGAI-05 数据完整性与验证失败（Data Integrity & Validation Failures）

**风险描述：**AI管道从多种来源摄入数据——上传文件、API数据流、快照导入、标注队列——但缺乏充分的模式强制执行或完整性检查，使得恶意内容可以悄无声息地破坏模型行为。数据验证的失败使得污染的数据得以进入训练管道。

**缓解措施：**数据输入验证与模式强制、异常检测、数字签名与完整性校验、不可变数据存储、漂移检测

DSGAI-06 工具、插件与智能体数据交换风险（Tool, Plugin & Agent Data Exchange Risks）

**风险描述：**每次工具调用、插件调用或智能体交接都是潜在的数据泄露边界。当AI助手连接到外部工具时，数据边界延伸到该工具可访问的任何范围。攻击者通过提示注入或工具投毒操纵智能体行为，调用那些被speculative授予但从未打算用于当前任务的权限。

**缓解措施：**工具权限最小化、MCP协议安全、数据交换审计、网络隔离、工具输出内容验证

DSGAI-07 AI系统的数据治理、生命周期与分类（Data Governance, Lifecycle & Classification for AI Systems）

**风险描述：**在传统数据系统中，治理失败——缺失分类标签、过期保留策略、数据主体权利缺失——只造成有限风险。但在AI系统中，由于数据衍生构件（嵌入、索引、缓存）的存在，同样的问题会创造出原本不存在的数据暴露面。

**缓解措施：**数据分类分级、AI数据资产清单、数据保留策略、数据主体权利响应流程、DBOM物料清单

DSGAI-08 不合规与违反法规（Non-Compliance & Regulatory Violations）

**风险描述：**AI系统中的监管风险很少作为独立事件发生——它在其他技术风险未得到缓解并与可执行的法规义务交叉时浮出水面。GDPR删除权、AI法案合规、PIPL义务等要求，在数据已持久化于模型权重或嵌入中后，将变得几乎不可能完全满足。

**缓解措施：**合规映射与审计、跨境数据传输协议、监管技术文档、数据删除能力验证、AI Act合规评估

DSGAI-09 多模态采集与跨渠道数据泄露（Multimodal Capture & Cross-Channel Data Leakage）

**风险描述：**此风险将数据泄露扩展到多模态GenAI（文本+图像+音频+视频）——截图、仪表盘照片、护照扫描件、语音备忘录都可能被上传并提取其中的敏感数据，在多个渠道被捕获、存储或外泄。

**缓解措施：**多模态输入审核、输出内容过滤、敏感信息脱敏、第三方集成审计、传输加密

DSGAI-10 合成数据、匿名化与转换陷阱（Synthetic Data, Anonymization & Transformation Pitfalls）

**风险描述：**核心错误是假设数据转换——去标识化、分词、正态化、合成生成——可以消除风险，但实际上如果转换未经过充分验证，反而可能保留或重新引入隐私风险。攻击者可利用匿名化数据中的残留信息进行重标识攻击。

**缓****解措施：**匿名化效果验证、k-匿名性与l-多样性、差分隐私、变换后数据审计、合成数据质量评估

DSGAI-11 跨上下文与多用户对话串扰（Cross-Context & Multi-User Conversation Bleed）

**风****险描述：**LLM系统通过共享内存或会话状态在多会话、租户或用户间复用对话，以创建持久化助手。工作区之间隔离不力、对话ID处理不当或索引中的缺陷，可能导致一个用户/租户的提示和上下文泄露到另一个用户的对话中。

**缓解措施：**租户数据隔离、向量库访问控制、上下文窗口隔离、定期索引审计、最小化上下文原则

DSGAI-12 不安全的自然语言数据网关（Unsafe Natural-Language Data Gateways (LLM-to-SQL/Graph)）

**风险描述：**组织通过询问您的数据副驾驶模式将数据仓库、图谱和分析引擎暴露给LLM。提示注入攻击可诱使LLM将自然语言查询转换为恶意数据库操作，从而提取、修改或破坏数据。

**缓解措施：**查询权限最小化、SQL注入防御、语义层安全、查询审计、参数化查询

DSGAI-13 向量数据库平台数据安全（Vector Store Platform Data Security）

**风险描述：**未加密的嵌入和宽松的向量API允许通过相似性查询获取敏感内容。嵌入反向攻击和跨租户向量查询创造出传统数据库安全工具无法检测的数据暴露路径。

**缓解措施：**向量数据加密、API权限管控、嵌入反向攻击防御、向量库隔离、访问审计

DSGAI-14 过度遥测与监控泄露（Excessive Telemetry & Monitoring Leakage）

**风险描述：**团队为调试智能体工作流和RAG质量，对每次请求/响应都记录丰富的日志、追踪和会话捕获。过度详细的观测数据成为攻击者寻求了解模型行为和敏感数据流的高价值目标。

**缓解措施：**日志最小化原则、敏感字段过滤与脱敏、日志访问控制、短TTL日志、端到端加密

DSGAI-15 过度宽泛的上下文窗口与提示过度共享（Over-Broad Context Windows & Prompt Over-Sharing）

**风险描述：**为改善答案，团队将完整的用户资料、工单历史、交易记录和文档填充到提示词中，极大扩展了数据暴露面——一旦发生泄露或提示注入，整个敏感数据集都面临风险。

**缓解措施：**上下文最小化、按需数据切片、会话历史清理、提示词架构加固、上下文隔离

DSGAI-16 端点与浏览器助手过度扩展（Endpoint & Browser Assistant Overreach）

**风险描述：**用户安装承诺提升效率的AI浏览器扩展和OS/IDE副驾驶。这些工具访问标签页、剪贴板、系统文件，成为强大但易泄露的客户端数据收集器。浏览器扩展和网页内容中的提示注入在端点侧创造了新的攻击向量。

**缓解措施：**浏览器扩展审核、端点DLP、提示注入防御、端点数据隔离、最小化扩展权限

DSGAI-17 AI数据管道中的数据可用性与弹性失败（Data Availability & Resilience Failures in AI Pipelines）

**风险描述：**依赖RAG的应用程序存在传统软件中不存在的数据完整性依赖：如果向量存储被损坏或检索索引被投毒，模型输出将变得不可靠，但不会产生传统软件的错误信号，使得问题难以被发现。

**缓解措施：**数据备份与恢复、向量库完整性监控、RAG健康检测、灾备演练、弹性架构

DSGAI-18 推理攻击与数据重建（Inference & Data Reconstruction）

**风险描述：**攻击者通过迭代查询推断成员身份或从模型输出中重建属性和样本。差分推理攻击利用统计模式提取敏感的训练数据特征。

**缓解措施：**差分隐私、推理防御训练、输出扰动、查询频率限制、模型响应监控

DSGAI-19 人在回路与标注者过度暴露（Human-in-the-Loop & Labeler Overexposure）

**风险描述：**为RLHF、安全微调和数据质量审查，标注者被给予原始提示、完成内容和内部文档，大量创建新的数据暴露面。标注者可成为社会工程或数据窃取的目标。

**缓解措施：**标注者最小权限、数据脱敏、标注工作流隔离、标注者审计、合规数据处理协议

DSGAI-20 模型泄露与知识产权复制（Model Exfiltration & IP Replication）

**风险描述：**模型泄露攻击（MEA）发生在对手使用自动化查询提取模型功能、权重或专有训练方法时，使其能够重建等价模型用于竞争优势或进一步攻击。

**缓解措施：**模型输出扰动、查询限流、模型水印、API访问控制、模型行为监控

DSGAI-21 通过数据投毒实现虚假信息与完整性攻击（Disinformation & Integrity Attacks via Data Poisoning）

**风险描述：**当对手故意将虚假、误导性或操纵性内容引入训练数据以改变模型行为、降低性能或影响下游决策时，虚假信息就成为一种数据安全攻击。这不仅影响模型输出，还可能传播到使用该模型的所有下游系统。

**缓解措施：**训练数据溯源、内容审核、去偏见训练、模型行为监控、完整性验证

（四）智能体技能安全10大风险（AST Top 10）

AST01 恶意技能（Malicious Skills）

风险描述：Skill包被植入恶意代码，安装后以受害者身份执行未授权操作。Snyk发现76+个实际恶意Skill。

攻击场景：通过供应链批量植入恶意Skill，伪装成合法工具或实用功能诱导用户安装。

预防缓解：发布前对Skill代码进行静态分析和动态行为扫描；使用Merkle根签名验证Skill完整性；建立可信注册表机制。

AST02 供应链漏洞（Supply Chain）

风险描述：技能市场注册门槛低缺乏审核，攻击者可批量上传恶意Skill。ClawHavoc事件341个恶意Skill集中发布。

攻击场景：攻击者在公开市场上批量注册开发者账号，上传恶意Skill等待目标下载使用。

预防缓解：实施开发者身份验证和Skill审核机制；建立注册表透明化日志；自动化安全扫描结合人工复核。

AST03 权限过度（Over-Privileged）

风险描述：Skill申请超出功能所需的系统权限，被恶意利用时危害范围过大。

攻击场景：恶意Skill申请文件系统或网络访问权限，执行与功能无关的可疑操作。

预防缓解：使用Schema验证Skill声明的权限范围；在沙箱环境中运行新安装的Skill；遵循最小权限原则。

AST04 不安全元数据（Insecure Metadata）

风险描述：Skill元数据文件被篡改，权限声明与实际能力不符导致误判。

攻击场景：攻击者修改Skill元数据使恶意行为看起来无害或权限需求看似合理。

预防缓解：对元数据进行签名验证；使用静态分析工具检查Skill实际行为与声明权限的一致性。

AST05 提示词注入（ Prompt Injection）

风险描述：Skill指令被植入恶意提示词，加载时影响Agent决策行为。

攻击场景：攻击者通过在Skill指令中植入隐蔽提示词，改变Agent的决策逻辑或行为目标。

预防缓解：对加载的Skill指令进行安全审查和清理；将Skill指令与系统级指令严格隔离。

AST06 弱隔离（Weak Isolation）

风险描述：不同Skill之间、与宿主系统之间隔离不足，恶意Skill可访问相邻Skill数据和状态。

攻击场景：恶意Skill利用共享内存或文件系统访问相邻Skill的内部数据和状态。

预防缓解：对每个Skill运行在独立容器或沙箱中；实施严格进程和文件系统隔离；监控跨Skill数据访问行为。

AST07 更新漂移（Update Drift）

风险描述：Skill版本更新后权限配置、依赖组件或行为逻辑发生显著偏离。

攻击场景：Skill更新后悄悄引入恶意代码或过度申请新权限，原有安全信任被打破。

预防缓解：使用不可变部署策略，Skill更新需重新审核；记录并对比每次更新的权限变更。

AST08 扫描不完善（Poor Scanning）

风险描述：现有扫描工具依赖代码模式匹配，无法检测利用自然语言指令操纵Agent的攻击。

攻击场景：传统安全工具无法识别通过自然语言指令对Agent进行的社会工程攻击。

预防缓解：采用多层次扫描管道，结合静态分析、动态行为监控和自然语言威胁检测。

AST09 缺乏治理（No Governance）

风险描述：企业缺乏对已部署Skill的全面清单、审核流程和使用监控。

攻击场景：员工随意安装来源不明的Skill，导致攻击面持续扩大无人知晓。

预防缓解：建立企业级Skill清单和注册机制；实施安装审批流程；对已部署Skill持续监控。

AST10 跨平台风险（Cross-Platform）

风险描述：不同平台Skill格式互不兼容，安全要求不统一，跨平台恶意Skill难以检测。

攻击场景：同一Skill在OpenClaw平台通过安全审核，迁移到其他平台后绕过检测。

预防缓解：推动制定跨平台的Skill安全标准格式（通用YAML Schema）；建立平台间威胁情报共享机制。

（五）机器学习安全10大风险（ML Top 10）

ML01 输入操纵攻击（Input Manipulation Attack）

风险描述：攻击者构造对抗性输入样本欺骗ML模型，在图像分类、入侵检测等场景尤为常见。

攻击场景：通过对输入数据添加人眼不可察觉的扰动，使模型产生错误分类判断。

预防缓解：引入对抗性训练提升模型鲁棒性；在推理前对输入进行预处理和异常检测；部署多模型ensemble防御。

ML02 数据投毒攻击（Data Poisoning Attack）

风险描述：在训练阶段向训练数据注入恶意样本改变模型在特定条件下的行为。

攻击场景：攻击者在公开数据集或数据供应链中植入后门样本，使模型在遇到特定触发条件时产生预设偏差。

预防缓解：对训练数据来源进行严格审计；实施数据清洗和异常样本检测；使用去偏见技术减少恶意样本影响。

ML03 模型逆向攻击（Model Inversion Attack）

风险描述：利用模型输出反推训练数据或模型参数，可获取训练集中的敏感个人信息。

攻击场景：攻击者通过大量查询模型API，分析输出响应特征来逆向推断训练数据或模型参数。

预防缓解：对模型输出添加扰动；实施差分隐私技术；限制查询频率和输出信息量。

ML04 成员推断攻击（Membership Inference Attack）

风险描述：判断某数据样本是否被用于模型训练，在隐私要求严格的医疗金融场景尤为危险。

攻击场景：攻击者训练一个辅助分类器，判断特定样本是否出现在目标模型的训练集中。

预防缓解：使用正则化技术减少过拟合；引入差分隐私噪声；减少模型对个体训练样本的记忆程度。

ML05 模型窃取（Model Theft）

风险描述：攻击者通过大量查询API重建模型或窃取专有技术或业务逻辑。

攻击场景：攻击者通过收集模型输入输出对，训练出功能相近的替代模型，侵犯知识产权或用于进一步攻击。

预防缓解：对API查询实施限流和审计；输出结果添加不可察觉的扰动；部署模型水印技术追踪模型非法复制。

ML06 AI供应链攻击（AI Supply Chain Attacks）

风险描述：预训练模型、第三方库、数据集或开发框架被攻击者污染。

攻击场景：攻击者向公开模型仓库或代码库植入恶意模型、权重或依赖包，等待受害者下载使用。

预防缓解：验证下载组件的完整性哈希和数字签名；使用可信来源的预训练模型；建立软件物料清单（SBOM）追踪依赖。

ML07 迁移学习攻击（Transfer Learning Attack）

风险描述：在公开预训练模型中植入后门，用户微调时后门被激活。

攻击场景：攻击者发布带有隐蔽后门的预训练模型，用户在使用小样本数据进行迁移学习时不知不觉地继承后门。

预防缓解：对使用公开预训练模型进行安全审计；应用后门检测技术；使用可信渠道发布的模型。

ML08 模型倾斜（Model Skewing）

风险描述：攻击者持续向模型输入精心构造的数据逐步改变模型输出分布或决策边界。

攻击场景：攻击者利用模型的在线学习机制，通过持续输入特定构造的数据，使模型逐渐向攻击者期望的方向倾斜。

预防缓解：对在线学习实施输入验证和样本过滤；监控模型输出分布的异常变化；限制模型权重更新速率。

ML09 输出完整性攻击（ Output Integrity Attack）

风险描述：攻击者篡改模型输出结果，使下游系统接收到被伪造的决策结果。

攻击场景：攻击者通过拦截或修改模型API响应，将正确的输出替换为精心构造的错误结果。

预防缓解：对模型输出实施完整性校验和签名；对关键输出采用多模型交叉验证；监控输出与正常分布的偏差。

ML10 模型投毒（Model Poisoning）

风险描述：直接在模型参数或结构中植入恶意行为，影响更为隐蔽深远。

攻击场景：攻击者直接修改模型权重文件，在模型中植入恶意功能，这种攻击在部署后极难检测。

预防缓解：使用可信训练流程和模型签名验证；保持训练环境安全；定期对部署模型进行可解释性分析审计。

三、综合分析及洞察

（一）高频高危风险

供应链投毒

在5份报告中有4份出现，2026年已发生大规模实战事件（ClawHavoc）。从恶意数据集到预训练模型到Skill包到Agent插件，供应链任一环节被污染均可能导致系统性风险。

提示词注入

在3份报告出现，是大模型和Agent面临的最具代表性的安全挑战。由于模型以自然语言为输入边界，注入攻击几乎无法根除，只能通过多层防御缓解。

权限过度与工具滥用

在2份报告出现，直接关联Agent的自主性这一核心价值——越自主的Agent，潜在攻击面越大。现实中Agent持有SSH密钥、数据库凭证等高价值凭据的情况极为普遍。

数据泄露

在3份报告出现，包括训练数据泄露、推理阶段泄露、日志泄露等多种形态。GenAI系统的数据处理路径复杂，敏感数据可能从任意环节泄露。

恶意技能/插件

AST报告独有但在2026年已造成严重实际危害。Agent生态开放注册机制使恶意Skill大规模传播成为可能，'自然语言指令’特性使传统安全扫描工具几乎完全失效。

（二）关键洞察

洞察一：攻击面随层次上升而扩大

从ML到LLM到Agent，每上升一层，系统复杂度增加，攻击面也随之扩大。传统ML安全关注的是’模型’本身；LLM安全增加了’提示词+上下文’这一新攻击面；Agent安全则进一步增加了“多步骤自主执行+工具链+多Agent协作”等维度。

洞察二：Skill层是当前最薄弱环节

AST报告揭示了Skill生态面临的严峻现实——36%的Skill存在安全缺陷，13.4%含有关键漏洞，而现有安全工具对此类攻击几乎无能为力。这一层此前长期被安全社区忽视。

洞察三：数据安全是贯穿所有层次的共性主线

DSGAI的21项风险几乎与其他四份报告的每一项都存在交集——无论是模型投毒、提示注入、记忆污染还是API泄露，其本质都是数据在某个环节被污染、截取或滥用。

洞察四：2026年是从’理论风险’到’实战攻击’的分水岭

多份报告引用了2026年真实发生的大规模攻击事件（ClawHavoc、ClawJacked、Snyk ToxicSkills审计），标志着AI安全风险已从“预警研究”阶段进入“实战对抗”阶段。

AI行业迎来前所未有的爆发式增长：从DeepSeek百万年薪招聘AI研究员，到百度、阿里、腾讯等大厂疯狂布局AI Agent，再到国家政策大力扶持数字经济和AI人才培养，所有信号都在告诉我们：AI的黄金十年，真的来了！

在行业火爆之下，AI人才争夺战也日趋白热化，其就业前景一片蓝海！

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

人才缺口巨大

人力资源社会保障部有关报告显示，据测算，当前，****我国人工智能人才缺口超过500万，****供求比例达1∶10。脉脉最新数据也显示：AI新发岗位量较去年初暴增29倍，超1000家AI企业释放7.2万+岗位……

单拿今年的秋招来说，各互联网大厂释放出来的招聘信息中，我们就能感受到AI浪潮，比如百度90%的技术岗都与AI相关！

就业薪资超高

在旺盛的市场需求下，AI岗位不仅招聘量大，薪资待遇更是“一骑绝尘”。企业为抢AI核心人才，薪资给的非常慷慨，过去一年，懂AI的人才普遍涨薪40%+！

脉脉高聘发布的《2025年度人才迁徙报告》显示，在2025年1月-10月的高薪岗位Top20排行中，AI相关岗位占了绝大多数，并且平均薪资月薪都超过6w！

在去年的秋招中，小红书给算法相关岗位的薪资为50k起，字节开出228万元的超高年薪，据《2025年秋季校园招聘白皮书》，AI算法类平均年薪达36.9万，遥遥领先其他行业！

总结来说，当前人工智能岗位需求多，薪资高，前景好。在职场里，选对赛道就能赢在起跑线。抓住AI风口，轻松实现高薪就业！

但现实却是，仍有很多同学不知道如何抓住AI机遇，会遇到很多就业难题，比如：

❌ 技术过时：只会CRUD的开发者，在AI浪潮中沦为“职场裸奔者”；

❌ 薪资停滞：初级岗位内卷到白菜价，传统开发3年经验薪资涨幅不足15%；

❌ 转型无门：想学AI却找不到系统路径，83%自学党中途放弃。

他们的就业难题解决问题的关键在于：不仅要选对赛道，更要跟对老师！