news 2026/5/11 0:51:30

用ComputeEval 2025.2对AI生成的CUDA代码进行基准测试

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
用ComputeEval 2025.2对AI生成的CUDA代码进行基准测试

用ComputeEval 2025.2对AI生成的CUDA代码进行基准测试

AI编码助手能否编写高效的CUDA代码?为了衡量和提升它们的能力,我们创建了ComputeEval——一个用于评估AI模型和智能体在CUDA编程任务上表现的、强大且开源的基准测试。

几个月前,我们发布了ComputeEval的第一个版本。今天,我们推出了其首次重大扩展,新增了超过100个CUDA挑战。

通过此次更新,数据集已扩展到总计232个CUDA和CUDA计算核心库(CCCL)问题。我们有意通过增加更困难的挑战来提高标准,这些挑战要求大语言模型使用现代CUDA特性,例如张量核心、高级共享内存模式以及warp级原语。新问题测试了模型正确编排CUDA图、流和事件等特性的能力,所有挑战都基于动态模拟等现实应用场景。

CUDA编程中的大语言模型性能

我们的团队评估了多个领先的大语言模型在ComputeEval上的表现,以建立基准性能指标并了解AI辅助CUDA编程的现状(表1)。

表1. 顶尖大语言模型在ComputeEval 2025.1和2025.2上的Pass@1准确率。最新版本引入了232个新的CUDA编程挑战,为AI辅助编码提供了一个更严苛的基准。

模型ComputeEval 2025.2 (232个新问题) pass@1ComputeEval 2025.1 (128个问题) pass@1
GPT-5 (medium)0.58190.61
Claude Sonnet 4.00.55170.64
gpt-oss-20B (high)0.5474N/A
gpt-oss-120b (high)0.5302N/A
Claude Opus 4.00.5216N/A
DeepSeek-R10.43970.55
gpt-oss-120b (medium)0.4224N/A
gpt-oss-20b (medium)0.4224N/A
gpt-oss-120b (low)0.4052N/A
DeepSeek-V3.10.37500.44
Llama 4 Maverick 17B 128E0.34480.47
Llama 3.1 405B0.34050.4
gpt-oss-20B (low)0.33190.41

我们观察到,所有模型的得分在迁移到ComputeEval 2025.2后都有所下降。这并不表明模型能力在下降,而是反映出基准测试本身变得更具有挑战性。通过每次发布,我们都在为AI设定更高的标准,推动它展现出对加速计算细微之处的更深入理解。

后续计划与参与方式

我们将继续扩展数据集以及评估框架的功能。目前已经在开展将ComputeEval覆盖范围扩展到更多CUDA-X库的工作,包括cuBLAS、CUTLASS、cuDNN、RAPIDS等。我们邀请更广泛的高性能计算和AI社区来贡献和协作。可以在GitHub上探索代码,并在Hugging Face上访问数据集。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/28 18:43:52

揭秘昇腾NPU底层架构:如何用C语言实现极致性能优化

第一章:昇腾NPU架构概览昇腾(Ascend)NPU是华为自主研发的AI处理器,专为人工智能训练与推理任务设计。其架构以高效能、低功耗和高可扩展性为核心目标,广泛应用于云端、边缘端及终端设备中。核心架构设计理念 昇腾NPU采…

作者头像 李华
网站建设 2026/5/10 0:51:55

实时性要求极高的工业场景,C语言如何保证通信协议的稳定性?

第一章:C语言在工业通信中的核心作用在现代工业自动化系统中,设备间的高效、可靠通信是保障生产连续性的关键。C语言凭借其接近硬件的执行效率、低内存开销和跨平台可移植性,成为构建工业通信协议栈与嵌入式通信模块的首选开发语言。为何C语言…

作者头像 李华
网站建设 2026/5/4 0:34:01

揭秘C语言集成TensorRT的3大性能瓶颈:如何实现毫秒级推理加速

第一章:C语言集成TensorRT推理加速的背景与意义在深度学习模型部署领域,推理性能是决定系统实时性与资源利用率的关键因素。随着边缘计算和嵌入式AI应用的兴起,对高效、低延迟推理引擎的需求日益增长。NVIDIA TensorRT 作为一款高性能推理优化…

作者头像 李华
网站建设 2026/4/23 14:08:01

揭秘C语言编译WASM的兼容性陷阱:99%开发者忽略的3个关键问题

第一章:C语言编译WASM的兼容性概述将C语言代码编译为WebAssembly(WASM)已成为现代Web高性能计算的重要手段。得益于Emscripten等工具链的支持,C语言能够在浏览器环境中运行,实现接近原生的执行效率。然而,这…

作者头像 李华
网站建设 2026/4/25 10:05:03

视频理解模型如何训练?ms-swift支持Video-QA全流程

视频理解模型如何训练?ms-swift支持Video-QA全流程 在智能内容平台、教育科技和自动驾驶系统日益依赖视觉感知的今天,一个核心问题摆在开发者面前:我们该如何高效地训练能够“看懂”视频并回答自然语言问题的AI模型? 传统的做法往…

作者头像 李华
网站建设 2026/5/6 2:26:22

多节点训练网络拓扑:交换机与网卡配置参考

多节点训练网络拓扑:交换机与网卡配置参考 在构建千亿参数级大模型的今天,单张GPU早已无法承载动辄数百GB的模型状态。像Qwen-72B、Llama3-405B这样的庞然大物,其训练过程需要跨越数百甚至上千张A100或H100 GPU协同运算。此时,真正…

作者头像 李华