news 2026/4/23 13:19:01

MMMU多模态基准测试项目:从安装到评估的完整指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MMMU多模态基准测试项目:从安装到评估的完整指南

MMMU多模态基准测试项目:从安装到评估的完整指南

【免费下载链接】MMMUThis repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"项目地址: https://gitcode.com/gh_mirrors/mm/MMMU

MMMU(Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI)是一个专门用于评估多模态模型在多学科任务中理解和推理能力的大型基准测试项目。该项目包含来自大学考试、测验和教科书的11,500个精心收集的多模态问题,覆盖艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程六大核心学科领域。MMMU旨在挑战模型在具有领域特定知识的任务中的高级感知和推理能力,推动下一代多模态基础模型的发展。

项目核心价值与特点

MMMU项目的主要特点体现在其全面性和挑战性上。该基准测试涵盖30个主要学科和183个子领域,包含32种高度异构的图像类型,如图表、图解、地图、表格、乐谱和化学结构等。与现有基准测试相比,MMMU专注于具有领域特定知识的高级感知和推理,挑战模型执行类似于专家面临的任务。

环境配置与项目安装

在开始使用MMMU项目之前,需要确保系统满足以下环境要求:

  • 操作系统:Linux或macOS(推荐Ubuntu 20.04或更高版本)
  • Python版本:Python 3.8或更高版本
  • 依赖管理:建议使用虚拟环境管理项目依赖

环境配置步骤

  1. 安装Python 3.8

    sudo apt update sudo apt install python3.8
  2. 安装pip包管理器

    sudo apt install python3-pip
  3. 创建虚拟环境

    python3 -m venv mmmu_env source mmmu_env/bin/activate

项目安装流程

首先克隆项目仓库到本地:

git clone https://gitcode.com/gh_mirrors/mm/MMMU cd MMMU

然后安装项目依赖:

pip install -r requirements.txt

MMMU-Pro增强版本介绍

MMMU-Pro是基于MMMU的增强版本,引入了更严格的评估方法来评估多模态模型的内在理解和推理能力。MMMU-Pro采用精心构建的三步流程:

  1. 过滤纯文本可回答的问题:确保问题真正需要多模态理解
  2. 增强候选选项:引入更多合理选项使任务更具挑战性
  3. 仅视觉输入设置:将问题嵌入图像中,推动AI同时"看"和"读"

核心脚本功能介绍

评估脚本详解

MMMU项目提供了多个核心评估脚本,每个脚本都有特定的功能:

  • main_eval_only.py:仅进行模型输出评估
  • main_parse_and_eval.py:解析响应并进行评估
  • run_llava.py:运行LLaVA模型的示例脚本

数据预处理工具

项目中的data_utils.py提供了丰富的数据处理功能:

  • save_json:保存JSON格式数据
  • get_multi_choice_info:处理多选题信息
  • construct_prompt:构建模型提示

模型评估实战操作

仅评估模式使用

如果你只想使用自己的解析逻辑并仅提供最终答案,可以使用main_eval_only.py

python main_eval_only.py --output_path ./example_outputs/llava1.5_13b/total_val_output.json

输出文件格式要求:

{ "validation_Accounting_1": "D", "validation_Architecture_and_Engineering_14": "0.0" }

解析与评估完整流程

使用main_parse_and_eval.py可以利用项目的完整解析处理和评估管道:

python main_parse_and_eval.py --path ./example_outputs/llava1.5_13b --subject ALL

或者指定特定学科进行评估:

python main_parse_and_eval.py --path ./example_outputs/llava1.5_13b --subject elec

结果展示与统计

项目提供了专门的结果打印脚本:

python print_results.py --path ./example_outputs/llava1.5_13b

MMMU-Pro评估实战

模型推理配置

MMMU-Pro提供了多种推理脚本,支持不同的模型和设置:

cd mmmu-pro python infer/infer_gpt.py gpt-4o cot vision
  • 模型名称:如gpt-4o
  • 提示模式cot(思维链)或direct(直接回答)
  • 推理设置standard(10 options)standard(4 options)vision

评估执行流程

进入MMMU-Pro目录运行评估:

cd mmmu-pro python evaluate.py

评估脚本将:

  • ./output目录加载推理结果
  • 在控制台生成并显示评估报告
  • 将评估报告保存到./output目录

常见问题与解决方案

标准设置中的选项顺序问题

标准(10选项)设置中,多选题选项会被打乱顺序,这意味着<image i>标记在选项列表中的顺序可能不遵循数据集中image_i键的顺序序列。例如,一个问题可能具有以下选项顺序:

options: ['<image 2>', '<image 1>', '<image 4>', '<image 3>']

项目目录结构解析

MMMU/ ├── mmmu/ # 原始MMMU评估代码 │ ├── configs/ # 配置文件 │ ├── example_outputs/ # 示例输出 │ └── utils/ # 工具函数 └── mmmu-pro/ # MMMU-Pro增强版本 ├── infer/ # 推理脚本 └── output/ # 输出结果

实用技巧与最佳实践

  1. 开发集使用:用于少样本/上下文学习
  2. 验证集使用:用于调试模型、选择超参数和快速评估
  3. 测试集提交:测试集问题的答案和解释被保留,你可以在EvalAI上提交模型的预测结果

通过本指南,你可以全面了解MMMU多模态基准测试项目的安装、配置和评估流程。该项目为多模态AI研究提供了重要的评估基准,帮助开发者和研究人员更好地理解和改进多模态模型的性能。

【免费下载链接】MMMUThis repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"项目地址: https://gitcode.com/gh_mirrors/mm/MMMU

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 15:52:42

工业环境下的树莓派5引脚电气特性分析:深度剖析

工业场景下的树莓派5引脚电气特性深度解读&#xff1a;从参数到实战在智能制造与边缘计算加速融合的今天&#xff0c;越来越多开发者尝试将树莓派5引入工业控制现场。它不再是实验室里的教学玩具&#xff0c;而是承担着数据采集、协议转换、设备监控等关键任务的“边缘大脑”。…

作者头像 李华
网站建设 2026/4/18 7:12:48

揭秘Windows系统WMI监控利器:WMIMon全方位实战指南

揭秘Windows系统WMI监控利器&#xff1a;WMIMon全方位实战指南 【免费下载链接】WMIMon Tool to monitor WMI activity on Windows 项目地址: https://gitcode.com/gh_mirrors/wm/WMIMon 在Windows系统管理中&#xff0c;WMI&#xff08;Windows Management Instrumenta…

作者头像 李华
网站建设 2026/4/23 11:38:40

ONNX模型升级终极指南:从v1到v1.16的平滑迁移策略

ONNX模型升级终极指南&#xff1a;从v1到v1.16的平滑迁移策略 【免费下载链接】onnx Open standard for machine learning interoperability 项目地址: https://gitcode.com/gh_mirrors/onn/onnx 你是否曾经满怀期待地升级ONNX版本&#xff0c;却发现模型推理突然出错&a…

作者头像 李华
网站建设 2026/4/23 13:18:51

SysML v2终极指南:如何实现高效系统建模的完整方案

SysML v2终极指南&#xff1a;如何实现高效系统建模的完整方案 【免费下载链接】SysML-v2-Release The latest incremental release of SysML v2. Start here. 项目地址: https://gitcode.com/gh_mirrors/sy/SysML-v2-Release 在当今复杂系统开发领域&#xff0c;系统建…

作者头像 李华
网站建设 2026/4/23 13:11:17

BERTopic客户评论分析实战指南:从海量反馈中智能提取关键主题

BERTopic客户评论分析实战指南&#xff1a;从海量反馈中智能提取关键主题 【免费下载链接】BERTopic Leveraging BERT and c-TF-IDF to create easily interpretable topics. 项目地址: https://gitcode.com/gh_mirrors/be/BERTopic 还在为成千上万的客户评论发愁吗&am…

作者头像 李华
网站建设 2026/4/23 13:15:47

TensorFlow模型压缩技术:剪枝、量化与蒸馏

TensorFlow模型压缩技术&#xff1a;剪枝、量化与蒸馏 在今天的AI工程实践中&#xff0c;一个训练得再出色的深度学习模型&#xff0c;如果无法高效部署到实际设备上&#xff0c;它的价值就大打折扣。尤其是在移动端、IoT设备和边缘计算场景中&#xff0c;算力有限、内存紧张、…

作者头像 李华