news 2026/4/23 11:11:44

开源医疗相关数据集

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
开源医疗相关数据集

英文开源数据集(类似MTSamples的医疗转录/对话/摘要)

这些数据集多为英文,适合abstractive summarization或医疗对话任务:

  • Medical Speech, Transcription, and Intent(Kaggle/Hugging Face: Hani89/medical_asr_recording_dataset) → 包含数千条医疗症状音频(如“knee pain”)及其转录文本,总时长超8小时。适合ASR转录或症状识别。
  • United-Syn-Med(Hugging Face: united-we-care/United-Syn-Med) → 英文医疗语音记录,焦点在临床对话和医学术语,转录文本可用。适合自动化转录和摘要。
  • MeQSum(Hugging Face: sumedh/MeQSum) → 1000条消费者健康问题及其摘要,专为医疗问题摘要任务设计。
  • MedReview(从Cochrane系统综述) → 8161对医疗证据总结对,适合证据摘要任务。
  • MS^2 (Multi-Document Summarization of Medical Studies)→ 超47万条医疗研究多文档摘要数据集。

这些在Hugging Face上直接加载,适合你的BioMistral微调扩展。

中文开源数据集(强烈推荐)

中文医疗开源数据集相对较少(隐私原因),但有几个高质量的,特别适合医患对话、病情识别和摘要生成:

  • Chinese-medical-dialogue-data(GitHub: Toyhom/Chinese-medical-dialogue-data;Hugging Face多个版本如BillGPT/Chinese-medical-dialogue-data) 最经典的中文医疗对话数据集,包含约79万-110万条医患对话(覆盖内科、儿科、妇产科、肿瘤科、男科、外科等6大科室),总计400万+话语。数据来源于在线医疗平台(如haodf.com),包括患者描述、医生回复,非常适合你的任务(转录摘要 + 病情识别)。许多中文医疗大模型(如HuatuoGPT)都用它微调。
  • MedDialog-CN(Hugging Face: UCSD26/medical_dialog 或类似) 中文医患对话数据集,约110万对话,持续更新。类似以上,焦点在真实临床交流。
  • shibing624/medical(Hugging Face) 综合中文医疗数据集,包含195万+条指令数据(部分来自Chinese-medical-dialogue-data + 医疗百科 + 知识图谱QA),专为医疗SFT设计。包括预训练和微调部分,非常适合直接用于你的模型。
  • Huatuo-26M / huatuo_encyclopedia_qa(Hugging Face: FreedomIntelligence系列) 中医问答数据集,超2600万条,覆盖疾病、症状、治疗等。适合中医方向的病情识别和摘要。
  • CMeEE / CBLUE数据集(中文医疗NLP基准) 包含实体识别、关系抽取等,但也可扩展到对话/摘要。GitHub: GanjinZero/awesome_Chinese_medical_NLP 有完整整理。

更多资源推荐:

  • Awesome-Chinese-Medical-NLP(GitHub: GanjinZero/awesome_Chinese_medical_NLP) → 最全面的中文医疗NLP资源列表,包括数据集、预训练模型、知识图谱等。
  • Awesome-Medical-Dataset(GitHub: openmedlab/Awesome-Medical-Dataset) → 全球医疗数据集合集,有部分中文。

1. 综合性评测基准 (The "Gold Standard")

如果你想找最权威的数据,首推CBLUE

  • 数据集名称:CBLUE (Chinese Biomedical Language Understanding Evaluation)

  • 简介: 这是中文医疗NLP领域的“标尺”,由阿里天池发布。它不是一个单一的数据集,而是一个合集,包含了多个子任务。

  • 包含内容:

    • CMeEE: 中文医学命名实体识别(找药名、病名)。

    • CMeIE: 中文医学关系抽取(判断药和病的关系)。

    • CHIP-CDN: 临床术语标准化(把口语“拉肚子”对应到标准术语“腹泻”)。

    • CHIP-CDE: 临床发现事件抽取。

    • KUAKE-QIC: 医疗搜索意图理解。

  • 适用场景: 如果你想让模型学会“理解”医学术语,而不是只会聊天,必用这个。

  • 获取方式: GitHub (CBLUE) 或 天池大赛官网。

2. 对话与问答类 (类似 mtsamples 的用途)

如果你想训练一个能像医生一样问诊、给出建议的模型,这类数据最重要。

  • 数据集名称:Huatuo-26M (华佗-26M)

  • 简介: 目前最大规模的中文医疗问答数据集之一,包含超过 2600 万条高质量的医疗问答对。

  • 来源: 整合了互联网上的在线问诊记录、医学百科、知识图谱等。

  • 适用场景:SFT (指令微调)的首选。可以直接用来把通用模型变成医疗专家。

  • 获取方式: Hugging Face (FreedomIntelligence/Huatuo-26M)。

  • 数据集名称:CMD (Chinese Medical Dialogue)

  • 简介: 包含了约 79 万条真实的医患对话

  • 特点: 涵盖儿科、外科、内科等多个科室。数据结构通常是<病人描述> - <医生回答>

  • 适用场景: 训练多轮对话能力,让模型学会医生问诊的语气。

  • 获取方式: GitHub (Toyhom/Chinese-medical-dialogue-data)。

  • 数据集名称:CMtMedQA

  • 简介: 包含中文医学问答对,规模较适中,质量较高。

3. 指令微调类 (Instruction Tuning)

这类数据已经整理成了Instruction(指令) -Input(输入) -Output(输出) 的格式,最适合你现在的train.py脚本

  • 数据集名称:DISC-MedLLM-SFT

  • 简介: 复旦大学发布的高质量SFT数据集,包含约 47 万条样本。

  • 特点: 经过了精心清洗,模拟了真实的医疗咨询场景。

  • 适用场景: 只有 3060 显卡,不想跑 2600 万条数据?跑这个 47 万条的不仅快,而且效果通常更好。

  • 获取方式: Hugging Face (Flan/DISC-MedLLM)。

  • 数据集名称:ChatMed-Consult

  • 简介: 基于 ChatGPT 生成或者是清洗后的在线问诊数据,专注于在线问诊场景。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 15:40:03

做运维工程师辛苦吗?

确实辛苦。体现在 24 小时待命、重复劳动多、故障处理压力大等方面&#xff0c;但卓豪的 ADManager Plus&#xff08;ADMP&#xff09;和 ADSelfService Plus&#xff08;ADSSP&#xff09;能从自动化管理、自助服务等维度大幅减轻运维工程师的工作负担&#xff0c;降低这份工作…

作者头像 李华
网站建设 2026/4/11 9:04:33

适用于 iPhone 和 iPad 的最佳文件管理器

如果您觉得在 iPhone 或 iPad 上管理文件很复杂&#xff0c;那是因为您没有使用最适合 iPhone 和 iPad 的文件管理器。与传统的 PC 或 Mac 不同&#xff0c;iOS/iPadOS 采用沙盒架构&#xff0c;这意味着应用程序通常会将数据隔离。然而&#xff0c;高效的文件管理对于提高工作…

作者头像 李华
网站建设 2026/4/23 2:29:26

大数据领域 Cassandra 的表设计原则

Cassandra表设计的第一性原理:从分布式本质到生产级实践 元数据框架 标题:Cassandra表设计的第一性原理:从分布式本质到生产级实践 关键词:Cassandra、分布式数据库、表设计、主键优化、数据建模、一致性哈希、时间序列 摘要:Cassandra作为高可用、高吞吐、线性扩展的分布…

作者头像 李华
网站建设 2026/4/16 15:31:39

运维系列数据库系列【仅供参考】:达梦逻辑导入使用总结

达梦逻辑导入使用总结 达梦逻辑导入使用总结 达梦逻辑导入使用总结 实例1 1>字符集&#xff1a;GB18030 2>是否以字节为单位&#xff1a;否 实例2 1>字符集&#xff1a;uft8 2>是否以字节为单位&#xff1a;否 实例3 1>字符集&#xff1a;uft8 2>是否以字…

作者头像 李华
网站建设 2026/4/16 20:45:41

运维系列数据库系列【仅供参考】:达梦数据库还原之指定映射路径还原

达梦数据库还原之指定映射路径还原数据库还原之指定映射路径还原摘要正文数据库还原之指定映射路径还原 摘要 本文详细介绍了在中标麒麟7操作系统上&#xff0c;使用达梦8数据库进行映射路径还原的过程。首先&#xff0c;通过RMAN关闭数据库并进行脱机备份。接着&#xff0c;…

作者头像 李华
网站建设 2026/4/18 12:25:18

【go语言 | 第5篇】channel——多个goroutine之间通信

文章目录channel的定义和使用channel——有缓冲和无缓冲同步1. 无缓冲的channel2. 有缓冲的channelchannel——关闭channelchannel 与 rangechannel 与 selectchannel的定义和使用 channel 用于多个 goroutine 之间的通信。 package mainimport "fmt"func main() {…

作者头像 李华