医疗NLP训练语料数据集

1亿+条专业医疗NLP标注语料 · 12大NLP任务类型 · 66个子数据集 · SFT微调 + RLHF对齐全流程覆盖

1亿+
标注语料
12
NLP任务类型
66
子数据集
SFT+RLHF
全流程
双人标注
专家审核

数据集概览

属性说明
数据集名称医疗NLP训练语料数据集
总规模1亿+ 条专业医疗NLP标注语料
子数据集数66 个子数据集
NLP任务类型文本分类 · 实体抽取 · 关系抽取 · 文本生成 · 对话理解 · 文本摘要 · 问题回答 · 文本纠错 · 阅读理解 · 思维链 · 语义相似度 · 情感分析
质检标准双人独立标注 + 专家审核(含解析)+ Cohen's Kappa >= 0.80
来源自研/采集(临床指南、期刊文献、医患对话、在线问答等)
应用场景模型预训练 · 模型评测 · 模型微调 · SFT · RLHF
供应形式硬盘 · 云盘 · API · 数据基础设施

字段维度体系

类别字段说明
语料标识语料ID · 数据集名称 · 任务类型 · 来源渠道唯一标识与元数据信息
语料内容原文内容(脱敏)· 文本长度 · 语言 · 发布时间经脱敏处理的原始语料文本
标注信息标注类型 · 标注结果 · 标注者ID · 审核状态专业医学标注结果与质量审核
模型适配适用模型类型 · 推荐训练阶段 · 模型格式版本SFT/RLHF/评测等阶段的兼容信息
质检IAA评分 · Kappa值 · 抽检比例 · 专家复核记录标注质量评估指标与追溯

主要 NLP 任务语料分布

NLP任务类型典型子数据集语料规模
文本分类/理解医学指南及专家共识、医学病案1500万+
对话理解在线医患问答、医疗QA、多轮医患对话、妇产科/外科/儿科/男科/肿瘤科/中文心理问答3000万+
实体抽取医疗实体识别数据集800万+
思维链/生成模型思维链数据集、医疗通识语料库、医疗问答逻辑指令数据集1200万+
评测基准医学考试原题/模拟题、健康咨询、用药咨询、专科问答等评测集2500万+
临床决策临床问诊、辅助诊断-进阶、鉴别诊断、诊疗处置建议、病情分析等1800万+

脱敏 JSON 样例

示例1 · 实体抽取
{
  "corpus_id": "NLP_NER_2024Q3_0004217",
  "task_type": "named_entity_recognition",
  "text": "患者男,52岁,因胸痛伴呼吸困难急诊入院,既往高血压史5年。",
  "annotations": [
    {"entity_type":"symptom","text":"胸痛","start":10,"end":12},
    {"entity_type":"symptom","text":"呼吸困难","start":13,"end":17},
    {"entity_type":"disease","text":"高血压","start":25,"end":28},
    {"entity_type":"duration","text":"5年","start":28,"end":30}
  ],
  "annotator_id": "ANNO_CLIN_0037",
  "review_status": "approved",
  "kappa_score": 0.94
}
示例2 · 多轮医患对话
{
  "corpus_id": "NLP_DIALOG_2024Q3_0009152",
  "task_type": "multi_turn_dialogue",
  "dialogue": [
    {"role":"patient","content":"医生,最近两边膝盖上下楼特别疼,坐久了站起来也疼。"},
    {"role":"doctor","content":"这种情况持续多久了?有没有红肿或者发热的感觉?"},
    {"role":"patient","content":"大概两个月了。没有红肿,就是用力的时候会痛。"},
    {"role":"doctor","content":"初步考虑膝关节退行性病变,建议先做膝关节X光片检查。"}
  ],
  "annotation": {
    "chief_complaint":"双膝关节疼痛2月",
    "suggested_diagnosis":"膝关节退行性病变",
    "recommended_exam":"膝关节X光片",
    "department":"骨科"
  },
  "review_status": "approved"
}
示例3 · 思维链
{
  "corpus_id": "NLP_COT_2024Q3_0003472",
  "task_type": "chain_of_thought",
  "question": "45岁男性,血压160/100mmHg,BMI 28.5,空腹血糖6.8mmol/L,如何处理?",
  "reasoning_steps": [
    "Step1: 诊断-血压160/100mmHg已达2级高血压标准",
    "Step2: 识别危险因素-BMI 28.5(肥胖)+ 空腹血糖6.8(空腹血糖受损)=代谢综合征",
    "Step3: 靶器官评估-需查眼底、尿微量白蛋白、心电图、颈动脉超声",
    "Step4: 治疗-生活方式干预(低盐低脂+运动减重)+ ACEI/ARB类降压药+监测血糖"
  ],
  "final_answer": "诊断为2级高血压伴代谢综合征,建议生活方式干预联合ACEI/ARB类降压药,3个月内复查OGTT。",
  "reference_source": "《中国高血压防治指南2023》",
  "review_status": "approved"
}
示例4 · 评测基准
{
  "corpus_id": "NLP_EVAL_2024Q3_0012895",
  "task_type": "text_generation_eval",
  "prompt": "请为一位2型糖尿病患者制定个性化饮食方案。",
  "reference_answer": "建议采用低GI饮食,每日总热量1800-2000kcal,碳水化合物50-55%...",
  "eval_scores": {
    "medical_accuracy":4.5, "completeness":4.2, "practicality":4.8, "safety":5.0
  },
  "eval_rubric": "5分制,医疗准确性>=4.0为合格",
  "reviewer_id": "REVIEW_ENDO_0005",
  "review_status": "approved"
}
示例5 · 病历辅助生成
{
  "corpus_id": "NLP_GEN_2024Q3_0005628",
  "task_type": "clinical_text_generation",
  "input": {"symptoms":["发热","咳嗽"],"duration":"3天","temperature":"38.5"},
  "target_output": "主诉:发热、咳嗽3天。现病史:患者3天前无明显诱因出现发热,最高体温38.5,伴干咳...",
  "quality_metrics": {"bleu_score":0.72,"rouge_l":0.81,"clinical_approval":true},
  "review_status": "approved"
}

标注规范

双人独立标注

每条语料由2位医学专业人员独立标注,避免个体偏差影响

一致性检验

Cohen's Kappa >= 0.80 为合格基线,低于阈值触发专家组复核

专家审核

临床专家级审核(含解析),定期抽检复核已入库语料

隐私脱敏

全量语料经自动化+人工双重脱敏,符合个人信息保护法规

AI 应用场景

医疗大模型 SFT 微调

高质量对话语料与思维链数据支撑通用大模型向医疗垂直领域的定向微调

大模型评测基准

医学考试、专科问答等标准化评测集提供可复现的模型效果量化对比

临床决策支持系统

辅助诊断/鉴别诊断/处方审核/诊疗方案推荐训练CDSS大模型

智能病历辅助生成

结构化对话到病历的生成训练,提升临床文书书写效率

处方审核与用药指导

基于药物相互作用与用药指导语料训练合理用药审核模型

智能导诊/预问诊

多轮医患对话语料训练科室匹配与症状采集模型

商业价值

加速医疗大模型落地

从语料采集到模型微调全流程覆盖,将医疗垂直大模型研发周期缩短60%以上。

高质量医学标注

双人独立标注+专家审核+定期抽检三重质控,Kappa>=0.80,降低大模型幻觉率。

合规可商用

全量语料经双重脱敏,符合《个人信息保护法》《数据安全法》,授权可商用。

灵活定制组合

66个子数据集按需选购,支持按NLP任务类型、科室、训练阶段灵活组合。

常见问题

NLP语料与普通医疗文本有何区别?

NLP语料经过系统化标注,每条数据附带实体标记、对话角色、思维链、评测分数等结构化标注信息,可直接用于模型SFT和RLHF训练,无需二次加工。

如何保证标注的医学准确性?

采用双人独立标注+一致性检验(Kappa>=0.80)+临床专家审核的三重质控体系,并定期抽检已入库语料确保长期质量稳定。

支持哪些模型训练格式?

支持LLaMA-Factory、ChatML、ShareGPT等主流SFT格式,及OpenAI兼容的RLHF偏好对比数据格式。

获取医疗NLP语料完整目录

1亿+条标注语料 · 12大NLP任务 · 66个子数据集。联系数据专家获取详细子集清单与商务报价。