结构化电子病历文本数据集

5000万例脱敏电子病历 | 全量最大医疗NLP训练语料 | 合作50+三甲医院深度授权

5000万
病历总数(全量最大)
7类
文书类型全覆盖
100%
脱敏处理
50+
合作医院
2-4周
交付周期

数据集概览

定义:结构化电子病历文本数据集是由长沙朗慧信息科技有限公司通过合规转授权渠道获取的5000万例真实脱敏电子病历文本。这是目前全平台数据量最大的数据集,覆盖主诉、现病史、既往史、入院记录、出院小结、手术记录、病程记录等全部住院文书类型。全部数据均已严格脱敏(去除患者姓名、身份证号、电话号码、住址等个人身份信息),来源于合作50+以上医院(含复旦排行榜100类型医院),附带三家三甲医院直接授权城市级全面授权文件

数据集名称结构化电子病历文本数据集
数据总量5000万例 电子病历记录(全平台最大规模)
数据类型脱敏文本
数据来源转卖(合作50+以上医院,含复旦100类型医院)
授权方式医院直接授权 三家三甲医院直接授权 + 城市级全面授权文件
交付周期2周-1个月
文书类型主诉、现病史、既往史、入院记录、出院小结、手术记录、病程记录
脱敏状态已完成 去除个人身份信息(姓名/身份证号/电话/住址)
科室覆盖内科、外科、妇产科、儿科、骨科、神经科、肿瘤科、心内科、呼吸科、消化科等全科室

核心数据字段

覆盖住院全周期7类核心文书,每类文书包含丰富的临床语义字段。

文书类型典型字段
主诉主要症状描述、持续时间、就诊原因
现病史起病情况、症状演变、诊疗经过、伴随症状、一般情况
既往史既往疾病史、手术史、过敏史、输血史、传染病史、预防接种史
入院记录主诉、现病史、既往史、体格检查、辅助检查、初步诊断、诊疗计划
出院小结入院日期、出院日期、入院诊断、出院诊断、诊疗经过、出院医嘱
手术记录手术日期、手术名称、麻醉方式、手术经过、术中情况及处理
病程记录日常病程记录、查房记录、会诊记录、阶段小结、抢救记录

数据样例展示

以下为脱敏后的结构化电子病历文本样例,展示6类核心文书的典型格式与内容。

{
  "anon_id": "EMR-2023-PM-00048291",
  "record_type": "入院记录",
  "admission_date": "2023-03-15",
  "department": "心内科",
  "demographics": {
    "gender": "男",
    "age_group": "60-70岁",
    "admission_type": "平诊"
  },
  "chief_complaint": "反复胸痛1月余,加重3天。",
  "present_illness": "患者于1月前无明显诱因出现胸骨后压榨性疼痛,每次持续约3-5分钟,休息后可缓解,未予重视。3天前上述症状加重,发作频率增加至每日3-4次,伴胸闷、气促,无恶心呕吐,无晕厥。为求进一步诊治来我院,门诊以"冠心病 不稳定型心绞痛"收住入院。",
  "past_history": {
    "hypertension": {"duration": "8年", "treatment": "硝苯地平控释片30mg qd"},
    "diabetes": {"duration": "3年", "treatment": "二甲双胍0.5g tid"},
    "surgery": "无",
    "allergy": "无"
  },
  "physical_exam": {
    "bp_mmhg": "145/90",
    "hr_bpm": 88,
    "resp_rate": 20,
    "temp_c": 36.5
  },
  "initial_diagnosis": "冠状动脉粥样硬化性心脏病 不稳定型心绞痛",
  "treatment_plan": "完善心电图、心肌酶谱、心脏超声、冠脉CTA等检查,予以抗血小板、调脂稳定斑块、扩冠等治疗。"
}

AI 应用场景

临床决策支持系统(CDSS)

基于5000万例真实病历训练CDSS模型,实现鉴别诊断推荐、治疗方案建议、用药风险预警等临床辅助决策功能。

病历自动生成

训练医疗文本生成模型,基于患者基本信息、检查结果自动生成入院记录、病程记录、出院小结等结构化病历文书,大幅提升医生工作效率。

疾病预测与早筛

利用海量病史记录训练疾病预测模型,实现疾病早期预警、并发症风险预测、再住院风险评估等精准预测。

医学知识图谱构建

从5000万份病历中抽取疾病-症状-检查-治疗-药物的实体关系,构建大规模医学知识图谱,为医疗AI注入结构化知识。

医疗大模型预训练

5000万级医疗文本语料,用于GPT/LLaMA/Qwen等基座模型的医疗领域持续预训练(CPT)和监督微调(SFT),打造医疗专用大模型。

病历质控与DRG/DIP

训练病历质控AI,自动检测病历书写缺陷;支撑DRG/DIP付费下的病历编码辅助与合规审查。

商业价值分析

规模绝对领先 — 5000万级行业最大

5000万例的体量在当前医疗NLP训练数据市场中处于绝对领先地位。5000万级文本语料对于大语言模型的预训练和微调具有决定性意义——数据量每提升一个数量级,模型在医疗领域的表现可能产生质的飞跃。

全流程覆盖 — 7类文书无死角

从入院到出院的每一个环节文书都完整覆盖,确保AI模型能够理解完整的临床诊疗流程。单一数据集即可支撑住院全周期AI训练,无需拼接多个来源的数据。

合规深度保障 — 脱敏+授权双保险

100%脱敏处理去除所有个人身份信息,外加三家三甲医院直接授权和城市级授权文件。在医疗数据合规日趋严格的监管环境下,这种深度的合规保障是AI企业的核心竞争壁垒。

战略价值 — 医疗大模型竞争壁垒

在通用大模型同质化竞争加剧的当下,高质量垂域数据是差异化竞争的核心。5000万医疗文本语料可显著提升大模型的医学专业能力,是构建医疗专用大模型的战略性数据资产。

常见问题

5000万例的数据规模是去重后的吗?
是的,5000万例为去重后的唯一病历记录数。每一例对应一个独立患者的单次住院全周期文书。这是当前市场上能够公开获取的最大规模电子病历文本数据集。
数据脱敏是如何处理的?
所有数据已完成严格脱敏处理:患者姓名、身份证号、电话号码、家庭住址、工作单位、社保卡号等个人身份信息已全部去除或泛化。脱敏过程遵循《个人信息保护法》和《数据安全法》要求,保留全部临床语义信息供AI训练使用。
数据集包含哪些科室的病历?
覆盖全科室:内科(心内、呼吸、消化、肾内、内分泌等)、外科(普外、骨科、泌尿、胸外、神外等)、妇产科、儿科、肿瘤科、神经内科、急诊科等。来源医院涵盖综合性三甲医院和专科医院,科室分布均衡。
可以按科室或文书类型选配吗?
支持灵活配置。可根据您的AI训练需求,按科室(如仅心内科)、按文书类型(如仅出院小结)、按疾病类型等进行筛选和组合。朗慧科技提供专业的数据咨询团队,帮助您设计最优的数据方案。

构建您的医疗大模型?从5000万病历开始

长沙朗慧信息科技有限公司 DataAssetsAPI 平台,为您提供从海量医疗文本到结构化知识的一站式数据解决方案。5000万病历 + 专业数据咨询 = 医疗大模型的核心竞争力。

数据样本预览 · 科室定制方案 · 合规审查支持