数据集概览
定义:结构化电子病历文本数据集是由长沙朗慧信息科技有限公司通过合规转授权渠道获取的5000万例真实脱敏电子病历文本。这是目前全平台数据量最大的数据集,覆盖主诉、现病史、既往史、入院记录、出院小结、手术记录、病程记录等全部住院文书类型。全部数据均已严格脱敏(去除患者姓名、身份证号、电话号码、住址等个人身份信息),来源于合作50+以上医院(含复旦排行榜100类型医院),附带三家三甲医院直接授权和城市级全面授权文件。
| 数据集名称 | 结构化电子病历文本数据集 |
| 数据总量 | 5000万例 电子病历记录(全平台最大规模) |
| 数据类型 | 脱敏文本 |
| 数据来源 | 转卖(合作50+以上医院,含复旦100类型医院) |
| 授权方式 | 医院直接授权 三家三甲医院直接授权 + 城市级全面授权文件 |
| 交付周期 | 2周-1个月 |
| 文书类型 | 主诉、现病史、既往史、入院记录、出院小结、手术记录、病程记录 |
| 脱敏状态 | 已完成 去除个人身份信息(姓名/身份证号/电话/住址) |
| 科室覆盖 | 内科、外科、妇产科、儿科、骨科、神经科、肿瘤科、心内科、呼吸科、消化科等全科室 |
核心数据字段
覆盖住院全周期7类核心文书,每类文书包含丰富的临床语义字段。
| 文书类型 | 典型字段 |
|---|---|
| 主诉 | 主要症状描述、持续时间、就诊原因 |
| 现病史 | 起病情况、症状演变、诊疗经过、伴随症状、一般情况 |
| 既往史 | 既往疾病史、手术史、过敏史、输血史、传染病史、预防接种史 |
| 入院记录 | 主诉、现病史、既往史、体格检查、辅助检查、初步诊断、诊疗计划 |
| 出院小结 | 入院日期、出院日期、入院诊断、出院诊断、诊疗经过、出院医嘱 |
| 手术记录 | 手术日期、手术名称、麻醉方式、手术经过、术中情况及处理 |
| 病程记录 | 日常病程记录、查房记录、会诊记录、阶段小结、抢救记录 |
数据样例展示
以下为脱敏后的结构化电子病历文本样例,展示6类核心文书的典型格式与内容。
{
"anon_id": "EMR-2023-PM-00048291",
"record_type": "入院记录",
"admission_date": "2023-03-15",
"department": "心内科",
"demographics": {
"gender": "男",
"age_group": "60-70岁",
"admission_type": "平诊"
},
"chief_complaint": "反复胸痛1月余,加重3天。",
"present_illness": "患者于1月前无明显诱因出现胸骨后压榨性疼痛,每次持续约3-5分钟,休息后可缓解,未予重视。3天前上述症状加重,发作频率增加至每日3-4次,伴胸闷、气促,无恶心呕吐,无晕厥。为求进一步诊治来我院,门诊以"冠心病 不稳定型心绞痛"收住入院。",
"past_history": {
"hypertension": {"duration": "8年", "treatment": "硝苯地平控释片30mg qd"},
"diabetes": {"duration": "3年", "treatment": "二甲双胍0.5g tid"},
"surgery": "无",
"allergy": "无"
},
"physical_exam": {
"bp_mmhg": "145/90",
"hr_bpm": 88,
"resp_rate": 20,
"temp_c": 36.5
},
"initial_diagnosis": "冠状动脉粥样硬化性心脏病 不稳定型心绞痛",
"treatment_plan": "完善心电图、心肌酶谱、心脏超声、冠脉CTA等检查,予以抗血小板、调脂稳定斑块、扩冠等治疗。"
}AI 应用场景
临床决策支持系统(CDSS)
基于5000万例真实病历训练CDSS模型,实现鉴别诊断推荐、治疗方案建议、用药风险预警等临床辅助决策功能。
病历自动生成
训练医疗文本生成模型,基于患者基本信息、检查结果自动生成入院记录、病程记录、出院小结等结构化病历文书,大幅提升医生工作效率。
疾病预测与早筛
利用海量病史记录训练疾病预测模型,实现疾病早期预警、并发症风险预测、再住院风险评估等精准预测。
医学知识图谱构建
从5000万份病历中抽取疾病-症状-检查-治疗-药物的实体关系,构建大规模医学知识图谱,为医疗AI注入结构化知识。
医疗大模型预训练
5000万级医疗文本语料,用于GPT/LLaMA/Qwen等基座模型的医疗领域持续预训练(CPT)和监督微调(SFT),打造医疗专用大模型。
病历质控与DRG/DIP
训练病历质控AI,自动检测病历书写缺陷;支撑DRG/DIP付费下的病历编码辅助与合规审查。
商业价值分析
规模绝对领先 — 5000万级行业最大
5000万例的体量在当前医疗NLP训练数据市场中处于绝对领先地位。5000万级文本语料对于大语言模型的预训练和微调具有决定性意义——数据量每提升一个数量级,模型在医疗领域的表现可能产生质的飞跃。
全流程覆盖 — 7类文书无死角
从入院到出院的每一个环节文书都完整覆盖,确保AI模型能够理解完整的临床诊疗流程。单一数据集即可支撑住院全周期AI训练,无需拼接多个来源的数据。
合规深度保障 — 脱敏+授权双保险
100%脱敏处理去除所有个人身份信息,外加三家三甲医院直接授权和城市级授权文件。在医疗数据合规日趋严格的监管环境下,这种深度的合规保障是AI企业的核心竞争壁垒。
战略价值 — 医疗大模型竞争壁垒
在通用大模型同质化竞争加剧的当下,高质量垂域数据是差异化竞争的核心。5000万医疗文本语料可显著提升大模型的医学专业能力,是构建医疗专用大模型的战略性数据资产。
常见问题
构建您的医疗大模型?从5000万病历开始
长沙朗慧信息科技有限公司 DataAssetsAPI 平台,为您提供从海量医疗文本到结构化知识的一站式数据解决方案。5000万病历 + 专业数据咨询 = 医疗大模型的核心竞争力。
数据样本预览 · 科室定制方案 · 合规审查支持