专病数据集

26个重点病种 · 300万+ 结构化专病数据 · 病例/随访/影像/基因组学 · 5年+长期随访队列

26
重点病种
300万+
结构化数据
多维度
病例/随访/影像
5年+
长期随访
RWE
真实世界证据

数据集概览

属性说明
数据集名称专病结构化数据集
总规模300万+ 专病结构化数据记录
覆盖病种26 个重点病种(代谢疾病 · 呼吸系统 · 神经系统 · 肿瘤 · 口腔 · 心脑血管等)
数据维度临床病历 · 随访记录 · 检验检查 · 影像数据 · 基因组学 · 手术示教视频 · 健康科普视频
随访周期多数病种5年以上纵向随访数据,部分队列达10年+
来源授权运营(三甲医院专病队列 + 多中心临床研究)
应用场景真实世界研究 · 药物研发 · 模型训练 · 模型评测 · 临床科研
供应形式硬盘 · 云盘 · API · 数据基础设施

字段维度体系

类别字段说明
病种标识病种名称 · ICD-10/11编码 · 病种类别 · 归属科室标准化病种分类与编码体系
病例信息病例数 · 入组标准 · 排除标准 · 数据收集起止时间专病队列规模与入排标准
临床指标关键指标 · 合并症 · 用药记录 · 手术/操作多模态数据维度矩阵
随访指标随访周期 · 结局事件 · 生存状态 · 失访率纵向随访完整度评估
数据来源采集机构 · 授权方式 · 质量等级 · 最后更新数据溯源与质控评级

重点病种覆盖

疾病分类覆盖病种核心数据维度
代谢疾病糖尿病 · 肥胖血糖监测、HbA1c、并发症、饮食运动干预、5年+随访
呼吸系统慢阻肺(COPD)肺功能、GOLD分级、急性加重次数、吸烟史、CAT评分
神经系统多发性硬化 · 自身免疫性脑炎 · 视神经脊髓炎 · 脑梗死 · 睡眠障碍 · 脑胶质瘤MRI病灶计数、EDSS评分、AQP4抗体、免疫治疗记录
肿瘤肺癌 · 肝癌 · 前列腺癌 · 膀胱癌 · 甲状腺癌 · 脑胶质瘤TNM分期、病理分级、基因突变谱、手术方式、生存随访
心脑血管脑卒中取栓 · 脑血管 · 脑梗死NIHSS评分、ASPECT评分、取栓时间窗、血管内介入方案
其他隐球菌性脑膜炎 · 口腔口模 · 中医郁病 · 胎儿超声筛查 · 医学科教视频CSF检查、口腔三维模型、中医证型、胎儿生物测量、手术示教

脱敏 JSON 样例

示例1 · 糖尿病专病
{
  "record_id": "SPC_DM_2024_0047219",
  "disease": {"name":"2型糖尿病","icd10":"E11.900","category":"代谢疾病"},
  "demographics": {"gender":"M","age_group":"55-60","bmi":27.8},
  "indicators": {
    "hba1c":[{"date":"2024-01-15","value":8.2},{"date":"2024-06-20","value":7.1}],
    "fpg_mmol":7.6,"egfr":78,
    "complications":["糖尿病视网膜病变","周围神经病变"]
  },
  "medications": [{"drug":"二甲双胍","dose":"500mg bid"},{"drug":"达格列净","dose":"10mg qd"}],
  "follow_up": {"duration_years":6,"last_date":"2025-03-10","status":"active"},
  "data_source":"三甲医院内分泌科专病队列",
  "review_status":"approved"
}
示例2 · 肺癌专病
{
  "record_id": "SPC_LC_2024_0018923",
  "disease": {"name":"肺腺癌","icd10":"C34.900","category":"肿瘤"},
  "diagnosis": {
    "date":"2023-08-04","tnm_stage":"T2aN1M0,Stage IIB",
    "pathology":"腺泡型为主的浸润性腺癌",
    "ihc":{"TTF1":"+","NapsinA":"+","PDL1":"30%"}
  },
  "genomics": {"EGFR":"19del","ALK":"-","KRAS":"G12C","TP53":"R273H"},
  "treatment": [
    {"type":"surgery","procedure":"右上肺叶切除+淋巴结清扫","date":"2023-08-18"},
    {"type":"chemo","regimen":"培美曲塞+卡铂x4周期"}
  ],
  "survival": {"last_date":"2025-06-01","status":"disease_free","dfs_months":22},
  "data_source":"多中心肺癌专病队列",
  "review_status":"approved"
}
示例3 · 脑卒中取栓
{
  "record_id": "SPC_STROKE_2024_0000456",
  "disease": {"name":"缺血性脑卒中","icd10":"I63.9","category":"心脑血管"},
  "acute_measures": {
    "nihss_admission":16,"nihss_24h":8,"aspect_score":7,
    "onset_to_door_min":72,"door_to_puncture_min":85
  },
  "procedure": {
    "type":"机械取栓","vessel":"左侧大脑中动脉M1段",
    "tici_grade":"2b-3","devices":["Solitaire FR 6x30mm"]
  },
  "imaging": {"initial":"左侧M1闭塞","post_procedure":"mTICI 3级再通"},
  "outcome": {"mrs_90day":2,"hemorrhagic_transformation":"无"},
  "data_source":"多中心脑卒中取栓登记研究",
  "review_status":"approved"
}
示例4 · 多发性硬化
{
  "record_id": "SPC_MS_2024_0001732",
  "disease": {"name":"多发性硬化","icd10":"G35","category":"神经系统"},
  "phenotype": "复发缓解型(RRMS)",
  "diagnosis_date":"2020-03-15",
  "indicators": {
    "edss_scores":[{"date":"2020-03","score":2.5},{"date":"2024-09","score":3.0}],
    "annual_relapse_rate":0.5,
    "mri_lesions":{"brain_t2":12,"spinal_cord":2,"gd_enhancing":0}
  },
  "treatments": [
    {"drug":"特立氟胺","start":"2021-06","status":"ongoing"},
    {"drug":"甲强龙","purpose":"relapse","use_count":1}
  ],
  "follow_up": {"duration_years":5,"status":"stable"},
  "data_source":"多中心MS专病队列",
  "review_status":"approved"
}
示例5 · 口腔口模三维
{
  "record_id": "SPC_ORAL_2024_0000982",
  "disease": {"name":"口腔口模数据","icd10":"K07.6","category":"口腔"},
  "scan_type":"口内三维扫描",
  "model_format":"STL",
  "measurements": {
    "arch_width_maxillary_mm":48.5,"arch_width_mandibular_mm":52.1,
    "crowding_index":"中度","molar_relationship":"Angle Class I"
  },
  "quality_metrics": {"mesh_vertices":145632,"scan_completeness":0.98},
  "applications": ["正畸方案设计","种植导板制作","修复体CAD/CAM"],
  "data_source":"多中心口腔专病队列",
  "review_status":"approved"
}

标注规范

结构化抽取

从电子病历自动抽取+人工校验,确保字段完整性和准确性

标准化编码

ICD-10/11编码映射、SNOMED CT术语对齐、LOINC检验编码标准化

专家审核

临床专家定期抽检复核,确保数据质量与临床逻辑一致性

隐私脱敏

全量数据经自动化+人工双重脱敏,符合个人信息保护法规

AI 应用场景

疾病风险预测

基于结构化临床指标+长期随访结局,训练糖尿病并发症、心血管事件等风险预测模型

真实世界研究(RWE)

海量真实世界数据支持药物疗效比较、安全性评价、临床试验模拟等循证研究

治疗方案推荐

分析真实世界用药模式与疗效关系,构建个体化治疗方案推荐引擎

慢病管理AI

多病种长期随访数据支撑糖尿病、COPD等慢病的智能化监测与管理干预

临床决策支持

基于大样本专病数据训练的CDSS系统,辅助基层医生诊疗决策

药物研发

真实世界数据支持新药靶点发现、患者分层、临床试验入排标准优化

商业价值

加速临床科研产出

高质量结构化专病数据将回顾性研究周期从数月缩短至数周,提升科研转化效率。

支撑真实世界证据

满足NMPA/CDE真实世界研究指南要求,支持药品/器械上市后评价与适应症扩展。

合规可商用

全量数据经双重脱敏+授权运营,符合《个人信息保护法》《数据安全法》,授权可商用。

灵活定制组合

26个病种按需采购,支持按单个病种、科室打包、专病队列定制多种组合方式。

常见问题

专病数据集与通用电子病历数据集有何区别?

专病数据集针对特定疾病进行了深度结构化字段设计、长周期随访追踪和关键指标汇总。以糖尿病为例,不仅包含常规诊断用药,还整合了糖化血红蛋白序列、并发症筛查记录、年度随访评估等纵向数据,适合临床研究级分析。

支持按单个病种采购吗?

支持按单个病种采购,最小起订量1万条。也可按科室打包(如心血管包:脑卒中+脑血管+取栓),价格根据病例数量、随访周期和字段丰富度浮动。

数据是否经过脱敏和伦理审批?

所有数据均通过医院伦理委员会审批,并经自动化+人工双重脱敏处理,剥离患者身份信息,仅保留匿名标识和临床数据。数据使用遵循授权运营协议。

获取专病数据集完整目录

300万+结构化数据 · 26个重点病种 · 5年+长期随访。联系数据专家获取详细病种清单与商务报价。