数据集概览
| 属性 | 说明 |
|---|---|
| 数据集名称 | 专病结构化数据集 |
| 总规模 | 300万+ 专病结构化数据记录 |
| 覆盖病种 | 26 个重点病种(代谢疾病 · 呼吸系统 · 神经系统 · 肿瘤 · 口腔 · 心脑血管等) |
| 数据维度 | 临床病历 · 随访记录 · 检验检查 · 影像数据 · 基因组学 · 手术示教视频 · 健康科普视频 |
| 随访周期 | 多数病种5年以上纵向随访数据,部分队列达10年+ |
| 来源 | 授权运营(三甲医院专病队列 + 多中心临床研究) |
| 应用场景 | 真实世界研究 · 药物研发 · 模型训练 · 模型评测 · 临床科研 |
| 供应形式 | 硬盘 · 云盘 · API · 数据基础设施 |
字段维度体系
| 类别 | 字段 | 说明 |
|---|---|---|
| 病种标识 | 病种名称 · ICD-10/11编码 · 病种类别 · 归属科室 | 标准化病种分类与编码体系 |
| 病例信息 | 病例数 · 入组标准 · 排除标准 · 数据收集起止时间 | 专病队列规模与入排标准 |
| 临床指标 | 关键指标 · 合并症 · 用药记录 · 手术/操作 | 多模态数据维度矩阵 |
| 随访指标 | 随访周期 · 结局事件 · 生存状态 · 失访率 | 纵向随访完整度评估 |
| 数据来源 | 采集机构 · 授权方式 · 质量等级 · 最后更新 | 数据溯源与质控评级 |
重点病种覆盖
| 疾病分类 | 覆盖病种 | 核心数据维度 |
|---|---|---|
| 代谢疾病 | 糖尿病 · 肥胖 | 血糖监测、HbA1c、并发症、饮食运动干预、5年+随访 |
| 呼吸系统 | 慢阻肺(COPD) | 肺功能、GOLD分级、急性加重次数、吸烟史、CAT评分 |
| 神经系统 | 多发性硬化 · 自身免疫性脑炎 · 视神经脊髓炎 · 脑梗死 · 睡眠障碍 · 脑胶质瘤 | MRI病灶计数、EDSS评分、AQP4抗体、免疫治疗记录 |
| 肿瘤 | 肺癌 · 肝癌 · 前列腺癌 · 膀胱癌 · 甲状腺癌 · 脑胶质瘤 | TNM分期、病理分级、基因突变谱、手术方式、生存随访 |
| 心脑血管 | 脑卒中取栓 · 脑血管 · 脑梗死 | NIHSS评分、ASPECT评分、取栓时间窗、血管内介入方案 |
| 其他 | 隐球菌性脑膜炎 · 口腔口模 · 中医郁病 · 胎儿超声筛查 · 医学科教视频 | CSF检查、口腔三维模型、中医证型、胎儿生物测量、手术示教 |
脱敏 JSON 样例
{
"record_id": "SPC_DM_2024_0047219",
"disease": {"name":"2型糖尿病","icd10":"E11.900","category":"代谢疾病"},
"demographics": {"gender":"M","age_group":"55-60","bmi":27.8},
"indicators": {
"hba1c":[{"date":"2024-01-15","value":8.2},{"date":"2024-06-20","value":7.1}],
"fpg_mmol":7.6,"egfr":78,
"complications":["糖尿病视网膜病变","周围神经病变"]
},
"medications": [{"drug":"二甲双胍","dose":"500mg bid"},{"drug":"达格列净","dose":"10mg qd"}],
"follow_up": {"duration_years":6,"last_date":"2025-03-10","status":"active"},
"data_source":"三甲医院内分泌科专病队列",
"review_status":"approved"
}{
"record_id": "SPC_LC_2024_0018923",
"disease": {"name":"肺腺癌","icd10":"C34.900","category":"肿瘤"},
"diagnosis": {
"date":"2023-08-04","tnm_stage":"T2aN1M0,Stage IIB",
"pathology":"腺泡型为主的浸润性腺癌",
"ihc":{"TTF1":"+","NapsinA":"+","PDL1":"30%"}
},
"genomics": {"EGFR":"19del","ALK":"-","KRAS":"G12C","TP53":"R273H"},
"treatment": [
{"type":"surgery","procedure":"右上肺叶切除+淋巴结清扫","date":"2023-08-18"},
{"type":"chemo","regimen":"培美曲塞+卡铂x4周期"}
],
"survival": {"last_date":"2025-06-01","status":"disease_free","dfs_months":22},
"data_source":"多中心肺癌专病队列",
"review_status":"approved"
}{
"record_id": "SPC_STROKE_2024_0000456",
"disease": {"name":"缺血性脑卒中","icd10":"I63.9","category":"心脑血管"},
"acute_measures": {
"nihss_admission":16,"nihss_24h":8,"aspect_score":7,
"onset_to_door_min":72,"door_to_puncture_min":85
},
"procedure": {
"type":"机械取栓","vessel":"左侧大脑中动脉M1段",
"tici_grade":"2b-3","devices":["Solitaire FR 6x30mm"]
},
"imaging": {"initial":"左侧M1闭塞","post_procedure":"mTICI 3级再通"},
"outcome": {"mrs_90day":2,"hemorrhagic_transformation":"无"},
"data_source":"多中心脑卒中取栓登记研究",
"review_status":"approved"
}{
"record_id": "SPC_MS_2024_0001732",
"disease": {"name":"多发性硬化","icd10":"G35","category":"神经系统"},
"phenotype": "复发缓解型(RRMS)",
"diagnosis_date":"2020-03-15",
"indicators": {
"edss_scores":[{"date":"2020-03","score":2.5},{"date":"2024-09","score":3.0}],
"annual_relapse_rate":0.5,
"mri_lesions":{"brain_t2":12,"spinal_cord":2,"gd_enhancing":0}
},
"treatments": [
{"drug":"特立氟胺","start":"2021-06","status":"ongoing"},
{"drug":"甲强龙","purpose":"relapse","use_count":1}
],
"follow_up": {"duration_years":5,"status":"stable"},
"data_source":"多中心MS专病队列",
"review_status":"approved"
}{
"record_id": "SPC_ORAL_2024_0000982",
"disease": {"name":"口腔口模数据","icd10":"K07.6","category":"口腔"},
"scan_type":"口内三维扫描",
"model_format":"STL",
"measurements": {
"arch_width_maxillary_mm":48.5,"arch_width_mandibular_mm":52.1,
"crowding_index":"中度","molar_relationship":"Angle Class I"
},
"quality_metrics": {"mesh_vertices":145632,"scan_completeness":0.98},
"applications": ["正畸方案设计","种植导板制作","修复体CAD/CAM"],
"data_source":"多中心口腔专病队列",
"review_status":"approved"
}标注规范
结构化抽取
从电子病历自动抽取+人工校验,确保字段完整性和准确性
标准化编码
ICD-10/11编码映射、SNOMED CT术语对齐、LOINC检验编码标准化
专家审核
临床专家定期抽检复核,确保数据质量与临床逻辑一致性
隐私脱敏
全量数据经自动化+人工双重脱敏,符合个人信息保护法规
AI 应用场景
疾病风险预测
基于结构化临床指标+长期随访结局,训练糖尿病并发症、心血管事件等风险预测模型
真实世界研究(RWE)
海量真实世界数据支持药物疗效比较、安全性评价、临床试验模拟等循证研究
治疗方案推荐
分析真实世界用药模式与疗效关系,构建个体化治疗方案推荐引擎
慢病管理AI
多病种长期随访数据支撑糖尿病、COPD等慢病的智能化监测与管理干预
临床决策支持
基于大样本专病数据训练的CDSS系统,辅助基层医生诊疗决策
药物研发
真实世界数据支持新药靶点发现、患者分层、临床试验入排标准优化
商业价值
加速临床科研产出
高质量结构化专病数据将回顾性研究周期从数月缩短至数周,提升科研转化效率。
支撑真实世界证据
满足NMPA/CDE真实世界研究指南要求,支持药品/器械上市后评价与适应症扩展。
合规可商用
全量数据经双重脱敏+授权运营,符合《个人信息保护法》《数据安全法》,授权可商用。
灵活定制组合
26个病种按需采购,支持按单个病种、科室打包、专病队列定制多种组合方式。
常见问题
专病数据集与通用电子病历数据集有何区别?
专病数据集针对特定疾病进行了深度结构化字段设计、长周期随访追踪和关键指标汇总。以糖尿病为例,不仅包含常规诊断用药,还整合了糖化血红蛋白序列、并发症筛查记录、年度随访评估等纵向数据,适合临床研究级分析。
支持按单个病种采购吗?
支持按单个病种采购,最小起订量1万条。也可按科室打包(如心血管包:脑卒中+脑血管+取栓),价格根据病例数量、随访周期和字段丰富度浮动。
数据是否经过脱敏和伦理审批?
所有数据均通过医院伦理委员会审批,并经自动化+人工双重脱敏处理,剥离患者身份信息,仅保留匿名标识和临床数据。数据使用遵循授权运营协议。
获取专病数据集完整目录
300万+结构化数据 · 26个重点病种 · 5年+长期随访。联系数据专家获取详细病种清单与商务报价。