数据集概览
定义:体检数据集是由长沙朗慧信息科技有限公司通过合规转授权渠道获取的500万例真实结构化体检数据。来源于合作50+以上医院(含复旦排行榜100类型医院),附带三家三甲医院直接授权和城市级全面授权文件。数据覆盖全年龄段,男女比例1:1均衡采样,体检金额均超1000元,确保数据质量与代表性。是健康管理AI领域规模最大、维度最全的训练数据集之一。
| 数据集名称 | 体检数据集(含人群分层) |
| 数据总量 | 500万例真实体检记录 |
| 数据类型 | 结构化数据 |
| 数据来源 | 转卖(合作50+以上医院,含复旦100类型医院) |
| 授权方式 | 医院直接授权 三家三甲医院直接授权 + 城市级全面授权文件 |
| 交付周期 | 2周-1个月 |
| 性别分布 | 男:女接近1:1,均衡采样 |
| 年龄分层 | 18岁以下10% | 18-30岁20% | 30-40岁30% | 40-60岁30% | 60岁以上10% |
| 体检金额 | 全部体检金额 ≥ 1000元(中高端体检套餐) |
核心数据字段
每例体检记录包含超过80个结构化字段,覆盖从基本信息到影像学检查的完整体检维度。
| 字段类别 | 字段数 | 典型字段 |
|---|---|---|
| 人口学信息 | 8 | 性别、出生年份、年龄、身高、体重、BMI、腰围、血压(收缩压/舒张压) |
| 血常规 | 15 | 白细胞计数、红细胞计数、血红蛋白、血小板计数、中性粒细胞百分比、淋巴细胞百分比等 |
| 生化全项 | 22 | ALT、AST、GGT、肌酐、尿酸、eGFR、总胆固醇、甘油三酯、LDL-C、空腹血糖、HbA1c |
| 肿瘤标志物 | 12 | AFP、CEA、CA19-9、CA125、PSA总/游离/比值(男)、CA15-3(女) |
| 影像学检查 | 15 | 胸部CT所见及Lung-RADS分级、颈动脉超声IMT及狭窄率、心脏超声EF及E/A比 |
| 内镜检查 | 8 | 胃镜所见、病理结果、HP状态;肠镜所见、息肉位置大小分型 |
| 综合评估 | 10 | 主要异常发现、风险评估分级、历年对比数据、健康建议 |
数据样例展示
以下为脱敏后的结构化体检数据样例,展示典型的字段结构与数据格式。
{
"anon_id": "PHY-2023-A8F2K9M4X7",
"report_id": "RPT-S-BJXH-20230415-0032",
"meta": {
"quality_grade": "S",
"source_institution": "合作医疗机构体检中心",
"institution_tier": "优质",
"checkup_date": "2023-04-15",
"report_pages": 42,
"original_price_cny": 6800
},
"demographics": {
"gender": "男",
"birth_year": 1975,
"age_at_checkup": 48,
"height_cm": 172.5,
"weight_kg": 78.3,
"bmi": 26.3,
"waist_cm": 92,
"blood_pressure_mmhg": {"systolic": 138, "diastolic": 88}
},
"lab_results": {
"blood_routine": {"wbc_10e9_L": 6.8, "hgb_g_L": 152, "plt_10e9_L": 218},
"biochemistry": {
"alt_U_L": 42, "ggt_U_L": 68, "cr_umol_L": 88, "ua_umol_L": 420,
"egfr_ml_min": 88, "tc_mmol_L": 5.82, "tg_mmol_L": 2.35,
"ldl_c_mmol_L": 3.68, "fpg_mmol_L": 6.2, "hba1c_percent": 6.0
},
"tumor_markers": {
"afp_ng_ml": 3.2, "cea_ng_ml": 2.1, "ca19_9_U_ml": 15.8,
"psa_total_ng_ml": 2.8, "psa_ratio": 0.21
}
},
"imaging": {
"chest_ct": {
"findings": "双肺散在微小结节,最大位于右肺上叶尖段,直径约4mm,磨玻璃密度,Lung-RADS 2类。",
"lung_rads": "2", "nodule_count": 3, "largest_nodule_mm": 4
},
"carotid_us": {
"findings": "左侧颈总动脉分叉处可见混合回声斑块,大小约8.2x2.5mm,管腔狭窄率约25%。",
"imt_left_mm": 1.1, "stenosis_percent": 25
}
},
"summary": {
"main_findings": [
"轻度脂肪肝", "双侧颈动脉粥样硬化伴左侧斑块(狭窄率25%)",
"空腹血糖受损(IFG),HbA1c临界升高", "混合型高脂血症",
"右肺上叶微小结节(Lung-RADS 2类)"
],
"risk_stratification": "心血管疾病中危"
}
}AI 应用场景
健康风险评估模型
基于大规模体检数据训练心血管疾病、糖尿病、肿瘤等多维度健康风险评估模型,实现个体化风险预测与分层管理。
疾病早期预测
利用丰富的生化指标和影像数据,构建疾病早期预警模型。通过历年数据对比分析,捕捉健康指标的异常变化趋势。
体检报告AI解读
训练健康管理大模型实现体检报告自动解读,为个人用户提供通俗易懂的健康分析和个性化的健康建议。
健康管理AI助手
基于500万例均衡采样数据训练健康管理对话AI,覆盖全年龄段、全性别的健康咨询与管理建议生成。
医保控费与健康经济学
分析不同年龄、性别群体的体检消费特征和疾病谱,为健康保险精算和公共卫生政策提供数据支撑。
慢病管理纵向分析
通过历年体检数据对比,训练慢病进展预测模型,实现糖尿病、高血压、高脂血症等慢病的精准管理。
商业价值分析
规模优势 — 500万级均衡采样
500万例的超大规模确保统计显著性。男女1:1均衡比例与五段年龄分层(各占10%-30%)为AI模型提供充分的样本多样性,有效规避性别偏差和年龄偏差。
合规优势 — 三重医院授权保障
不同于单一授权来源,本数据集附带三家三甲医院直接授权外加城市级全面授权文件,形成多层法律防火墙。这在医疗AI数据的合规性审查中具有显著优势。
质量优势 — 1000元+中高端体检
全部体检记录金额超过1000元,为含CT、超声、肿瘤标志物等的中高端全面体检套餐。字段维度丰富(80+字段),远超基础体检的数据深度。
场景优势 — 健康管理AI全栈覆盖
从疾病预测到报告解读,从风险评估到健康建议,本数据集可支撑健康管理AI的全链路训练。覆盖体检前(风险评估)、体检中(辅助诊断)、体检后(报告解读)的完整闭环。
常见问题
需要定制化的健康数据方案?
长沙朗慧信息科技有限公司 DataAssetsAPI 平台,提供从数据采集、标注到授权的一站式医疗数据服务。支持按年龄分层、按性别分组、按检查项目灵活组合的数据方案。
商务咨询 · 数据样本预览 · 定制化方案