高质量医疗数据集

覆盖医疗影像与临床病历的全场景数据资产,经过专业质控体系验证, 为医疗AI模型训练提供可靠的数据基础。

10万+ 影像数据 3亿+ 文本数据 A/B类质控 脱敏合规
10万+
医疗影像数据
3万+
CT影像数据
3亿+
医疗文本数据
99.9%
质控准确率

医疗数据集总览

覆盖影像诊断、临床病历、检验检查三大核心场景,为医疗AI模型提供全方位训练数据

医疗影像数据

Medical Imaging Data

  • 超声影像

    肝脏超声标准切面影像,支持DICOM格式

  • CT影像

    胸腹部CT扫描数据,含三维重建标注

  • X光/MRI

    胸片、骨骼X光及核磁共振影像

10万+ 影像文件

临床病历数据

Clinical Record Data

  • 门诊病历

    主诉、现病史、诊断、医嘱全链路数据

  • 住院病历

    入院记录、病程记录、出院小结完整链

  • 手术记录

    术前诊断、手术经过、术后诊断全记录

3亿+ 文本记录

检验检查数据

Lab & Examination Data

  • 实验室检验

    血常规、生化、肝功等检验结果及参考范围

  • 影像检查报告

    CT、超声、MRI检查所见与结论

  • 药品医嘱

    住院/门诊用药记录,含剂量、频次、途径

全覆盖 多维数据

医疗影像标注服务

基于专业医学标准的四级标注体系,覆盖影像质量评估到精准病灶识别的完整工作流

任务一 IEEE RA-L 标准

影像质量标注

基于 IEEE RA-L 2022 标准,对超声影像进行五级质量评分,识别模糊、伪影、噪声等质量问题。

五级质量评分体系

1
不可接受 无法识别器官
2
较差 结构模糊
3
尚可 可识别但不清晰
4
良好 结构清晰
5
优秀 无伪影
任务二 11种标准切面

切面分类标注

识别11种肝脏标准超声切面类型,并对解剖结构完整性进行0-4分精细化评级。

标准切面类型(部分展示)

左叶腹主动脉长轴
中叶下腔静脉长轴
右叶肾长轴
右叶胆囊长轴
中叶右门静脉横切
+6种切面...
结构质量评分:0分(缺失)→ 4分(教科书级)
任务三 误差 < 5像素

器官分割标注

使用多边形工具精确勾勒肝脏器官轮廓,支持多边形坐标、RLE编码和二值Mask三种输出格式。

标注精度要求

边界误差

轮廓精度控制在 5 像素以内

< 5px

轮廓要求

边缘平滑、单连通、不自交叉

严格

输出格式

多边形坐标 / RLE编码 / 二值Mask

3种
任务四 肝囊肿二分类

病灶分割标注

标记肝囊肿病灶区域并进行精准二分类,区分单纯性囊肿与复杂性囊肿,遵循保守分类原则。

单纯性囊肿
  • 囊内近似无回声
  • 囊壁薄且规则
  • 后方回声增强
  • 无分隔/壁结节/钙化

须同时满足全部4条

复杂性囊肿
  • 囊内有明显回声
  • 存在分隔结构
  • 囊壁增厚或不规则
  • 壁结节或钙化

出现任一特征即归此类

病历数据质控体系

建立 A/B 类双级质量分级标准,确保每一条病历数据的完整性、准确性与业务可用性

A

A 类数据标准

高质量核心数据集

  • 包含全部关键表单(门诊+住院+检查+检验+医嘱)
  • 核心字段无缺失、无无效值("不详""null"等)
  • 经人工抽样核查或系统逻辑校验
  • 错误率低于预设阈值(< 2%)
B

B 类数据标准

扩展辅助数据集

  • 包含核心表单(不含检查检验及医嘱可选)
  • 核心字段无缺失,诊断与治疗数据完整
  • 通过系统逻辑校验与抽检审核
  • 适用于大规模预训练场景

核心字段质量要求

数据表 核心字段 填充率要求 A类 B类
门诊病历 就诊号、患者编号、主诉、现病史、诊断 > 90%
入院记录 入院时间、性别、年龄、主诉、体格检查、入院诊断 > 90%
出院记录 入院/出院诊断、诊疗经过、出院医嘱 > 90%
检验记录 检验套餐名、项目名称、定量/定性结果、单位 > 90% 可选
药品医嘱 医嘱名称、单次剂量、频次、用药途径 > 90% 可选

数据验收流程

五步标准化验收流程,确保每批交付数据的质量可追溯、可量化

1

分批交付

供应商按批次交付数据并提供质控报告

2

初步质控

转模入库,生产质控报告并抽检验证

3

打标分级

自动化分级为A档、B档及不合规数据

4

反馈返工

反馈问题数据,供应商修复后重新提交

5

最终确认

所有批次验收通过,项目完成交付

数据拒收标准

  • • 数据完整性、准确性或业务完整性未能符合 A/B 档要求的,评为"不合规"并拒收
  • • 整批次抽检样本中 30% 以上无法通过质控且三轮内无法修复的,整批拒收并要求返工

数据安全与合规

全流程数据脱敏处理,确保患者隐私安全与数据合规使用

隐私脱敏

患者姓名、ID号、就诊医院等敏感信息经过脱敏或去标识化处理

等保三级

通过国家信息安全等级保护三级认证,保障数据存储与传输安全

访问控制

基于RBAC的四级权限管理,管理员/项目经理/审核员/标注员分级管控

合规授权

数据采集经医疗机构正式授权,使用范围严格限定于AI模型训练

获取医疗数据集定制方案

支持按科室、病种、数据量级定制,提供样本数据试用,确保满足您的AI模型训练需求

联系我们,获取更多人工智能服务方案