数据资产目录

高质量、多行业、可商用数据集,助力AI模型训练与研究创新

59
数据集总数
9
覆盖行业
36
医疗健康
6
医药
4
医保

医疗健康 — 新增数据集 23 个

带授权医学杂志
7万例 | 图片+文本

7万例医学杂志文章,涵盖图文并茂的医学文献、临床病例报告、医学影像配文,附带完整转授权

体检数据
500万 | 结构化数据

500万例真实结构化体检数据,性别均衡(男女1:1)、多年龄段分层、体检金额1000元以上人群

结构化电子病历文本
5000万例 | 文本

全量最大的医疗NLP训练语料,5000万例脱敏电子病历,覆盖主诉、现病史、既往史、入院记录、出院小结等

医学文献/教科书知识库
海量 | 文本

涵盖医学教科书、临床指南、综述文章、药物说明书等海量权威医学知识内容

心电图波形图及诊断报告
500万例 | 图像+文本

500万例12导联心电图波形图像及诊断报告,含自动分析报告和医生审核诊断

皮肤镜图像及病理诊断报告
大量 | 图像+文本

涵盖皮肤镜图像、皮损临床照片及病理金标准诊断报告

胸部X光平片及报告
500万例 | DICOM图像+文本

500万例胸部X光平片DICOM影像及结构化诊断报告,双审金标准

头部CT平扫+增强影像及报告
500万例 | DICOM图像+文本

500万例头部CT平扫+增强DICOM序列影像及诊断报告,涵盖脑梗死、脑出血、颅内肿瘤等

眼底彩照及诊断报告
大量 | 图像+文本

高质量眼底彩色照片及结构化诊断报告,基于ICDR国际标准糖尿病视网膜病变分期

病理全切片数字图像及诊断报告
大量 | WSI图像+文本

全切片数字图像(20倍+扫描倍率)及完整病理诊断报告,含免疫组化结果、TNM分期

内窥镜视频及关键帧报告
500万例 | 视频+文本

500万例内窥镜视频+关键帧截图+诊断报告,含息肉位置/大小/分型

上腹部癌症数据
500万例 | 图像+标注

500万例上腹部多器官癌症标注,覆盖肝/胆/胰/脾/肾上腺/肾/腹腔淋巴结

诊断全过程病理
500万例 | 图像+文本

500万例病理诊断全流程图像+文本,覆盖完整诊断链路

疑难杂症和多学科会诊病例
500万例 | 文本

500万例疑难病MDT会诊文本,罕见病/复杂病AI训练,高难度病例稀缺数据

连续7次住院以上核心字段病例
100万例 | 结构化数据

100万例慢病纵向追踪结构化数据,连续7+次住院追踪

混合型肝癌 WSI
500万例 | WSI图像+标注

500万例Qupath精细区域标注,HCC/ICC/MID/TLS/MVI六类标签

肝癌/血管瘤数据集
100万例 | 图像+标注

100万例肝脏病变图像标注,肝癌与血管瘤鉴别

乳腺癌数据
100万例 | 图像+标注

100万例乳腺肿瘤图像标注,乳腺癌AI筛查与诊断

住院期间全部文书
2000万份 | 文本/PDF

2000万份住院全周期文本/PDF,涵盖病历质控/DRG/DIP

NEW 医疗知识图谱数据集
500万+实体 | 2000万+关系

500万+医学实体、2000万+关系三元组,ICD-10/11与SNOMED CT映射,7大知识库

NEW 医疗NLP训练语料数据集
1亿+条 | 12大NLP任务

1亿+条专业医疗NLP标注语料,覆盖实体抽取/对话理解/思维链等12类任务,66个子数据集

NEW 医学影像训练数据集
2000万+样本 | 10大模态

2000万+医学影像训练样本,CT/MRI/X光/超声/内镜/病理全覆盖,含分类/检测/分割标注

NEW 专病数据集
300万+条 | 26个病种

300万+专病结构化数据,覆盖糖尿病/脑卒中/肿瘤等26个重点病种队列,5年+长期随访

医疗健康 — 存量数据集 11 个

体检数据分析
100万+份 | 结构化数据

100万+份深度体检报告,800+结构化医学字段

临床文本分析
32.8万条 | 文本

328,000条电子病历、诊断报告、医嘱、文献摘要的NER与关系抽取标注数据集

皮肤科影像
5.28万例 | 图像

52,800例DICOM影像及专业医师标注

肝癌MRI影像
5.28万例 | DICOM图像

52,800例肝细胞癌多序列MRI DICOM影像及专业医师标注

通用医学影像
10.85万例 | 图像

覆盖CT、X-Ray、超声、MRI四大模态的医学影像通用标注数据集

神经外科
100万+帧 | 图像+文本

100万+标注手术视频帧,24类解剖结构与手术器械像素级语义分割

妇产科
100万+例 | 结构化数据

百万级妇产科临床数据集,覆盖产前急症、高危妊娠、分娩产后等全孕期场景

骨科
5.28万例 | 图像

52,800例DICOM影像及专业医师标注

中医视觉
100万+例 | 图像+标注

100万+例舌面/面部影像及50,000+例专业标注

超声影像
100万+帧 | 图像

100万+超声影像标注帧

腹部影像
100万+切片 | DICOM图像

100万+DICOM影像切片,覆盖7大器官,薄层CT 512×512+

医药 NEW 6 个

全新上线,覆盖药品结构化数据、中药方剂与医疗器械耗材三大医药数据资产。

NEW 药品结构化数据集
500万+条 | 结构化数据

500万+条中国药品数据,15+核心维度,ATC 5级全覆盖,支持合理用药AI与药物警戒

NEW 中药与方剂数据集
200万+条 | 文本+结构化

200万+条中药、方剂与自制剂数据,涵盖性味归经、功效分类、方剂组成、道地产区

NEW 医疗器械与耗材数据集
100万+条 | 结构化数据

100万+条医疗器械注册与耗材数据,覆盖注册证编号、管理类别、适用范围、技术参数

药品临床应用数据集
真实世界用药记录、处方分析、用药频次与疗程数据
即将上线
药品不良反应监测数据集
自发呈报系统ADR报告、信号挖掘数据集
即将上线
药物临床试验数据集
CDE登记临床试验、BE试验、真实世界研究RWE数据
即将上线

医保 NEW 4 个

全新上线,覆盖医保结算清单、DIP病种分组、DRG分组编码与医保支付标准数据。

NEW 医保结算与 DIP/DRG 数据集
1000万+条 | 结构化数据

1000万+条医保结算清单与支付数据,14+核心维度,覆盖医保目录/DIP分组/DRG编码/费用构成

医保目录全量数据集
药品/诊疗/耗材三大目录,含YB编码、支付标准与限制范围
即将上线
DIP分值库
按病种分值付费DIP分组编码、分值、结算点值全覆盖
即将上线
DRG权费数据集
CHS-DRG 1.2版分组、相对权重(RW)、费率与基准点数据
即将上线

国际语料 NEW 1 个

全新上线,覆盖10语种500万+条多语种医疗语料,支持医学NMT与跨语言知识图谱构建。

NEW 国际医疗语料数据集
500万+条 | 多语种文本

500万+条多语种医疗语料,10语种、8大类型、ICD-11/SNOMED-CT术语标注,S/A级翻译质量

科研教育 5 个

大学以上高质量理科题目
1000万例 | 文本+图片
高质量题库
200万 | 文本+图片
考试数据
存量 | 文本
论文数据
存量 | 文本
科技AI数据
存量 | 结构化数据

法律 2 个

法律题库(海洋法系)
200万份 | 文本
法律起诉状答辩状
55万 | 文本+PDF

文化艺术 1 个

古文书画金石甲骨文书法
13万例 | 图片+标注

世界模型 / 空间数据 6 个

照片建模数据集
1200+模型/725万照片 | 图像(多视角)
无人机建模数据集
2000km²/1600万航片 | 图像(航空)
激光点云建模数据集
100万m²/1TB | 点云数据
照片→模型高质量数据集
含于总体 | 多模态混合
园区/校园/工厂/古建/城市高精
含于总体 | 图像(语义)
三维模型拆分数据集
含于总体 | 多模态混合

产业经济 5 个

CAD图纸数据
存量 | CAD文件
合同数据
存量 | 文本
金融数据
存量 | 结构化数据
解决方案数据
存量 | 文本
供应链数据
存量 | 结构化数据

需要更多行业数据集?

DataAssetsAPI 持续扩充数据资产目录,支持按行业、维度、质量等级定制化交付。联系我们的数据专家获取完整目录与报价方案。