Data Asset Catalog

High-quality, multi-industry, commercially-licensable datasets to power AI model training and research innovation.

64
Datasets总数
10
Industries
34
Healthcare
6
Pharma
4
Insurance

Healthcare — New Datasets 23

带授权医学杂志
7 cases | Image+Text

7 cases医学杂志文章,涵盖图文并茂的医学文献、临床病例报告、医学影像配文,附带完整转授权

体检数据
500万 | Structured Data

500 cases真实结构化体检数据,性别均衡(男女1:1)、多年龄段分层、体检金额1000元以上人群

结构化电子病历Text
5000 cases | Text

全量最大的医疗NLP训练语料,5000 cases脱敏电子病历,覆盖主诉、现病史、既往史、入院记录、出院小结等

医学文献/教科书知识库
Massive | Text

涵盖医学教科书、临床指南、综述文章、药物说明书等Massive权威医学知识内容

心电图波形图及诊断报告
500 cases | Image+Text

500 cases12导联心电图波形图像及诊断报告,含自动分析报告和医生审核诊断

皮肤镜图像及病理诊断报告
Massive | Image+Text

涵盖皮肤镜图像、皮损临床照片及病理金标准诊断报告

胸部X光平片及报告
500 cases | DICOM Image+Text

500 cases胸部X光平片DICOM影像及结构化诊断报告,双审金标准

头部CT平扫+增强影像及报告
500 cases | DICOM Image+Text

500 cases头部CT平扫+增强DICOM序列影像及诊断报告,涵盖脑梗死、脑出血、颅内肿瘤等

眼底彩照及诊断报告
Massive | Image+Text

高质量眼底彩色照片及结构化诊断报告,基于ICDR国际标准糖尿病视网膜病变分期

病理全切片数字图像及诊断报告
Massive | WSI Image+Text

全切片数字图像(20倍+扫描倍率)及完整病理诊断报告,含免疫组化结果、TNM分期

内窥镜视频及关键帧报告
500 cases | Video+Text

500 cases内窥镜视频+关键帧截图+诊断报告,含息肉位置/大小/分型

上腹部癌症数据
500 cases | Image+Annotation

500 cases上腹部多器官癌症标注,覆盖肝/胆/胰/脾/肾上腺/肾/腹腔淋巴结

诊断全过程病理
500 cases | Image+Text

500 cases病理诊断全流程Image+Text,覆盖完整诊断链路

疑难杂症和多学科会诊病例
500 cases | Text

500 cases疑难病MDT会诊Text,罕见病/复杂病AI训练,高难度病例稀缺数据

连续7次住院以上核心字段病例
100 cases | Structured Data

100 cases慢病纵向追踪Structured Data,连续7+次住院追踪

混合型肝癌 WSI
500 cases | WSIImage+Annotation

500 casesQupath精细区域标注,HCC/ICC/MID/TLS/MVI六类标签

肝癌/血管瘤Datasets
100 cases | Image+Annotation

100 cases肝脏病变图像标注,肝癌与血管瘤鉴别

乳腺癌数据
100 cases | Image+Annotation

100 cases乳腺肿瘤图像标注,乳腺癌AI筛查与诊断

住院期间全部文书
2000万份 | Text/PDF

2000万份住院全周期Text/PDF,涵盖病历质控/DRG/DIP

NEW 医疗知识图谱Datasets
500万+实体 | 2000万+关系

500万+医学实体、2000万+关系三元组,ICD-10/11与SNOMED CT映射,7大知识库

NEW 医疗NLP训练语料Datasets
1亿+条 | 12大NLP任务

1亿+条专业医疗NLP标注语料,覆盖实体抽取/对话理解/思维链等12类任务,66子Datasets

NEW 医学影像训练Datasets
2000万+样本 | 10大模态

2000万+医学影像训练样本,CT/MRI/X光/超声/内镜/病理全覆盖,含分类/检测/分割标注

NEW 专病Datasets
300万+条 | 26病种

300万+专病Structured Data,覆盖糖尿病/脑卒中/肿瘤等26重点病种队列,5年+长期随访

Healthcare — Existing Datasets 11

体检数据分析
100万+份 | Structured Data

100万+份深度体检报告,800+结构化医学字段

临床Text分析
32.8万条 | Text

328,000条电子病历、诊断报告、医嘱、文献摘要的NER与关系抽取标注Datasets

皮肤科影像
5.28 cases | 图像

52,800例DICOM影像及专业医师标注

肝癌MRI影像
5.28 cases | DICOM图像

52,800例肝细胞癌多序列MRI DICOM影像及专业医师标注

通用医学影像
10.85 cases | 图像

覆盖CT、X-Ray、超声、MRI四大模态的医学影像通用标注Datasets

神经外科
100万+帧 | Image+Text

100万+标注手术视频帧,24类解剖结构与手术器械像素级语义分割

妇产科
100万+例 | Structured Data

百万级妇产科临床Datasets,覆盖产前急症、高危妊娠、分娩产后等全孕期场景

骨科
5.28 cases | 图像

52,800例DICOM影像及专业医师标注

中医视觉
100万+例 | Image+Annotation

100万+例舌面/面部影像及50,000+例专业标注

超声影像
100万+帧 | 图像

100万+超声影像标注帧

腹部影像
100万+切片 | DICOM图像

100万+DICOM影像切片,覆盖7大器官,薄层CT 512×512+

Pharma NEW 6

全新上线,覆盖药品Structured Data、中药方剂与医疗器械耗材三大Pharma数据资产。

NEW 药品Structured Data集
500万+条 | Structured Data

500万+条中国药品数据,15+核心维度,ATC 5级全覆盖,支持合理用药AI与药物警戒

NEW 中药与方剂Datasets
200万+条 | Text+结构化

200万+条中药、方剂与自制剂数据,涵盖性味归经、功效分类、方剂组成、道地产区

NEW 医疗器械与耗材Datasets
100万+条 | Structured Data

100万+条医疗器械注册与耗材数据,覆盖注册证编号、管理类别、适用范围、技术参数

药品临床应用Datasets
真实世界用药记录、处方分析、用药频次与疗程数据
即将上线
药品不良反应监测Datasets
自发呈报系统ADR报告、信号挖掘Datasets
即将上线
药物临床试验Datasets
CDE登记临床试验、BE试验、真实世界研究RWE数据
即将上线

Insurance NEW 4

全新上线,覆盖Insurance结算清单、DIP病种分组、DRG分组编码与Insurance支付标准数据。

NEW Insurance结算与 DIP/DRG Datasets
1000万+条 | Structured Data

1000万+条Insurance结算清单与支付数据,14+核心维度,覆盖Insurance目录/DIP分组/DRG编码/费用构成

Insurance目录全量Datasets
药品/诊疗/耗材三大目录,含YB编码、支付标准与限制范围
即将上线
DIP分值库
按病种分值付费DIP分组编码、分值、结算点值全覆盖
即将上线
DRG权费Datasets
CHS-DRG 1.2版分组、相对权重(RW)、费率与基准点数据
即将上线

Intl Corpus NEW 1

全新上线,覆盖10语种500万+条多语种医疗语料,支持医学NMT与跨语言知识图谱构建。

NEW 国际医疗语料Datasets
500万+条 | 多语种Text

500万+条多语种医疗语料,10语种、8大类型、ICD-11/SNOMED-CT术语标注,S/A级翻译质量

Economy 5

CAD图纸数据
存量 | CAD文件
合同数据
存量 | Text
金融数据
存量 | Structured Data
解决方案数据
存量 | Text
供应链数据
存量 | Structured Data

Public Welfare 5

房票/安置数据
存量 | Structured Data
征地数据
存量 | Structured Data
Legal案件数据
存量 | Text
Legal合同数据
存量 | Text
智慧城市数据
存量 | Structured Data

Research & Edu 5

大学以上高质量理科题目
1000 cases | Text+图片
高质量题库
200万 | Text+图片
考试数据
存量 | Text
论文数据
存量 | Text
科技AI数据
存量 | Structured Data

Legal 2

Legal题库(海洋法系)
200万份 | Text
Legal起诉状答辩状
55万 | Text+PDF

Arts & Culture 1

古文书画金石甲骨文书法
13 cases | 图片+标注

World Models / 空间数据 6

照片建模Datasets
1200+模型/725万照片 | 图像(多视角)
无人机建模Datasets
2000km²/1600万航片 | 图像(航空)
激光点云建模Datasets
100万m²/1TB | 点云数据
照片→模型高质量Datasets
含于总体 | 多模态混合
园区/校园/工厂/古建/城市高精
含于总体 | 图像(语义)
三维模型拆分Datasets
含于总体 | 多模态混合

需要更多行业Datasets?

DataAssetsAPI 持续扩充Data Asset Catalog,支持按行业、维度、质量等级定制化交付。Contact Us的数据专家获取完整目录与报价方案。