数据集概览
| 属性 | 说明 |
|---|---|
| 数据集名称 | 医疗知识图谱数据集 |
| 覆盖知识库 | ICD-10目录、ICD-11目录、行业元数据映射库、行业元数据库、医学术语映射库、药品与疾病映射库、医学术语定义库 |
| 实体规模 | 500万+ 医学实体 |
| 关系三元组 | 2000万+ 条 (Entity-Relation-Entity) |
| 术语标准 | ICD-10 · ICD-11 · SNOMED CT · 自定义行业元数据 |
| 数据格式 | JSON-LD / RDF / CSV / Neo4j Cypher |
| 来源 | 授权运营 + 自研 |
| 应用场景 | 知识图谱构建 · 智能体知识库 · 模型训练 · RWE研究 |
| 交付周期 | 1-2 周 |
字段维度体系
| 类别 | 字段 | 说明 |
|---|---|---|
| 实体标识 | 实体类型、实体名称、实体ID、本体分类 | 统一实体编码与类型归属 |
| 关系描述 | 关系类型、目标实体、关系方向、关系权重、置信度 | 实体间语义关系三元组 |
| 编码体系 | ICD-10编码、ICD-11编码、SNOMED CT编码、自定义编码 | 多标准医学术语编码映射 |
| 术语定义 | 术语名称、术语释义、同义词、英文对应词、简称 | 术语标准化与消歧 |
| 文献溯源 | 来源文献、来源数据库、发布机构、版本号 | 知识条目文献支撑 |
| 元数据 | 元数据名称、元数据释义、映射目标标准、数据域 | 行业元数据标准化治理 |
脱敏 JSON-LD 三元组样例
{
"@context": "https://schema.org",
"@type": "MedicalEntity",
"@id": "kg:entity/disease/I21.0",
"entity_type": "Disease",
"entity_name": "急性前壁心肌梗死",
"icd10_code": "I21.0",
"icd11_code": "BA41.0",
"snomed_ct": "54329005",
"relations": [
{
"relation_type": "has_symptom",
"target_entity": "kg:entity/symptom/chest_pain",
"target_name": "胸痛",
"confidence": 0.98,
"source": "ICD-11 Clinical Description"
},
{
"relation_type": "has_risk_factor",
"target_entity": "kg:entity/risk/hypertension",
"target_name": "高血压",
"confidence": 0.95,
"source": "WHO Global Health Estimates"
}
]
}{
"@id": "kg:relation/drug_disease/1000342",
"subject": {
"entity_type": "Drug",
"entity_name": "阿托伐他汀钙片",
"atc_code": "C10AA05",
"approval_number": "国药准字H20051408"
},
"predicate": "indicated_for",
"object": {
"entity_type": "Disease",
"entity_name": "高胆固醇血症",
"icd10_code": "E78.0"
},
"confidence": 0.99,
"source": ["药品说明书", "中国药典2020版"],
"evidence_level": "Grade A"
}{
"@id": "kg:mapping/term/HTN_001",
"source_system": "医院HIS自定义编码",
"source_code": "D-HYP-ESS",
"source_term": "原发性高血压",
"target_standard": "ICD-10",
"target_code": "I10",
"target_term": "Essential (primary) hypertension",
"target_standard_2": "ICD-11",
"target_code_2": "BA00",
"target_term_2": "Essential hypertension",
"mapping_type": "exact_match",
"confidence": 0.97,
"reviewed_by": "临床术语专家"
}{
"meta_data_domain": "医疗·门诊",
"fields": [
{
"field_name": "chief_complaint",
"definition": "患者就诊时的主要症状或不适描述",
"data_type": "TEXT",
"mapped_standard": "HL7 FHIR R4 Condition.code",
"mapped_path": "Condition.code.text"
},
{
"field_name": "diagnosis_code",
"definition": "出院主要诊断的ICD-10编码",
"data_type": "VARCHAR(10)",
"mapped_standard": "ICD-10",
"mapped_path": "Condition.code.coding[ICD-10].code"
}
]
}{
"@id": "kg:term/definition/TCM_0127",
"term": "辨证论治",
"english_name": "Syndrome Differentiation and Treatment",
"definition": "中医学基本特点之一,通过分析四诊资料辨别证候,确定相应的治疗原则和方法",
"domain": "中医学基础",
"synonyms": ["辨证施治", "辨证"],
"related_terms": ["整体观念", "望闻问切", "八纲辨证"],
"source": "《中医基础理论》",
"version": "2024.Q2",
"review_status": "已审核"
}知识标注与质检规范
实体标准化
统一实体命名规范,消歧同义异名,关联多标准编码
关系校验
专业医学人员审核每条关系的临床合理性
置信度分级
≥0.95 Grade A / 0.85-0.94 Grade B / <0.85 待复核
版本管控
每个知识条目标注版本号与审核状态
AI 应用场景
医疗大模型知识注入
为LLM提供结构化医学知识底座的预训练与微调数据
临床决策支持系统
基于疾病-症状-药品知识图谱构建CDSS推理引擎
术语标准化转换
HIS/EMR 自定义编码到 ICD/SNOMED 标准编码的自动映射
智能体知识库构建
为医疗AI Agent提供可查询的结构化医学知识库
药物重定位研究
基于药品-疾病-靶点图谱发现新适应症
医学教育智能化
术语定义库与关系网络支撑自适应医学教学系统
商业价值
缩短知识工程周期
从零构建医学知识图谱通常需要12-18个月,使用本数据集可将周期缩短至1-3个月。
多标准互操作性
同时覆盖ICD-10/11、SNOMED CT三大标准,解决医院信息系统间的语义互操作难题。
合规可商用
所有知识条目经脱敏并持有授权,支持商业AI产品直接集成。
持续更新维护
随ICD/WHO编码版本迭代同步更新,年度至少两次大版本发布。
常见问题
医疗知识图谱数据集的核心价值是什么?
核心价值在于提供经过临床专家审核的500万+实体与2000万+关系三元组,涵盖ICD-10/11全量编码与SNOMED CT映射,可直接注入大模型训练流程,大幅降低医疗AI的知识工程建设成本。
如何保证知识条目的准确性?
所有知识条目由临床医学专家组审核,来源文献可追溯。每条关系标注置信度分数,置信度≥0.95的入Grade A级,0.85-0.94入Grade B级,低于0.85的标记为待复核。
是否支持自定义知识图谱Schema?
支持。数据集提供标准RDF/JSON-LD格式导出,兼容Neo4j/JanusGraph/ArangoDB等主流图数据库,可根据您的业务Schema进行定制化重映射。
获取医疗知识图谱完整目录
7大知识库 · 500万+实体 · 2000万+关系三元组 · ICD-10/11全量覆盖。联系数据专家获取详细Schema与商务报价。