医疗知识图谱数据集

500万+医学实体 · 2000万+关系三元组 · 7大知识库 · ICD/SNOMED CT 全量映射

7
知识库
500万+
医学实体
2000万+
关系三元组
ICD-10/11
全量编码
SNOMED CT
术语映射

数据集概览

属性说明
数据集名称医疗知识图谱数据集
覆盖知识库ICD-10目录、ICD-11目录、行业元数据映射库、行业元数据库、医学术语映射库、药品与疾病映射库、医学术语定义库
实体规模500万+ 医学实体
关系三元组2000万+ 条 (Entity-Relation-Entity)
术语标准ICD-10 · ICD-11 · SNOMED CT · 自定义行业元数据
数据格式JSON-LD / RDF / CSV / Neo4j Cypher
来源授权运营 + 自研
应用场景知识图谱构建 · 智能体知识库 · 模型训练 · RWE研究
交付周期1-2 周

字段维度体系

类别字段说明
实体标识实体类型、实体名称、实体ID、本体分类统一实体编码与类型归属
关系描述关系类型、目标实体、关系方向、关系权重、置信度实体间语义关系三元组
编码体系ICD-10编码、ICD-11编码、SNOMED CT编码、自定义编码多标准医学术语编码映射
术语定义术语名称、术语释义、同义词、英文对应词、简称术语标准化与消歧
文献溯源来源文献、来源数据库、发布机构、版本号知识条目文献支撑
元数据元数据名称、元数据释义、映射目标标准、数据域行业元数据标准化治理

脱敏 JSON-LD 三元组样例

{
  "@context": "https://schema.org",
  "@type": "MedicalEntity",
  "@id": "kg:entity/disease/I21.0",
  "entity_type": "Disease",
  "entity_name": "急性前壁心肌梗死",
  "icd10_code": "I21.0",
  "icd11_code": "BA41.0",
  "snomed_ct": "54329005",
  "relations": [
    {
      "relation_type": "has_symptom",
      "target_entity": "kg:entity/symptom/chest_pain",
      "target_name": "胸痛",
      "confidence": 0.98,
      "source": "ICD-11 Clinical Description"
    },
    {
      "relation_type": "has_risk_factor",
      "target_entity": "kg:entity/risk/hypertension",
      "target_name": "高血压",
      "confidence": 0.95,
      "source": "WHO Global Health Estimates"
    }
  ]
}
{
  "@id": "kg:relation/drug_disease/1000342",
  "subject": {
    "entity_type": "Drug",
    "entity_name": "阿托伐他汀钙片",
    "atc_code": "C10AA05",
    "approval_number": "国药准字H20051408"
  },
  "predicate": "indicated_for",
  "object": {
    "entity_type": "Disease",
    "entity_name": "高胆固醇血症",
    "icd10_code": "E78.0"
  },
  "confidence": 0.99,
  "source": ["药品说明书", "中国药典2020版"],
  "evidence_level": "Grade A"
}
{
  "@id": "kg:mapping/term/HTN_001",
  "source_system": "医院HIS自定义编码",
  "source_code": "D-HYP-ESS",
  "source_term": "原发性高血压",
  "target_standard": "ICD-10",
  "target_code": "I10",
  "target_term": "Essential (primary) hypertension",
  "target_standard_2": "ICD-11",
  "target_code_2": "BA00",
  "target_term_2": "Essential hypertension",
  "mapping_type": "exact_match",
  "confidence": 0.97,
  "reviewed_by": "临床术语专家"
}
{
  "meta_data_domain": "医疗·门诊",
  "fields": [
    {
      "field_name": "chief_complaint",
      "definition": "患者就诊时的主要症状或不适描述",
      "data_type": "TEXT",
      "mapped_standard": "HL7 FHIR R4 Condition.code",
      "mapped_path": "Condition.code.text"
    },
    {
      "field_name": "diagnosis_code",
      "definition": "出院主要诊断的ICD-10编码",
      "data_type": "VARCHAR(10)",
      "mapped_standard": "ICD-10",
      "mapped_path": "Condition.code.coding[ICD-10].code"
    }
  ]
}
{
  "@id": "kg:term/definition/TCM_0127",
  "term": "辨证论治",
  "english_name": "Syndrome Differentiation and Treatment",
  "definition": "中医学基本特点之一,通过分析四诊资料辨别证候,确定相应的治疗原则和方法",
  "domain": "中医学基础",
  "synonyms": ["辨证施治", "辨证"],
  "related_terms": ["整体观念", "望闻问切", "八纲辨证"],
  "source": "《中医基础理论》",
  "version": "2024.Q2",
  "review_status": "已审核"
}

知识标注与质检规范

实体标准化

统一实体命名规范,消歧同义异名,关联多标准编码

关系校验

专业医学人员审核每条关系的临床合理性

置信度分级

≥0.95 Grade A / 0.85-0.94 Grade B / <0.85 待复核

版本管控

每个知识条目标注版本号与审核状态

AI 应用场景

医疗大模型知识注入

为LLM提供结构化医学知识底座的预训练与微调数据

临床决策支持系统

基于疾病-症状-药品知识图谱构建CDSS推理引擎

术语标准化转换

HIS/EMR 自定义编码到 ICD/SNOMED 标准编码的自动映射

智能体知识库构建

为医疗AI Agent提供可查询的结构化医学知识库

药物重定位研究

基于药品-疾病-靶点图谱发现新适应症

医学教育智能化

术语定义库与关系网络支撑自适应医学教学系统

商业价值

缩短知识工程周期

从零构建医学知识图谱通常需要12-18个月,使用本数据集可将周期缩短至1-3个月。

多标准互操作性

同时覆盖ICD-10/11、SNOMED CT三大标准,解决医院信息系统间的语义互操作难题。

合规可商用

所有知识条目经脱敏并持有授权,支持商业AI产品直接集成。

持续更新维护

随ICD/WHO编码版本迭代同步更新,年度至少两次大版本发布。

常见问题

医疗知识图谱数据集的核心价值是什么?

核心价值在于提供经过临床专家审核的500万+实体与2000万+关系三元组,涵盖ICD-10/11全量编码与SNOMED CT映射,可直接注入大模型训练流程,大幅降低医疗AI的知识工程建设成本。

如何保证知识条目的准确性?

所有知识条目由临床医学专家组审核,来源文献可追溯。每条关系标注置信度分数,置信度≥0.95的入Grade A级,0.85-0.94入Grade B级,低于0.85的标记为待复核。

是否支持自定义知识图谱Schema?

支持。数据集提供标准RDF/JSON-LD格式导出,兼容Neo4j/JanusGraph/ArangoDB等主流图数据库,可根据您的业务Schema进行定制化重映射。

获取医疗知识图谱完整目录

7大知识库 · 500万+实体 · 2000万+关系三元组 · ICD-10/11全量覆盖。联系数据专家获取详细Schema与商务报价。