药品结构化数据集

500 万+条药品数据 | 通用名 · ATC 分类 · 适应症 · 不良反应 · 说明书文本 · 临床试验

500万+
药品记录
15+
核心维度
5级全覆盖
ATC分类
NMPA/药典/RWD
来源
月度
更新

数据集概览

药品结构化数据集是由长沙朗慧信息科技有限公司依托 DataAssetsAPI 平台构建的中国药品知识数据库。汇集 500 万+条来自 NMPA 药品注册数据库、中国药典、药品说明书备案与真实世界用药数据的结构化药品信息,覆盖药品全生命周期——从注册审批、生产流通到临床应用与药物警戒,支持药物研发 AI、临床合理用药决策与药物安全监测。

数据集名称药品结构化数据集
数据总量500 万+条 药品记录
药品类别西药(化学药/生物制品)、中成药、民族药全覆盖
ATC 分类覆盖 ATC 5 级分类体系(解剖学-治疗学-药理学-化学-化学物质)
来源数据NMPA 药品注册数据库、中国药典(ChP)、药品说明书备案信息、真实世界用药数据
处方类型处方药(RX)、非处方药(OTC-甲类/乙类)、麻醉/精神药品管制类别全覆盖
数据类型结构化 JSON + 药品说明书文本 + 临床试验索引
字段覆盖15+ 核心维度,涵盖通用名/商品名/剂型/规格/ATC分类/适应症/用法用量/不良反应/相互作用/禁忌/药理分类/批准文号/生产企业/药品说明书文本/临床试验阶段
格式输出结构化 JSON + CSV 导出 + API 接口

字段维度体系

数据集按 NMPA 注册分类与 ATC 编码体系组织,覆盖药品注册、临床与安全全链路。

维度大类字段数典型字段价值层级
药品标识8药品通用名(INN/中文通用名)、商品名/品牌名、批准文号(国药准字)、注册分类(化药1-5类/生物制品/中药)、NMPA注册状态(批准/再注册/注销)基础标识
ATC分类6ATC编码1-5级、解剖学大类、治疗学亚类、药理学亚类、化学亚类、化学物质层名称分类体系
剂型规格8剂型(片剂/胶囊/注射剂/口服液/软膏等)、规格(含量/浓度)、给药途径(口服/静脉/肌肉/外用等)、包装材料、贮藏条件、有效期药学属性
适应症6适应症(NMPA批准)、超说明书适应症(文献支持)、适应症ICD-11编码、适用人群(成人/儿童/老年)、禁忌证、慎用情况临床适应
用法用量10用法用量(成人常规/儿童/老年/肝肾功能不全调整)、给药频次、最大日剂量、疗程、服用时间(餐前/餐后/空腹)、给药速度(注射剂)、溶媒要求用药指导
安全性12不良反应(常见/偶见/罕见)、不良反应发生率、严重不良反应(SAE)、药物相互作用(DDI)、DDI严重程度/机制、禁忌药物联用、特殊人群用药(妊娠/哺乳/儿童/老年)、药物过量处理安全警戒
药理毒理8药理分类(NMPA/ATC)、作用机制(MoA)、靶点/受体、药代动力学参数(Tmax/Cmax/AUC/t1/2/蛋白结合率)、毒理研究摘要药理基础
说明书文本6药品说明书全文文本、修订日期、说明书版本号、说明书页数、核心字段结构化抽取置信度、说明书OCR原文索引全文资产
临床试验8临床试验登记号(NMPA/CDE)、试验分期(I/II/III/IV/BE)、试验状态、适应症、申办方、主要终点、入组例数、试验完成日期研发证据
生产企业6生产企业名称、生产地址、GMP证书编号、企业类型(原研/仿制/进口)、上市许可持有人(MAH)、联系方式(脱敏)溯源信息
元数据6数据收录日期、最近更新日期、数据来源、质量评级、完整度评分、版本号质量管理

脱敏 JSON 数据样例

以下为经脱敏处理的药品结构化 JSON 样例,核心字段完整保留。

{
  "drug_id": "DRUG-2025-A8T3V2S6R1",
  "generic_name": "阿托伐他汀钙片",
  "generic_name_en": "Atorvastatin Calcium Tablets",
  "brand_names": ["立普妥","Lipitor"],
  "approval_number": "国药准字HXXXXXXXX",
  "drug_category": "化学药品",
  "registration_class": "化药4类(仿制药)",
  "rx_type": "RX(处方药)",
  "atc": {
    "code": "C10AA05",
    "level1": "C 心血管系统",
    "level2": "C10 血脂调节剂",
    "level3": "C10A 血脂调节剂,单方",
    "level4": "C10AA HMG-CoA还原酶抑制剂",
    "level5": "C10AA05 atorvastatin"
  },
  "dosage_form": "片剂",
  "strength": "20mg",
  "route": "口服",
  "indications": {
    "approved": ["原发性高胆固醇血症","混合型高脂血症","纯合子家族性高胆固醇血症"],
    "icd_codes": ["5C80.00","5C80.2"]
  },
  "administration": {
    "adult_usual": "10-20mg,每日1次",
    "max_daily": "80mg",
    "timing": "不受进餐影响,任意时间服用"
  },
  "adverse_effects": {
    "common": ["肌痛","关节痛","腹泻","消化不良","鼻咽炎","ALT升高"],
    "serious": ["横纹肌溶解症","肝损伤","肌病"]
  },
  "interactions": [
    {"drug":"环孢素","severity":"禁忌","mechanism":"OATP1B1转运体抑制"},
    {"drug":"克拉霉素","severity":"慎用(≤20mg)","mechanism":"CYP3A4强效抑制"}
  ],
  "contraindications": ["活动性肝病","转氨酶持续升高超过正常上限3倍","妊娠及哺乳期"],
  "pharmacology": {
    "class": "HMG-CoA还原酶抑制剂",
    "mechanism": "竞争性抑制HMG-CoA还原酶,减少内源性胆固醇合成",
    "pk": {"tmax_h":1.5,"half_life_h":14,"protein_binding":"≥98%"}
  },
  "manufacturer": {"name":"辉瑞制药有限公司","mah":"辉瑞公司","gmp":"国药准字GMPXXXXXX"},
  "package_insert_update": "2024-06-15",
  "version": "2025Q2",
  "quality_score": 99.2
}

AI 应用场景

合理用药 AI 决策

500万+药品适应症+用法用量+相互作用数据训练合理用药AI模型,实现处方审核、超说明书用药识别与个体化给药方案推荐。

药物警戒(PV)信号挖掘

不良反应+DDI+SAE数据训练药物安全性信号挖掘模型,支持上市后药物警戒、不良事件因果关系评估与再评价。

药物研发情报

ATC分类+临床试验+批准文号数据训练药物研发竞争情报模型,支持管线分析、靶点追踪与市场格局研判。

药品说明书智能结构化

药品说明书全文文本+核心字段抽取训练NLP模型,实现药品说明书的自动结构化与关键信息提取。

医保谈判辅助决策

批准文号+适应症+临床试验+ATC分类数据训练医保谈判决策支持模型,辅助药品价值评估与定价。

抗生素管理(AMS)

抗生素+抗菌谱+微生物学敏感性+DDI数据训练抗菌药物管理模型,支持经验性用药推荐与耐药监测。

常见问题

数据覆盖范围有多大?
500 万+条药品记录覆盖中国 NMPA 注册的全部化学药品、生物制品和中成药。涵盖处方药(RX)与非处方药(OTC),包含麻醉、精神、医疗用毒性等特殊管制类别。
ATC 分类是否完整?
是。采用 WHO ATC/DDD 分类系统,实现 ATC 5 级(解剖学-治疗学-药理学-化学-化学物质层)全覆盖。中成药同时采用 NMPA 中药功效分类作为补充。
药品说明书文本如何处理?
药品说明书原文以 PDF/图片形式完整保留索引,同时通过 NLP 管道完成核心字段(适应症、用法用量、不良反应、禁忌等)的结构化抽取,抽取置信度标注在每条记录中。
数据更新频率如何?
基础数据(NMPA 注册信息)月度更新;药品说明书与临床试验信息季度更新;不良反应与安全性数据按年度批次更新。版本号精确到季度(如 2025Q2)。
如何获取数据或商务咨询?
本数据集由长沙朗慧信息科技有限公司旗下 DataAssetsAPI 平台运营。支持按 ATC 分类、药品类别、适应症领域定制化交付。请联系我们获取详细数据目录和报价方案。

需要定制化的数据方案?

长沙朗慧信息科技有限公司 DataAssetsAPI 平台,致力于为 AI 企业、科研机构提供高质量、合规的数据资产。支持按维度、质量等级、数量规模灵活组合。

数据样本预览 · 定制化数据方案 · 专业技术支持