数据集概览
药品结构化数据集是由长沙朗慧信息科技有限公司依托 DataAssetsAPI 平台构建的中国药品知识数据库。汇集 500 万+条来自 NMPA 药品注册数据库、中国药典、药品说明书备案与真实世界用药数据的结构化药品信息,覆盖药品全生命周期——从注册审批、生产流通到临床应用与药物警戒,支持药物研发 AI、临床合理用药决策与药物安全监测。
| 数据集名称 | 药品结构化数据集 |
| 数据总量 | 500 万+条 药品记录 |
| 药品类别 | 西药(化学药/生物制品)、中成药、民族药全覆盖 |
| ATC 分类 | 覆盖 ATC 5 级分类体系(解剖学-治疗学-药理学-化学-化学物质) |
| 来源数据 | NMPA 药品注册数据库、中国药典(ChP)、药品说明书备案信息、真实世界用药数据 |
| 处方类型 | 处方药(RX)、非处方药(OTC-甲类/乙类)、麻醉/精神药品管制类别全覆盖 |
| 数据类型 | 结构化 JSON + 药品说明书文本 + 临床试验索引 |
| 字段覆盖 | 15+ 核心维度,涵盖通用名/商品名/剂型/规格/ATC分类/适应症/用法用量/不良反应/相互作用/禁忌/药理分类/批准文号/生产企业/药品说明书文本/临床试验阶段 |
| 格式输出 | 结构化 JSON + CSV 导出 + API 接口 |
字段维度体系
数据集按 NMPA 注册分类与 ATC 编码体系组织,覆盖药品注册、临床与安全全链路。
| 维度大类 | 字段数 | 典型字段 | 价值层级 |
|---|---|---|---|
| 药品标识 | 8 | 药品通用名(INN/中文通用名)、商品名/品牌名、批准文号(国药准字)、注册分类(化药1-5类/生物制品/中药)、NMPA注册状态(批准/再注册/注销) | 基础标识 |
| ATC分类 | 6 | ATC编码1-5级、解剖学大类、治疗学亚类、药理学亚类、化学亚类、化学物质层名称 | 分类体系 |
| 剂型规格 | 8 | 剂型(片剂/胶囊/注射剂/口服液/软膏等)、规格(含量/浓度)、给药途径(口服/静脉/肌肉/外用等)、包装材料、贮藏条件、有效期 | 药学属性 |
| 适应症 | 6 | 适应症(NMPA批准)、超说明书适应症(文献支持)、适应症ICD-11编码、适用人群(成人/儿童/老年)、禁忌证、慎用情况 | 临床适应 |
| 用法用量 | 10 | 用法用量(成人常规/儿童/老年/肝肾功能不全调整)、给药频次、最大日剂量、疗程、服用时间(餐前/餐后/空腹)、给药速度(注射剂)、溶媒要求 | 用药指导 |
| 安全性 | 12 | 不良反应(常见/偶见/罕见)、不良反应发生率、严重不良反应(SAE)、药物相互作用(DDI)、DDI严重程度/机制、禁忌药物联用、特殊人群用药(妊娠/哺乳/儿童/老年)、药物过量处理 | 安全警戒 |
| 药理毒理 | 8 | 药理分类(NMPA/ATC)、作用机制(MoA)、靶点/受体、药代动力学参数(Tmax/Cmax/AUC/t1/2/蛋白结合率)、毒理研究摘要 | 药理基础 |
| 说明书文本 | 6 | 药品说明书全文文本、修订日期、说明书版本号、说明书页数、核心字段结构化抽取置信度、说明书OCR原文索引 | 全文资产 |
| 临床试验 | 8 | 临床试验登记号(NMPA/CDE)、试验分期(I/II/III/IV/BE)、试验状态、适应症、申办方、主要终点、入组例数、试验完成日期 | 研发证据 |
| 生产企业 | 6 | 生产企业名称、生产地址、GMP证书编号、企业类型(原研/仿制/进口)、上市许可持有人(MAH)、联系方式(脱敏) | 溯源信息 |
| 元数据 | 6 | 数据收录日期、最近更新日期、数据来源、质量评级、完整度评分、版本号 | 质量管理 |
脱敏 JSON 数据样例
以下为经脱敏处理的药品结构化 JSON 样例,核心字段完整保留。
{
"drug_id": "DRUG-2025-A8T3V2S6R1",
"generic_name": "阿托伐他汀钙片",
"generic_name_en": "Atorvastatin Calcium Tablets",
"brand_names": ["立普妥","Lipitor"],
"approval_number": "国药准字HXXXXXXXX",
"drug_category": "化学药品",
"registration_class": "化药4类(仿制药)",
"rx_type": "RX(处方药)",
"atc": {
"code": "C10AA05",
"level1": "C 心血管系统",
"level2": "C10 血脂调节剂",
"level3": "C10A 血脂调节剂,单方",
"level4": "C10AA HMG-CoA还原酶抑制剂",
"level5": "C10AA05 atorvastatin"
},
"dosage_form": "片剂",
"strength": "20mg",
"route": "口服",
"indications": {
"approved": ["原发性高胆固醇血症","混合型高脂血症","纯合子家族性高胆固醇血症"],
"icd_codes": ["5C80.00","5C80.2"]
},
"administration": {
"adult_usual": "10-20mg,每日1次",
"max_daily": "80mg",
"timing": "不受进餐影响,任意时间服用"
},
"adverse_effects": {
"common": ["肌痛","关节痛","腹泻","消化不良","鼻咽炎","ALT升高"],
"serious": ["横纹肌溶解症","肝损伤","肌病"]
},
"interactions": [
{"drug":"环孢素","severity":"禁忌","mechanism":"OATP1B1转运体抑制"},
{"drug":"克拉霉素","severity":"慎用(≤20mg)","mechanism":"CYP3A4强效抑制"}
],
"contraindications": ["活动性肝病","转氨酶持续升高超过正常上限3倍","妊娠及哺乳期"],
"pharmacology": {
"class": "HMG-CoA还原酶抑制剂",
"mechanism": "竞争性抑制HMG-CoA还原酶,减少内源性胆固醇合成",
"pk": {"tmax_h":1.5,"half_life_h":14,"protein_binding":"≥98%"}
},
"manufacturer": {"name":"辉瑞制药有限公司","mah":"辉瑞公司","gmp":"国药准字GMPXXXXXX"},
"package_insert_update": "2024-06-15",
"version": "2025Q2",
"quality_score": 99.2
}AI 应用场景
合理用药 AI 决策
500万+药品适应症+用法用量+相互作用数据训练合理用药AI模型,实现处方审核、超说明书用药识别与个体化给药方案推荐。
药物警戒(PV)信号挖掘
不良反应+DDI+SAE数据训练药物安全性信号挖掘模型,支持上市后药物警戒、不良事件因果关系评估与再评价。
药物研发情报
ATC分类+临床试验+批准文号数据训练药物研发竞争情报模型,支持管线分析、靶点追踪与市场格局研判。
药品说明书智能结构化
药品说明书全文文本+核心字段抽取训练NLP模型,实现药品说明书的自动结构化与关键信息提取。
医保谈判辅助决策
批准文号+适应症+临床试验+ATC分类数据训练医保谈判决策支持模型,辅助药品价值评估与定价。
抗生素管理(AMS)
抗生素+抗菌谱+微生物学敏感性+DDI数据训练抗菌药物管理模型,支持经验性用药推荐与耐药监测。
常见问题
数据覆盖范围有多大?
500 万+条药品记录覆盖中国 NMPA 注册的全部化学药品、生物制品和中成药。涵盖处方药(RX)与非处方药(OTC),包含麻醉、精神、医疗用毒性等特殊管制类别。
ATC 分类是否完整?
是。采用 WHO ATC/DDD 分类系统,实现 ATC 5 级(解剖学-治疗学-药理学-化学-化学物质层)全覆盖。中成药同时采用 NMPA 中药功效分类作为补充。
药品说明书文本如何处理?
药品说明书原文以 PDF/图片形式完整保留索引,同时通过 NLP 管道完成核心字段(适应症、用法用量、不良反应、禁忌等)的结构化抽取,抽取置信度标注在每条记录中。
数据更新频率如何?
基础数据(NMPA 注册信息)月度更新;药品说明书与临床试验信息季度更新;不良反应与安全性数据按年度批次更新。版本号精确到季度(如 2025Q2)。
如何获取数据或商务咨询?
本数据集由长沙朗慧信息科技有限公司旗下 DataAssetsAPI 平台运营。支持按 ATC 分类、药品类别、适应症领域定制化交付。请联系我们获取详细数据目录和报价方案。
需要定制化的数据方案?
长沙朗慧信息科技有限公司 DataAssetsAPI 平台,致力于为 AI 企业、科研机构提供高质量、合规的数据资产。支持按维度、质量等级、数量规模灵活组合。
数据样本预览 · 定制化数据方案 · 专业技术支持