数据集概览
国际医疗语料数据集是由长沙朗慧信息科技有限公司依托 DataAssetsAPI 平台构建的全球多语种医疗语料知识库。汇集 500 万+条来自世界卫生组织(WHO)、FDA/EMA/NMPA 药品说明书、PubMed 医学论文、ICD-11/SNOMED-CT 术语标准等权威来源的多语种医疗文本,经过专业医学译员校审与术语标注,支持医疗多语种 NLP、医学机器翻译与跨语言知识图谱构建。
| 数据集名称 | 国际医疗语料数据集 |
| 数据总量 | 500 万+条 多语种语料 |
| 覆盖语种 | 中文、英文、日文、德文、法文、西班牙文、俄文、韩文、阿拉伯文、葡萄牙文 |
| 语料类型 | 临床指南、医学论文摘要、药物说明书、医疗法规、WHO/ICD/SNOMED-CT术语、临床试验方案、医学教育材料、医疗器械标签 |
| 来源机构 | WHO、FDA、EMA、NMPA、PubMed、Cochrane Library、UpToDate、各国药典 |
| 数据类型 | 双语/多语平行语料 + 单语专用语料 |
| 术语标注 | 100 万+条医学术语对齐标注(ICD-11/SNOMED-CT/MeSH 映射) |
| 翻译质量 | S 级(专业医学译员双审)/ A 级(译员+AI 辅助审校)/ B 级(NMT+译员后编辑)/ C 级(纯 NMT 初译) |
| 格式输出 | 结构化 JSON + TMX 翻译记忆 + CSV + API 接口 |
字段维度体系
数据集按语种+专业领域+语料类型三维组织,支持灵活检索与定制化交付。
| 维度大类 | 字段数 | 典型字段 | 价值层级 |
|---|---|---|---|
| 语种标识 | 6 | 语种代码(ISO 639-1)、语种名称、语言家族、文字系统、书写方向、是否官方法规语言 | 基础属性 |
| 语料类型 | 8 | 语料类型(临床指南/论文摘要/说明书/法规/术语/试验方案/教材/标签)、内容体裁、文本长度、段落数 | 分类索引 |
| 来源元数据 | 8 | 来源机构、原始URL、发布日期、版本号、版权声明、允许用途条款、采集方式、入库日期 | 溯源合规 |
| 翻译对齐 | 8 | 原文语种、译文语种、原文标题/片段、译文内容、翻译方向(译入/译出)、翻译记忆库ID、平行语料对齐方式(句对齐/段落对齐/篇章对齐) | 翻译核心 |
| 术语标注 | 10 | 医学术语标注(ICD-11编码/SNOMED-CT概念ID/MeSH词表/RxNorm编码/LOINC编码)、术语原文、术语译文、标注者资质、标注置信度、审校轮次 | 术语知识 |
| 专业领域 | 8 | 一级领域(临床医学/药学/公共卫生/护理学/口腔医学/中医药/医疗器械)、二级领域(内科/外科/妇产科/儿科等)、疾病大类(ICD-11章节)、文献类型 | 领域分类 |
| 质量评级 | 8 | 翻译质量评级(S/A/B/C)、审校轮次、BLEU/METEOR/COMET自动评分、一致性评分、完整度评分、审校者ID、审校日期、质量备注 | 质量管控 |
| 元数据 | 6 | 数据收录日期、最近更新日期、数据来源、脱敏方法、质量评级、完整度评分 | 质量管理 |
脱敏 JSON 数据样例
以下为经脱敏处理的多语种医疗语料 JSON 样例,含术语标注与翻译质量信息。
{
"corpus_id": "INTL-2025-WHO-GL-0000423",
"source_lang": "en",
"target_lang": "zh",
"corpus_type": "clinical_guideline",
"specialty": "公共卫生 > 传染病 > COVID-19",
"source_institution": "World Health Organization (WHO)",
"source_url": "https://www.who.int/publications/XXXXX",
"pub_date": "2024-01-15",
"version": "3.0",
"original_title": "Clinical management of COVID-19: living guideline",
"original_snippet": "Strong recommendation for the use of nirmatrelvir-ritonavir in patients with non-severe COVID-19 at highest risk of hospitalization.",
"translated_snippet": "强烈建议对住院风险最高的非重症COVID-19患者使用奈玛特韦/利托那韦。",
"alignment_type": "sentence",
"terminology": [
{"term_en":"nirmatrelvir-ritonavir","term_zh":"奈玛特韦/利托那韦","icd11_code":"XM79A6","atc":"J05AE30","meSH":"D000090482"},
{"term_en":"non-severe COVID-19","term_zh":"非重症COVID-19","icd11_code":"RA02.0"},
{"term_en":"hospitalization","term_zh":"住院","snomed_ct":"32485007"}
],
"quality": {"grade":"S","review_rounds":2,"bleu":38.2,"comet":0.912,"reviewer":"MDS-2023-BJ"},
"version": "2025Q1",
"quality_score": 99.0
}AI 应用场景
医学机器翻译模型训练
500万+条多语种平行语料+术语对齐标注,直接支持医疗领域 NMT 模型微调,覆盖 10 种语言 90 个语言对方向。
多语种医疗 NLP
临床指南+论文+说明书多体裁语料训练跨语言医疗 NER、关系抽取、文本分类等 NLP 任务模型。
国际医疗知识图谱
ICD-11/SNOMED-CT/MeSH/RxNorm 多术语体系对齐语料支持跨语言医疗知识图谱构建与实体链接。
药物说明书国际化
FDA/EMA/NMPA 多国药品说明书语料训练药物信息跨语言抽取与结构化模型,支持说明书的自动翻译与注册文档生成。
医疗法规合规 AI
WHO/EMA/FDA 国际医疗法规语料训练法规合规性检查模型,支持跨国临床试验方案的法规适配分析。
医学教育多语种内容生成
医学教育语料+教材语料训练多语种医学教育内容生成模型,支持国际医学教育材料的自动翻译与本地化。
常见问题
数据来源的合规性如何?
所有语料来源于已公开的权威机构文档(WHO、FDA、EMA、PubMed等),不涉及受版权保护的专有内容。翻译译文由专业医学译员完成,版权归属朗慧科技。
术语标注使用什么标准?
采用国际标准医学术语体系:ICD-11(疾病分类)、SNOMED-CT(临床术语)、MeSH(医学主题词)、RxNorm(药品)、LOINC(检验检查)和 ATC(药品分类)。标注由具有医学背景的术语标注员完成。
翻译质量如何保证?
采用四级质量体系:S 级(专业医学译员双审)、A 级(译员+AI 辅助审校)、B 级(NMT+译员后编辑)、C 级(纯 NMT 初译)。所有 S 级和 A 级语料均附审校者资质信息。
支持哪些语言对?
覆盖 10 种语言,支持 90 个双向语言对。核心语言为中英、中日、中德、英日、英法、英西,其他语言对可按需定制。
如何获取数据或商务咨询?
本数据集由长沙朗慧信息科技有限公司旗下 DataAssetsAPI 平台运营。支持按语种、语料类型、专业领域、质量等级定制化交付。请联系我们获取详细数据目录和报价方案。
需要定制化的数据方案?
长沙朗慧信息科技有限公司 DataAssetsAPI 平台,致力于为 AI 企业、科研机构提供高质量、合规的数据资产。支持按维度、质量等级、数量规模灵活组合。
数据样本预览 · 定制化数据方案 · 专业技术支持