国际医疗语料数据集

500 万+条多语种医疗语料 | 中/英/日/德/法/西/俄/韩/阿/葡 · 临床指南 · 医学术语 · 翻译质量评级

500万+
语料总量
10
覆盖语种
8
来源类目
100万+
术语标注
S/A/B/C
质量层级

数据集概览

国际医疗语料数据集是由长沙朗慧信息科技有限公司依托 DataAssetsAPI 平台构建的全球多语种医疗语料知识库。汇集 500 万+条来自世界卫生组织(WHO)、FDA/EMA/NMPA 药品说明书、PubMed 医学论文、ICD-11/SNOMED-CT 术语标准等权威来源的多语种医疗文本,经过专业医学译员校审与术语标注,支持医疗多语种 NLP、医学机器翻译与跨语言知识图谱构建。

数据集名称国际医疗语料数据集
数据总量500 万+条 多语种语料
覆盖语种中文、英文、日文、德文、法文、西班牙文、俄文、韩文、阿拉伯文、葡萄牙文
语料类型临床指南、医学论文摘要、药物说明书、医疗法规、WHO/ICD/SNOMED-CT术语、临床试验方案、医学教育材料、医疗器械标签
来源机构WHO、FDA、EMA、NMPA、PubMed、Cochrane Library、UpToDate、各国药典
数据类型双语/多语平行语料 + 单语专用语料
术语标注100 万+条医学术语对齐标注(ICD-11/SNOMED-CT/MeSH 映射)
翻译质量S 级(专业医学译员双审)/ A 级(译员+AI 辅助审校)/ B 级(NMT+译员后编辑)/ C 级(纯 NMT 初译)
格式输出结构化 JSON + TMX 翻译记忆 + CSV + API 接口

字段维度体系

数据集按语种+专业领域+语料类型三维组织,支持灵活检索与定制化交付。

维度大类字段数典型字段价值层级
语种标识6语种代码(ISO 639-1)、语种名称、语言家族、文字系统、书写方向、是否官方法规语言基础属性
语料类型8语料类型(临床指南/论文摘要/说明书/法规/术语/试验方案/教材/标签)、内容体裁、文本长度、段落数分类索引
来源元数据8来源机构、原始URL、发布日期、版本号、版权声明、允许用途条款、采集方式、入库日期溯源合规
翻译对齐8原文语种、译文语种、原文标题/片段、译文内容、翻译方向(译入/译出)、翻译记忆库ID、平行语料对齐方式(句对齐/段落对齐/篇章对齐)翻译核心
术语标注10医学术语标注(ICD-11编码/SNOMED-CT概念ID/MeSH词表/RxNorm编码/LOINC编码)、术语原文、术语译文、标注者资质、标注置信度、审校轮次术语知识
专业领域8一级领域(临床医学/药学/公共卫生/护理学/口腔医学/中医药/医疗器械)、二级领域(内科/外科/妇产科/儿科等)、疾病大类(ICD-11章节)、文献类型领域分类
质量评级8翻译质量评级(S/A/B/C)、审校轮次、BLEU/METEOR/COMET自动评分、一致性评分、完整度评分、审校者ID、审校日期、质量备注质量管控
元数据6数据收录日期、最近更新日期、数据来源、脱敏方法、质量评级、完整度评分质量管理

脱敏 JSON 数据样例

以下为经脱敏处理的多语种医疗语料 JSON 样例,含术语标注与翻译质量信息。

{
  "corpus_id": "INTL-2025-WHO-GL-0000423",
  "source_lang": "en",
  "target_lang": "zh",
  "corpus_type": "clinical_guideline",
  "specialty": "公共卫生 > 传染病 > COVID-19",
  "source_institution": "World Health Organization (WHO)",
  "source_url": "https://www.who.int/publications/XXXXX",
  "pub_date": "2024-01-15",
  "version": "3.0",
  "original_title": "Clinical management of COVID-19: living guideline",
  "original_snippet": "Strong recommendation for the use of nirmatrelvir-ritonavir in patients with non-severe COVID-19 at highest risk of hospitalization.",
  "translated_snippet": "强烈建议对住院风险最高的非重症COVID-19患者使用奈玛特韦/利托那韦。",
  "alignment_type": "sentence",
  "terminology": [
    {"term_en":"nirmatrelvir-ritonavir","term_zh":"奈玛特韦/利托那韦","icd11_code":"XM79A6","atc":"J05AE30","meSH":"D000090482"},
    {"term_en":"non-severe COVID-19","term_zh":"非重症COVID-19","icd11_code":"RA02.0"},
    {"term_en":"hospitalization","term_zh":"住院","snomed_ct":"32485007"}
  ],
  "quality": {"grade":"S","review_rounds":2,"bleu":38.2,"comet":0.912,"reviewer":"MDS-2023-BJ"},
  "version": "2025Q1",
  "quality_score": 99.0
}

AI 应用场景

医学机器翻译模型训练

500万+条多语种平行语料+术语对齐标注,直接支持医疗领域 NMT 模型微调,覆盖 10 种语言 90 个语言对方向。

多语种医疗 NLP

临床指南+论文+说明书多体裁语料训练跨语言医疗 NER、关系抽取、文本分类等 NLP 任务模型。

国际医疗知识图谱

ICD-11/SNOMED-CT/MeSH/RxNorm 多术语体系对齐语料支持跨语言医疗知识图谱构建与实体链接。

药物说明书国际化

FDA/EMA/NMPA 多国药品说明书语料训练药物信息跨语言抽取与结构化模型,支持说明书的自动翻译与注册文档生成。

医疗法规合规 AI

WHO/EMA/FDA 国际医疗法规语料训练法规合规性检查模型,支持跨国临床试验方案的法规适配分析。

医学教育多语种内容生成

医学教育语料+教材语料训练多语种医学教育内容生成模型,支持国际医学教育材料的自动翻译与本地化。

常见问题

数据来源的合规性如何?
所有语料来源于已公开的权威机构文档(WHO、FDA、EMA、PubMed等),不涉及受版权保护的专有内容。翻译译文由专业医学译员完成,版权归属朗慧科技。
术语标注使用什么标准?
采用国际标准医学术语体系:ICD-11(疾病分类)、SNOMED-CT(临床术语)、MeSH(医学主题词)、RxNorm(药品)、LOINC(检验检查)和 ATC(药品分类)。标注由具有医学背景的术语标注员完成。
翻译质量如何保证?
采用四级质量体系:S 级(专业医学译员双审)、A 级(译员+AI 辅助审校)、B 级(NMT+译员后编辑)、C 级(纯 NMT 初译)。所有 S 级和 A 级语料均附审校者资质信息。
支持哪些语言对?
覆盖 10 种语言,支持 90 个双向语言对。核心语言为中英、中日、中德、英日、英法、英西,其他语言对可按需定制。
如何获取数据或商务咨询?
本数据集由长沙朗慧信息科技有限公司旗下 DataAssetsAPI 平台运营。支持按语种、语料类型、专业领域、质量等级定制化交付。请联系我们获取详细数据目录和报价方案。

需要定制化的数据方案?

长沙朗慧信息科技有限公司 DataAssetsAPI 平台,致力于为 AI 企业、科研机构提供高质量、合规的数据资产。支持按维度、质量等级、数量规模灵活组合。

数据样本预览 · 定制化数据方案 · 专业技术支持