数据集概览
定义:带授权医学杂志数据集是由长沙朗慧信息科技有限公司通过合规转授权渠道获取的高质量医学杂志内容集合。涵盖7万例图文并茂的医学文献、临床病例报告、医学影像配文、诊疗指南等,附带完整转授权文件,可直接用于商业AI训练场景。
| 数据集名称 | 带授权医学杂志图文数据集 |
| 数据总量 | 7万例医学杂志文章 |
| 数据类型 | 图片(医学影像/图表)+ 文本(全文内容) |
| 数据来源 | 转卖(医学杂志出版方授权) |
| 授权方式 | 转授权 附带完整授权文件 |
| 交付周期 | 1-2个月 |
| 涵盖科室 | 内科、外科、妇产科、儿科、骨科、神经科、肿瘤科、影像科等全学科 |
| 内容类型 | 临床病例报告、诊疗指南、医学综述、影像解读、手术图解、药物说明 |
| 语言 | 中文为主,含部分英文双语对照 |
核心数据字段
每篇文章包含完整的结构化元数据与正文内容,覆盖从文献检索到深度学习训练的全场景需求。
| 字段类别 | 字段数 | 典型字段 |
|---|---|---|
| 文献元数据 | 12 | 文章标题、期刊名称、出版年份、卷期号、作者、作者单位、DOI、关键词 |
| 科室分类 | 8 | 一级科室、二级专科、疾病分类(ICD编码)、文章类型(论著/综述/病例报告) |
| 正文内容 | 6 | 摘要、引言、方法、结果、讨论、结论(完整段落文本) |
| 图片数据 | 10 | 影像图片、病理切片图、手术示意图、检查报告截图、图表、图片标题、图片描述文本 |
| 参考文献 | 5 | 引用编号、引用文献标题、引用来源、引用年份、引用DOI |
| 授权信息 | 4 | 版权方、授权类型、授权范围、授权有效期 |
数据样例展示
以下为脱敏后的结构化 JSON 样例,展示医学杂志文章的典型数据格式。
{
"article_id": "MED-J-2023-004512",
"meta": {
"title": "基于深度学习的胸部X光片肺结节辅助检测临床应用研究",
"journal": "中华放射学杂志",
"year": 2023,
"volume": 57,
"issue": 8,
"doi": "10.3760/cma.j.cn112149-20230215-00123",
"authors": ["张某某", "李某某", "王某某"],
"affiliations": ["某某医科大学附属第一医院放射科"],
"keywords": ["肺结节", "深度学习", "胸部X光", "计算机辅助检测"]
},
"classification": {
"department_l1": "影像科",
"department_l2": "胸部影像",
"disease_code": "R91.1",
"article_type": "论著"
},
"content": {
"abstract": "目的:评估基于深度学习的计算机辅助检测系统在胸部X光片肺结节检测中的临床应用价值。方法:回顾性收集2021年1月至2022年12月间在本院行胸部X光检查的5,280例患者资料...",
"methods": "采用ResNet-50架构训练肺结节检测模型,训练集3,000例,验证集1,000例,测试集1,280例。以两名高年资放射科医生双盲阅片结果为金标准。",
"results": "模型在测试集上的AUC达到0.92,灵敏度为87.3%,特异度为91.5%。对于直径>5mm的结节,检出率达到94.2%。",
"conclusion": "基于深度学习的CAD系统在胸部X光片肺结节检测中具有较高的临床应用价值,可作为放射科医生的辅助工具。"
},
"images": [
{
"img_id": "FIG-001",
"type": "X光影像",
"caption": "图1 右肺上叶直径8mm磨玻璃结节(箭头所示)",
"format": "DICOM截图"
}
],
"license": {
"copyright_holder": "中华医学会",
"license_type": "转授权-商业AI训练",
"valid_until": "2028-12-31"
}
}AI 应用场景
医学知识库构建
7万例结构化医学文献为医疗大模型注入权威知识,支持医学知识图谱、临床决策知识库的构建与更新。
医疗大模型SFT训练
高质量图文配对数据用于GPT/LLaMA/Qwen等基座模型在医疗领域的监督微调(SFT),提升医学专业能力。
医学多模态模型训练
影像图片与文字报告配对数据,支持视觉-语言多模态医学AI模型训练,实现影像自动判读与报告生成。
临床辅助决策(CDSS)
基于诊疗指南和病例报告训练CDSS模型,为临床医生提供基于循证医学的辅助诊断和治疗建议。
医学文献检索与分析
结构化元数据支持智能文献检索、文献摘要自动生成、研究趋势分析等医学信息学应用。
医学教育AI
丰富的病例和影像资料可用于医学教育AI系统训练,辅助医学生临床思维培养和病例分析能力提升。
常见问题
数据的授权方式是怎样的?可以用于商业AI训练吗?
本数据集通过转授权方式获取,附带完整的授权文件。授权范围明确覆盖商业AI模型训练场景,您可在授权范围内合法使用数据集进行模型训练、微调和评测。朗慧科技作为转授权方,确保授权链路的完整性与合规性。
数据集包含哪些医学领域的内容?
覆盖内科、外科、妇产科、儿科、骨科、神经科、肿瘤科、影像科、病理科、急诊科等主要临床科室,包含论著、综述、病例报告、诊疗指南、影像解读等多种文章类型,学科覆盖面广。
图片质量如何?是否包含原始医学影像?
图片为医学杂志出版级质量,清晰度高。包含CT、MRI、X光、病理切片、超声等多种类型的医学影像图片,以及手术示意图、流程图等。每张图片均附带专业中文描述文本,形成图文配对训练数据。
数据是否涉及患者隐私?
本数据集为公开发表的医学杂志内容,原始出版时已完成患者隐私脱敏处理(患者姓名、住院号等信息已去除)。朗慧在数据加工环节进行二次核查,确保无个人身份信息残留。
如何获取数据或商务咨询?
本数据集由长沙朗慧信息科技有限公司旗下 DataAssetsAPI 平台运营。支持标准数据集和按需定制两种模式。请联系我们获取详细数据目录、样本预览和报价方案。
需要定制化的医学文献数据方案?
长沙朗慧信息科技有限公司 DataAssetsAPI 平台,致力于为 AI 企业、科研机构提供高质量、合规的医疗数据资产。支持按科室、按文章类型、按数量规模灵活组合。
数据样本预览 · 定制化数据方案 · 专业技术支持