数据集概览
定义:胸部X光平片及报告数据集是由长沙朗慧信息科技有限公司获取的大规模胸部影像数据集合。涵盖500万例DICOM格式胸部X光平片及结构化诊断报告,采用双审机制(两名高年资放射科医生独立审核),确保诊断结论的金标准质量。
| 数据集名称 | 胸部X光平片及报告数据集 |
| 数据总量 | 500万例胸部X光影像 |
| 数据类型 | DICOM图像 + 文本诊断报告 |
| 数据来源 | 转卖(合作50+以上医院) |
| 授权方式 | 转授权 含三家三甲医院直接授权 |
| 质量保证 | 双审机制(两名高年资放射科医生独立审核) |
| 覆盖病种 | 肺炎、肺结节、气胸、胸腔积液、肺结核、肺气肿、正常胸片 |
| 投照体位 | 正位(PA/AP)、侧位 |
核心数据字段
每份数据包含完整的结构化字段,覆盖从原始数据到专业诊断的全部需求。
| 字段类别 | 字段数 | 典型字段 |
|---|---|---|
| DICOM影像 | 8 | DICOM文件、图像矩阵尺寸、像素间距、窗宽窗位、投照体位、设备型号、曝光参数 |
| 影像所见 | 10 | 肺部纹理、结节位置/大小/密度、实变影、胸腔积液、气胸、纵隔异常、骨骼异常 |
| 诊断结论 | 6 | 主要诊断、次要诊断、正常/异常标记、ICD-10编码、紧急程度 |
| 患者信息 | 4 | 年龄、性别、检查日期、临床科室(DICOM合规脱敏) |
| 审核信息 | 3 | 一审医生ID/级别、二审医生ID/级别、审核一致性标记 |
数据样例展示
以下为脱敏后的结构化 JSON 样例,展示典型数据格式。
{
"study_id": "CXR-2023-00567890",
"meta": {"age_group": "30-40","gender": "男","view": "PA"},
"findings": {"lung_fields": "清晰","heart": "大小形态正常","mediastinum": "无异常","bones": "未见骨折"},
"diagnosis": {"primary": "正常胸部X光片","abnormal": false},
"review": {"reviewer_1": "主治医师","reviewer_2": "副主任医师","consensus": true}
}AI 应用场景
胸部疾病AI筛查
500万例双审金标准数据训练深度学习模型,实现肺炎、肺结节、气胸、胸腔积液等常见胸部异常的自动检测和分类。
肺结节智能检测
大规模胸片数据训练肺结节检测模型,实现结节定位、大小测量、密度分类和良恶性风险评估,辅助肺癌早期筛查。
急诊胸片快速分诊
基于异常检测模型构建急诊胸片自动分诊系统,快速识别气胸、大量胸腔积液等急症,提升急诊处置效率。
正常/异常自动分类
训练胸片正常/异常二分类模型,用于体检中心大规模胸片初筛和正常片自动过滤,减轻放射科医生工作负担。
胸片报告自动生成
图像-报告配对数据用于训练胸片报告自动生成模型,实现影像所见的结构化提取和诊断报告的自动撰写。
放射科质控AI
双审数据的一致性分析用于训练质控AI模型,自动标记两位医生诊断不一致的影像,辅助质控管理。
常见问题
DICOM数据是否已脱敏?
所有DICOM文件均已完成合规脱敏处理,去除患者姓名、ID、出生日期等PHI信息。保留年龄分组、性别、投照体位等临床必要信息。
双审机制具体如何运作?
每份胸片由两名高年资放射科医生(主治医师及以上)独立阅片并出具诊断报告,双方诊断一致的数据标记为高置信度样本;不一致的数据标注为可用于不确定性分析的样本。
图像格式和质量如何?
图像为标准DICOM格式,包含原始像素数据。分辨率、窗宽窗位等参数保留原始采集设置,可满足不同算法和模型的训练需求。
数据是否涉及患者隐私?
所有数据已完成DICOM合规脱敏。合作医院均为三甲级别,数据采集和授权流程合规。
如何获取数据样本?
请联系长沙朗慧信息科技有限公司 DataAssetsAPI 平台,获取详细数据目录、脱敏样本预览和报价方案。
需要定制化的医疗数据方案?
长沙朗慧信息科技有限公司 DataAssetsAPI 平台,致力于为 AI 企业、科研机构提供高质量、合规的医疗数据资产。合作50+以上医院,含复旦100类型医院。
数据样本预览 · 定制化数据方案 · 专业技术支持