数据集概览
大学以上高质量理科题目是由长沙朗慧信息科技有限公司提供的高质量数据集。涵盖1000万例大学及以上难度的高质量理科题目,覆盖数学、物理、化学、生物、计算机科学等主要理科学科,文本和带图片题目兼具,可用于大模型理科能力训练、智能教育辅导和AI解题系统。
| 数据集名称 | 大学以上高质量理科题目数据集 |
| 数据总量 | 1000万例理科题目 |
| 数据类型 | 文本 + 图片(带图片题目) |
| 数据来源 | 自有采集与整理 |
| 授权方式 | 自有授权 |
| 难度等级 | 大学及以上(含研究生水平) |
| 交付周期 | 1-2个月(每周30万起) |
核心数据字段
每份数据包含完整的结构化字段,覆盖从元数据到核心内容的全方位信息。
| 字段类别 | 字段数 | 典型字段 |
|---|---|---|
| 题目元数据 | 6 | 题目ID、学科、知识点分类、难度等级、题型、来源 |
| 题目内容 | 8 | 题干文本、题干图片(如有)、选项(选择题)、答案、详细解析 |
| 知识点标签 | 10 | 一级学科、二级科目、具体知识点、关联知识图谱节点 |
| 数学题 | 8 | 公式 LaTeX 格式、推导步骤、定理引用、一题多解 |
| 物理/化学/生物 | 8 | 实验描述、图示说明、计算过程、单位制式 |
数据样例展示
以下为结构化 JSON 样例,展示典型数据格式。
{
"question_id": "STEM-2024-MATH-0012345",
"subject": "数学","topic": "实分析","difficulty": "大学高年级",
"question": "证明:若函数 f 在闭区间 [a,b] 上连续,则 f 在 [a,b] 上一致连续。",
"answer": {"proof_type": "反证法","key_steps": ["假设不一致连续","构造Cauchy序列","利用紧致性导出矛盾"],
"references": ["Rudin《数学分析原理》定理4.19"]}
}AI 应用场景
大模型理科能力训练
千万级高质量理科题目用于大模型预训练和SFT微调。
智能教育辅导
题目+解析数据训练智能辅导AI。
AI自动解题
答案和推导过程训练AI解题模型。
自适应学习系统
基于难度分级构建个性化学习推荐。
题库自动生成
高质量题目训练AI题目生成模型。
教育评估AI
标准化题目用于AI教育评估和知识图谱构建。
常见问题
题目难度如何?
涵盖大学本科到研究生水平的理科题目,包括数学分析、高等代数、量子力学、有机化学、分子生物学等高难度学科。
图片题目如何处理?
带图片题目同时提供高清图片和对应的文本描述,图片中的公式使用LaTeX标注。
数据授权方式?
自有数据,朗慧科技拥有完整的数据权利和授权,可直接用于商业AI训练。
需要定制化的数据方案?
长沙朗慧信息科技有限公司 DataAssetsAPI 平台,致力于为 AI 企业、科研机构提供高质量、合规的数据资产。
数据样本预览 · 定制化数据方案 · 专业技术支持