Skip to content

Latest commit

 

History

History
130 lines (93 loc) · 6.31 KB

File metadata and controls

130 lines (93 loc) · 6.31 KB

📊 数据分析模块 - 美赛图表与数据处理指南

本模块提供数据分析工具链:可视化Notebook、预处理示例、完整建模案例
所有Notebook可直接运行,详细中文注释,符合美赛O奖标准


🎯 我应该用哪个图表?

一、数据统计图:揭示规律,支撑论点

定位:论文结果的证据基石,客观展示数据中的模式、趋势、差异与关联

图表类型 核心目的 O奖应用场景 O奖制图要点⭐
折线图
03_折线图_趋势分析.ipynb
展示时间序列变化趋势
• 变量随时间如何演化?
• 预测的未来趋势是什么?
A题:温度、物理量随时间演化
C题:经济指标、疫情预测曲线
必须添加置信区间
✅ 多条线用不同颜色/线型
✅ 标注关键点(峰值、交点)
柱状图
05_柱状图_分组对比.ipynb
比较类别间数值差异
• 哪个方案指标最优?
• 因素影响如何排序?
所有题型:模型性能对比
E/F题:政策方案成本收益对比
按数值排序
柱顶标注具体数值
✅ 分组柱状图对比多指标
散点图
06_散点图_预测评估.ipynb
揭示变量间相关性
• 两因素是否有关联?
• 线性还是非线性?
C题:用户行为特征相关性
B题:实验数据与模型拟合
必须显示R²和拟合线
✅ 用颜色区分数据子集
✅ 标注异常点
热力图
04_热力图_相关性矩阵.ipynb
呈现相关系数矩阵
• 哪些变量强相关?
• 二维密度如何分布?
C题:特征相关性矩阵
E题:地理指标强度分布
清晰色阶+数值标注
✅ 聚类排序让模式明显
✅ 自动找出强相关特征对
直方图
01_直方图_分布分析.ipynb
展示数据分布特征
• 数据是否正态分布?
• 有无偏态或异常值?
所有题型:数据探索
C题:变量分布分析
✅ 合理选择bin数量
✅ 叠加核密度估计曲线
✅ 标注均值、中位数
箱线图
02_箱线图_异常值检测.ipynb
检测异常值和分布
• 各组数据分布如何?
• 是否存在异常值?
C题:数据清洗依据
E题:多组对比分析
✅ 标注异常值点
✅ 显示均值标记
✅ 多组对比排列清晰

二、模型思路图:化繁为简,清晰叙事

定位:论文的逻辑骨架,帮助评委快速理解核心工作

💡 推荐工具:使用 draw.io 绘制流程图和框架图

图表类型 核心目的 O奖应用场景 绘制要点
流程图 展示算法步骤与决策过程
• 模型如何一步步运行?
• 决策节点在哪里?
所有题型:建模工作流
D题:启发式算法迭代步骤
• 单一流向(横向或纵向)
• 标准图形(矩形/菱形/箭头)
• 主流程与子流程分离
框架图 展示模型组成与交互
• 模型由哪些部分构成?
• 各模块如何交互?
A/B题:耦合系统相互作用
F题:社会经济要素反馈
• 模块化绘制
• 不同形状/颜色区分功能
• 连接线标注关系性质

💎 O奖核心思维:从"展示数据"到"讲述洞察"

三大黄金法则

  1. 每图一论点 📌
    动笔前明确:这张图要为论文的哪个核心论点提供视觉证据

  2. 服务于叙事 📖
    图表出现顺序遵循论文逻辑叙事线,层层递进导向结论

  3. 降低阅读成本
    通过精心的标注、配色和排版,让评委5秒内看懂核心信息

五个必须做到⭐

图表类型 O奖必备要素
折线图 ✅ 置信区间 + 关键点标注
柱状图 ✅ 柱顶数值 + 按大小排序
散点图 ✅ R² + 拟合线 + p值
热力图 ✅ 数值标注 + 找出强相关对
箱线图 ✅ 异常值标注 + 均值标记

📂 本模块文件结构

data_analysis/
├── visualization/              # 📊 可视化Notebook(直接运行)
│   ├── 01_直方图_分布分析.ipynb
│   ├── 02_箱线图_异常值检测.ipynb
│   ├── 03_折线图_趋势分析.ipynb
│   ├── 04_热力图_相关性矩阵.ipynb
│   ├── 05_柱状图_分组对比.ipynb
│   ├── 06_散点图_预测评估.ipynb
│   └── 可视化指南.ipynb        # 综合教程
│
├── preprocessing/              # 🔧 数据预处理
│   ├── 数据预处理指南.ipynb    # 缺失值、异常值、标准化等
│   └── 2025C示例/             # 📚 完整建模案例 ⭐
│       ├── problem.md         # 题目说明
│       ├── 数据预处理.ipynb    # 数据清洗流程
│       ├── 模型分析/
│       │   └── 建模分析.ipynb  # 完整建模过程
│       └── *.csv              # 原始和处理后数据
│
└── readme.md                   # 📖 本文档

🚀 快速开始

1. 安装依赖

cd MathModelHub
pip install -r requirements.txt

2. 启动Jupyter

jupyter notebook

3. 运行示例

在Jupyter中打开 data_analysis/visualization/ 目录下的任意Notebook:

  • 点击 Cell → Run All 运行所有代码
  • 每个Notebook都包含示例数据,可直接运行查看效果
  • 修改数据部分替换成自己的数据即可

4. 学习完整案例

打开 preprocessing/2025C示例/ 目录,按以下顺序学习:

  1. problem.md - 了解题目背景
  2. 数据预处理.ipynb - 学习数据清洗
  3. 模型分析/建模分析.ipynb - 学习完整建模流程

📚 推荐学习顺序

  1. 入门:先运行 可视化指南.ipynb,了解各类图表
  2. 基础:依次运行 01-06 的可视化Notebook
  3. 进阶:学习 2025C示例/ 的完整建模案例
  4. 实战:替换成自己的数据,制作美赛图表

祝你在美赛中取得优异成绩!🏆