在开始任何机器学习项目之前,比如预测房价、识别图片中的猫狗,或者推荐你喜欢的电影,我们首先需要面对一个最基础也最关键的环节: 数据理解 。
你可以把数据理解想象成一位侦探在调查案件前,仔细研究所有线索和档案的过程。如果不了解线索(数据)的来龙去脉、真伪和含义,后续的任何推理(建模)都可能建立在错误的基础上。
数据理解是整个机器学习流程的基石,它决定了我们后续如何清洗数据、选择模型,并最终影响模型的成败。
什么是数据理解?
数据理解,顾名思义,就是深入认识你手中的数据集。它的核心目标是回答以下几个问题:
这个过程不涉及复杂的代码和算法,更多的是通过观察、统计和可视化来获得对数据的"直觉"。
数据理解的核心步骤与工具
我们将使用 Python 中最流行的数据分析库 Pandas 和可视化库 Matplotlib/Seaborn 来进行演示。请确保你已经安装了它们 ( pip install pandas matplotlib seaborn )。
步骤一:初次见面——加载与概览
首先,我们需要把数据加载到程序中,并快速浏览其整体样貌。
实例
代码解析 :
步骤二:质量检查——发现缺失与异常
数据很少是完美无缺的。常见的"数据病"包括 缺失值 (某些位置是空的)和 异常值 (某些数字大得离谱或小得离谱)。
步骤三:深入洞察——分布与关系可视化
文字和数字是抽象的,而图表能让我们直观地"看到"数据。这是数据理解中最有趣的部分。
图表解析 :
数据理解的产出:一份"数据调查报告"
完成上述步骤后,你应该能总结出一份关于当前数据集的清晰报告,例如:
关于鸢尾花数据集的调查报告
数据概览 :共 150 条样本,5 个特征(4个数值特征:花萼/花瓣的长宽;1个类别标签:品种)。
数据质量 :无缺失值,所有数值特征均在合理生物范围内,未发现明显异常值。
数据洞察 :