最常用的金融科技语言--Python
在建模的时间和精力分配上,数据理解、整理和准备占据了整个工作的80个工作量。因此,提高数据准备效率可以将更重要的时间分配给模型研究,从而提高数据建模的效率和精度。
资料的整理和准备一般涉及以下八点:
接下来,文章将对以上几点的意义和常用操作手段进行逐一总结。
Pandas和numpy包用于以下操作
默认
数据缺失在数据建模中非常普遍,几乎在每一次数据分析中都会遇到。缺失值的处理一般涉及识别和处理两个步骤。在pandas中为我们提供了isnull命令,这使得识别丢失的值非常方便。
但如何处理缺失值,需要根据实际情况进行讨论。
如果只有少量数据,可以使用()快速查看缺少的值:
输出如下:
输出指示string_data[2]为空
但在实际应用中,数据量往往较大,直接查看的效率会很低。
这时,我们可以依靠数据可视化来完成缺失数据的识别:
缺失值按升序排列
缺值标识完成后,需要进行缺值处理。此时,需要首先完成对变量的理解,确认缺失的原因,消除标签的误解(比如在数据收集过程中可能用NA表示否,但python理解为缺失)。尝试从源头上弥补缺失的值,如果失败,就开始考虑统计手段。
在统计学中,常用的处理缺失值的方法主要有删除和填充
1.删除
删除主要用于缺失数据很少或很多的极端情况。在Pandas中,删除命令通常使用dropna()来完成。
2.灌装
从数据包含的广度和建模的可靠性来看,应尽量优先考虑考试
考虑填充。
对于不同的缺失情况,应考虑不同的填充方式。
首先,优先考虑消除标识误解,即根据数据描述,数据源中的变量使用NA表示无或0。
在没有误解的情况下,补码主要采用均值法/模态法
其他不常用的补充方法:
缺失值删除/填充完成后,检查缺失值是否仍然存在
重复值处理通常比较简单,只需在识别后删除即可。
通常,对一行中的所有变量值执行重复值标识。只有当所有变量都相同时,它才是重复的。
的少量数据的重复值标识示例()
在识别出重复值后,删除重复值
如果需要删除列/列的重复值,可以在drop_duplicates中指出,如下所示:
离群值处理起来也相对简单,通常在识别后删除
识别方法主要有绝对值法和散点图可视化法
1.绝对值识别主要用于纯数值类的离群点识别
2.或目视识别,作散点图观察
散点图观察法比较直观,但需要一一作图。
散点图看异常值的例子。右下角2点面积较大,售价较低,为明显异常值
数据转换分为替代原有价值和创造新价值两种情况
在某些情况下,列的索引名可能更改为更容易理解/更合适的名称
转换列名:
用于将离散的数值变量装箱以便进一步分析或转换成分类变量
将年龄从年龄转换为年龄分类
您还可以将变量划分成相等的方框,以确保每个方框划分间隔的大小一致
变量也可以等比例地分成方框
1.列出子框的个数,确保每个子框中的变量个数一致
2.列出百分比分隔点,并按百分比划分方框
随机抽样函数可以对序列进行随机重排/部分随机抽样
对于不存在排序关系的分类变量,需要将分类变量转换为虚拟变量进行分析
知乎、python大数据
特许全球金融技术师CGFT(一级)
项目介绍