按企业名称筛选数据

发表日期：2022-10-08 12:14:24

        最常用的金融科技语言--Python
        在建模的时间和精力分配上，数据理解、整理和准备占据了整个工作的80个工作量。因此，提高数据准备效率可以将更重要的时间分配给模型研究，从而提高数据建模的效率和精度。
        资料的整理和准备一般涉及以下八点：
        接下来，文章将对以上几点的意义和常用操作手段进行逐一总结。
        Pandas和numpy包用于以下操作
        默认
        数据缺失在数据建模中非常普遍，几乎在每一次数据分析中都会遇到。缺失值的处理一般涉及识别和处理两个步骤。在pandas中为我们提供了isnull命令，这使得识别丢失的值非常方便。
        但如何处理缺失值，需要根据实际情况进行讨论。
        如果只有少量数据，可以使用（）快速查看缺少的值：
        输出如下：
        输出指示string_data[2]为空
        但在实际应用中，数据量往往较大，直接查看的效率会很低。
        这时，我们可以依靠数据可视化来完成缺失数据的识别：
        缺失值按升序排列
        缺值标识完成后，需要进行缺值处理。此时，需要首先完成对变量的理解，确认缺失的原因，消除标签的误解（比如在数据收集过程中可能用NA表示否，但python理解为缺失）。尝试从源头上弥补缺失的值，如果失败，就开始考虑统计手段。
        在统计学中，常用的处理缺失值的方法主要有删除和填充
        1.删除
        删除主要用于缺失数据很少或很多的极端情况。在Pandas中，删除命令通常使用dropna（）来完成。
        2.灌装
        从数据包含的广度和建模的可靠性来看，应尽量优先考虑考试
        考虑填充。
        对于不同的缺失情况，应考虑不同的填充方式。
        首先，优先考虑消除标识误解，即根据数据描述，数据源中的变量使用NA表示无或0。
        在没有误解的情况下，补码主要采用均值法/模态法
        其他不常用的补充方法：
        缺失值删除/填充完成后，检查缺失值是否仍然存在
        重复值处理通常比较简单，只需在识别后删除即可。
        通常，对一行中的所有变量值执行重复值标识。只有当所有变量都相同时，它才是重复的。
        的少量数据的重复值标识示例（）
        在识别出重复值后，删除重复值
        如果需要删除列/列的重复值，可以在drop_duplicates中指出，如下所示：
        离群值处理起来也相对简单，通常在识别后删除
        识别方法主要有绝对值法和散点图可视化法
        1.绝对值识别主要用于纯数值类的离群点识别
        2.或目视识别，作散点图观察
        散点图观察法比较直观，但需要一一作图。
        散点图看异常值的例子。右下角2点面积较大，售价较低，为明显异常值
        数据转换分为替代原有价值和创造新价值两种情况
        在某些情况下，列的索引名可能更改为更容易理解/更合适的名称
        转换列名：
        用于将离散的数值变量装箱以便进一步分析或转换成分类变量
        将年龄从年龄转换为年龄分类
        您还可以将变量划分成相等的方框，以确保每个方框划分间隔的大小一致
        变量也可以等比例地分成方框
        1.列出子框的个数，确保每个子框中的变量个数一致
        2.列出百分比分隔点，并按百分比划分方框
        随机抽样函数可以对序列进行随机重排/部分随机抽样
        对于不存在排序关系的分类变量，需要将分类变量转换为虚拟变量进行分析
        知乎、python大数据
        特许全球金融技术师CGFT（一级）
        项目介绍

上一篇: 公司名字大全查询真实下一篇: 公司名字和名称有区别吗

不能重名

不能触犯驰名商标

不能与知名公司名字混淆

尽量不用地区名称及简称

不能使用繁体、数字、英文

不能使用行业通用词汇

不能使用名人字号

不能带有宗教色彩

工商核名

按企业名称筛选数据