这4款数据自动化探索 Python 神器,解决绝大多数的数据分析问题(自动化数据分析与处理)

网友投稿 304 2022-09-07


这4款数据自动化探索 Python 神器,解决绝大多数的数据分析问题(自动化数据分析与处理)

探索性数据分析是一种非常重要的数据探索技术,用于了解数据的各个方面,这是执行任何机器学习或深度学习任务之前最重要的步骤之一。

探索性数据分析可以帮助识别明显的错误,区分数据集中的异常,发现重要元素,发现内部信息的设计并提供新的知识。

背景

在任何机器学习项目的生命周期中,我们在数据分析、特征选择、特征工程等环节耗费时间占整个项目的 60% 的以上,一方面它是数据科学项目中最重要的部分,另一方面它是必须要进行的,比如清理数据、处理缺失值、处理异常值、处理不平衡的数据集、等等,高效完成数据探索任务势在必行。

自动化探索性数据分析

今天我给大家分享4款自动化探索数据分析的顶级 Python 库,列表如下:

dtalepandas profilingsweetvizautoviz

1、D-tale

安装

pip install dtale

首先,我们分享一个 d-tale 的案例

import dtaleimport pandas as pddf = pd.read_csv("data.csv")d = dtale.show(df)d.open_browser()

2、Pandas Profiling

安装

pip install pandas-profiling

让我们深入研究使用这个库的探索性数据分析。使用示例数据集从 pandas 分析开始:

#importing required packagesimport pandas as pdimport pandas_profilingimport numpy as np#importing the datadf = pd.read_csv('sample.csv')#descriptive statisticspandas_profiling.ProfileReport(df)

这是一个数据分析报告,它返回数据集中的变量数量、行数、数据集中缺失的单元格、缺失单元格的百分比、重复行的数量和百分比。缺失和重复的单元格数据对于我们的分析非常重要,因为它描述了数据集的更广泛情况。该报告还显示内存的总大小。

3、Sweetviz

安装

pip install sweetviz

让我们深入研究使用这个库的探索性数据分析,使用示例数据集开始

import sweetvizimport pandas as pddf = pd.read_csv('sample.csv')my_report = sweetviz.analyze([df,'Train'], target_feat='SalePrice')my_report.show_html('FinalReport.html')

4、Autoviz

pip install autoviz

可视化

from autoviz.AutoViz_Class import AutoViz_ClassAV = AutoViz_Class()df = AV.AutoViz('sample.csv')

技术交流

欢迎转载、收藏、有所收获点赞支持一下!

目前开通了技术交流群,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:从log4j2到Disruptor详解
下一篇:妙啊,这14个经典的 Python 代码模块真香(实在是妙啊)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~