Gointerface接口声明实现及作用详解
304
2022-09-07
这4款数据自动化探索 Python 神器,解决绝大多数的数据分析问题(自动化数据分析与处理)
探索性数据分析是一种非常重要的数据探索技术,用于了解数据的各个方面,这是执行任何机器学习或深度学习任务之前最重要的步骤之一。
探索性数据分析可以帮助识别明显的错误,区分数据集中的异常,发现重要元素,发现内部信息的设计并提供新的知识。
背景
在任何机器学习项目的生命周期中,我们在数据分析、特征选择、特征工程等环节耗费时间占整个项目的 60% 的以上,一方面它是数据科学项目中最重要的部分,另一方面它是必须要进行的,比如清理数据、处理缺失值、处理异常值、处理不平衡的数据集、等等,高效完成数据探索任务势在必行。
自动化探索性数据分析
今天我给大家分享4款自动化探索数据分析的顶级 Python 库,列表如下:
dtalepandas profilingsweetvizautoviz
1、D-tale
安装
pip install dtale
首先,我们分享一个 d-tale 的案例
import dtaleimport pandas as pddf = pd.read_csv("data.csv")d = dtale.show(df)d.open_browser()
2、Pandas Profiling
安装
pip install pandas-profiling
让我们深入研究使用这个库的探索性数据分析。使用示例数据集从 pandas 分析开始:
#importing required packagesimport pandas as pdimport pandas_profilingimport numpy as np#importing the datadf = pd.read_csv('sample.csv')#descriptive statisticspandas_profiling.ProfileReport(df)
这是一个数据分析报告,它返回数据集中的变量数量、行数、数据集中缺失的单元格、缺失单元格的百分比、重复行的数量和百分比。缺失和重复的单元格数据对于我们的分析非常重要,因为它描述了数据集的更广泛情况。该报告还显示内存的总大小。
3、Sweetviz
安装
pip install sweetviz
让我们深入研究使用这个库的探索性数据分析,使用示例数据集开始
import sweetvizimport pandas as pddf = pd.read_csv('sample.csv')my_report = sweetviz.analyze([df,'Train'], target_feat='SalePrice')my_report.show_html('FinalReport.html')
4、Autoviz
pip install autoviz
可视化
from autoviz.AutoViz_Class import AutoViz_ClassAV = AutoViz_Class()df = AV.AutoViz('sample.csv')
技术交流
欢迎转载、收藏、有所收获点赞支持一下!
目前开通了技术交流群,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~