在R、Python和Julia中常用的数据可视化技术-eolink官网

在R、Python和Julia中常用的数据可视化技术

俗话说“一图胜千言”。通过各种图片和图形化展示，我们可以更清晰地表达很多抽象概念、理论、数据模式或某些想法。在本章中，我们首先解释为什么应该关心数据可视化。然后，我们将讨论几种在R、Python和Julia中常用的数据可视化技术。此外，我们还将介绍几个特殊主题，例如如何生成图形、饼图和条形图，如何添加标题、趋势线、希腊字母，以及如何输出图形。在本章的最后，我们将讨论一个可选话题，即动态表示以及如何将它们保存为HTML文件。

本章包含以下主题：

数据可视化的重要性R数据可视化Python数据可视化Julia数据可视化

4.1　数据可视化的重要性

对于数据科学和商业分析领域的用户或研究人员来说，使用各种类型的图形、饼图、条形图以及其他视觉手段展示数据中隐含的潜在趋势或模式对理解数据至关重要，同时能够帮助研究人员更好地向观众或客户呈现数据。这样做主要有以下几个原因。

第一，语言有时很难描述我们的发现，尤其是存在几种模式或诸多影响因素时，通过几个单独的图形和一个连接图则可以更好地理解和解释复杂的关系。

第二，我们可以使用图形或图片来解释某些算法，例如二分法（参见4.9节）。

第三，我们也可以使用相对大小来表示不同的含义。在金融领域，一个基本概念叫作货币时间价值（Time Value of Money，TVM），意思是“一鸟在手胜过双鸟在林”。今天的100美元比同等数额的未来现金流更有价值。通过不同尺寸的不同圆圈表示发生在未来不同时间点上的现金流的现值，可以帮助读者更清楚地理解这个概念。

第四，我们的数据可能非常混乱，所以简单地展示数据点可能会使读者更加困惑。如果我们能用一个简单的图形来展示它的主要特征、属性或模式将大有益处。

4.2　R数据可视化

首先，我们来看R中最简单的图形。利用下面一行R代码，我们画出了从

到

范围内的余弦函数值：

> plot(cos,-2*pi,2*pi)

对应的图形如图4.1所示。

图4.1　余弦函数图

直方图也有助于我们理解数据点的分布。图4.1就是一个简单的例子。首先，我们生成一组服从标准正态分布的随机数。为了便于说明，第一行的set.seed()命令其实是多余的，它的存在将保证所有使用相同seed值（本例中为333）的用户将得到相同的随机数集合。

换句话说，在输入值相同的情况下，直方图看起来将是一样的。在下一行中，rnorm(n)函数画出了n个服从标准正态分布的随机数。接着，最后一行使用hist()函数生成一个直方图：

> set.seed(333)> data<-rnorm(5000)> hist(data)

相关图形如图4.9所示。

图4.9　5个因素之间的相互联系

4.3　Python数据可视化

Python中图形和图像方面使用最广泛的包是matplotlib。下面的程序仅仅包含3行代码，所以可以看作是最简单的生成一个图形的Python程序：

import matplotlib.pyplot as pltplt.plot([2,3,8,12])plt.show()

第一行命令会上传一个名为matplotlib.pyplot的Python包，并将其重命名为plt。

注意，我们甚至可以使用其他简短的名称，但通常使用plt表示matplotlib包。第二行绘制了4个点，最后一行总结了整个过程。完整图形如图4.10所示。

在下一个例子中，我们为x和y添加了标签，以及一个标题。所使用的函数是余弦函数，其中输入值范围为

～

。

import scipy as spimport matplotlib.pyplot as pltx=sp.linspace(-2*sp.pi,2*sp.pi,200,endpoint=True)y=sp.cos(x)plt.plot(x,y)plt.xlabel("x-value")plt.ylabel("Cosine function")plt.title("Cosine curve from -2pi to 2pi")plt.show()

图4.10　matplotlib包生成的图形示例

漂亮的余弦曲线如图4.11所示。

如果我们今天收到100美元，它将比两年后收到的更有价值，这个概念叫作货币时间价值，因为我们现在可以将100美元存入银行来赚取利息。下面的Python程序使用size来说明此概念。

import matplotlib.pyplot as pltfig = plt.figure(facecolor='white')dd = plt.axes(frameon=False)dd.set_frame_on(False)dd.get_xaxis().tick_bottom()dd.axes.get_yaxis().set_visible(False)x=range(0,11,2)x1=range(len(x),0,-1)y = [0]*len(x);plt.annotate("$100 receivedtoday",xy=(0,0),xytext=(2,0.15),arrowprops=dict(facecolor='black',shrink=2))plt.annotate("$100 received in 2years",xy=(2,0),xytext=(3.5,0.10),arrowprops=dict(facecolor='black',shrink=2))s = [50*2.5**n for n in x1];plt.title("Time value of money ")plt.xlabel("Time (number of years)")plt.scatter(x,y,s=s);plt.show()

图4.11　为图形添加x和y轴标签及标题

相关的图形如图4.12所示。同样，不同尺寸表示它们现值的相对大小。

图4.12　货币时间价值概念解释

4.4　Julia数据可视化

对于下面的Julia程序，我们使用了一个名为Plots的包，用于安装此包的命令为Pkg.add("Plots")。这里，我们通过一个Jupyter notebook运行Julia程序。图4.13展示了一个Julia程序。

图4.13　Julia程序

单击菜单栏上的Kernel项目，然后单击Restart and Run All，我们得到图4.14所示的结果。

图4.14　运行结果图

同样地，srand(123)命令保证使用相同随机种子的任何用户都会得到相同的随机数集合。为此，用户会得到与前面相同的图形。下一个例子是使用Julia包PyPlot绘制的散点图。

using PyPlotn=50srand(333)x = 100*rand(n)y = 100*rand(n)areas = 800*rand(n)fig = figure("pyplot_scatterplot",figsize=(10,10))ax = axes()scatter(x,y,s=areas,alpha=0.5)title("using PyPlot: Scatter Plot")xlabel("X")ylabel("Y")grid("on")

Python接口自动化之文件上传/下载接口怎么实现

310 2022-09-07

在R、Python和Julia中常用的数据可视化技术

java中的接口是类吗

Spring中的aware接口详情

Python接口自动化之文件上传/下载接口怎么实现

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路