JAVA实现基于皮尔逊相关系数的相似度详解-eolink官网

JAVA实现基于皮尔逊相关系数的相似度详解

最近在看《集体智慧编程》，相比其他机器学习的书籍，这本书有许多案例，更贴近实际，而且也很适合我们这种准备学习machinelearning的小白。

这本书我觉得不足之处在于，里面没有对算法的公式作讲解，而是直接用代码去实现，所以给想具体了解该算法带来了不便，所以想写几篇文章来做具体的说明。以下是第一篇，对皮尔逊相关系数作讲解，并采用了自己比较熟悉的java语言做实现。

皮尔逊数学公式如下，来自维基百科。

其中，E是数学期望，cov表示协方差，\sigma_X和\sigma_Y是标准差。

化简后得：

皮尔逊相似度计算的算法还是很简单的，实现起来也不难。只要求变量X、Y、乘积XY，X的平方，Y的平方的和。我的代码所使用的数据测试集来自《集体智慧编程》一书。代码如下：

package pearsonCorrelationScore;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.Map.Entry;

/**

* @author shenchao

* 皮尔逊相关度评价

* 以《集体智慧编程》一书用户评价相似度数据集做测试

public class PearsonCorrelationScore {

private Map> dataset = null;

public PearsonCorrelationScore() {

initDataSet();

}

/**

* 初始化数据集

private void initDataSet() {

dataset = new HashMap>();

// 初始化Lisa Rose 数据集

Map roseMap = new HashMap();

roseMap.put("Lady in the water", 2.5);

roseMap.put("Snakes on a Plane", 3.5);

roseMap.put("Just My Luck", 3.0);

roseMap.put("Superman Returns", 3.5);

roseMap.put("You, Me and Dupree", 2.5);

roseMap.put("The Night Listener", 3.0);

dataset.put("Lisa Rose", roseMap);

// 初始化Jack Matthews 数据集

Map jackMap = new HashMap();

jackMap.put("Lady in the water", 3.0);

jackMap.put("Snakes on a Plane", 4.0);

jackMap.put("Superman Returns", 5.0);

jackMap.put("You, Me and Dupree", 3.5);

jackMap.put("The Night Listener", 3.0);

dataset.put("Jack Matthews", jackMap);

// 初始化Jack Matthews 数据集

Map geneMap = new HashMap();

geneMap.put("Lady in the water", 3.0);

geneMap.put("Snakes on a Plane", 3.5);

geneMap.put("Just My Luck", 1.5);

geneMap.put("Superman Returns", 5.0);

geneMap.put("You, Me and DupvojDZWree", 3.5);

geneMap.put("The Night Listener", 3.0);

dataset.put("Gene Seymour", geneMap);

}

public Map> getDataSet() {

return dataset;

}

/**

* @param person1

* name

* @param person2

* name

* @return 皮尔逊相关度值

public double sim_pearson(String person1, String person2) {

// 找出双方都评论过的电影,（皮尔逊算法要求）

List list = new ArrayList();

for (Entry p1 : dataset.gethttp://(person1).entrySet()) {

if (dataset.get(person2).containsKey(p1.getKey())) {

list.add(p1.getKey());

}

double sumX = 0.0;

double sumY = 0.0;

double sumX_Sq = 0.0;

double sumY_Sq = 0.0;

double sumXY = 0.0;

int N = list.size();

for (String name : list) {

Map p1Map = dataset.get(person1);

Map p2Map = dataset.get(person2);

sumX += p1Map.get(name);

sumY += p2Map.get(name);

sumX_Sq += Math.pow(p1Map.get(name), 2);

sumY_Sq += Math.pow(p2Map.get(name), 2);

sumXY += p1Map.get(name) * p2Map.get(name);

}

double numerator = sumXY - sumX * sumY / N;

double denominator = Math.sqrt((sumX_Sq - sumX * sumX / N)

* (sumY_Sq - sumY * sumY / N));

// 分母不能为0

if (denominator == 0) {

return 0;

}

return numerator / denominator;

}

public static void main(String[] args) {

PearsonCorrelationScore pearsonCorrelationScore = new PearsonCorrelationScore();

System.out.println(pearsonCorrelationScore.sim_pearson("Lisa Rose",

"Jack Matthews"));

}

将各个测试集的数据反映到二维坐标面中，如下所示：

上述程序求得的值实际上就为该直线的斜率。其斜率的区间在[-1,1]之间，其绝对值的大小反映了两者相似度大小，斜率越大，相似度越大，当相似度为1时，该直线为一条对角线。

总结

以上就是本文关于JAVA实现基于皮尔逊相关系数的相似度详解的全部内容，希望对大家有所帮助。如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

Flask接口签名sign原理与实例代码浅析

456 2023-03-11

JAVA实现基于皮尔逊相关系数的相似度详解

Flask接口签名sign原理与实例代码浅析

hdml指的是什么接口

分析EBS常用接口表

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路