不到40行代码用Python实现一个简单的推荐系统

脚本专栏 2024/11/16 佚名

3 1 2

什么是推荐系统

维基百科这样解释道：推荐系统属于资讯过滤的一种应用。推荐系统能够将可能受喜好的资讯或实物（例如：电影、电视节目、音乐、书籍、新闻、图片、网页）推荐给使用者。

本质上是根据用户的一些行为数据有针对性的推荐用户更可能感兴趣的内容。比如在网易云音乐听歌，听得越多，它就会推荐越多符合你喜好的音乐。

推荐系统是如何工作的呢？有一种思路如下：

用户 A 听了收藏了 a,b,c 三首歌。用户 B 收藏了 a, b 两首歌，这时候推荐系统就把 c 推荐给用户 B。因为算法判断用户 A，B 对音乐的品味有极大可能一致。

推荐算法分类

最常见的推荐算法分为基于内容推荐以及协同过滤。协同过滤又可以分为基于用户的协同过滤和基于物品的协同过滤
基于内容推荐是直接判断所推荐内容本身的相关性，比如文章推荐，算法判断某篇文章和用户历史阅读文章的相关性进行推荐。

基于用户的协同过滤就是文章开头举的例子。

基于物品的协同过滤：

假设用户 A,B,C 都收藏了音乐 a,b。然后用户 D 收藏了音乐 a,那么这时候就推荐音乐 b 给他。

动手打造自己的推荐系统

这一次我们要做的是一个简单的电影推荐，虽然离工业应用还差十万八千里，但是非常适合新手一窥推荐系统的内部原理。数据集包含两个文件：ratings.csv 和 movies.csv。

# 载入数据
import pandas as pd
import numpy as np
df = pd.read_csv('data/ratings.csv')
df.head()

ratings.csv 包含四个维度的数据：

userId:打分用户的 ID
movieId: 被打分电影的 ID
rating: 用户给电影的打分，处于[1，5]
timestamp: 电影被打分的时间

要推荐电影还需要有电影的名字，电影名字保存在 movies.csv 中：

movies = pd.read_csv('data/movies.csv')
movies.head()

将 ratings.csv 和 movies.csv 的数据根据 movieId 合并。

df = pd.merge(df, movie_title, on='movieId')
df.head()

我们这次要做的推荐系统的核心思路是：

根据所有用户评分判断所有电影与用户 a 已观看的某部电影 A 的相似度
给用户 a 推荐相似度高且评分高的电影

所以我们要先有所有用户对所有电影的评分的列联表：

movie_matrix = df.pivot_table(index = 'userId', columns = 'title' ,values = 'rating')
movie_matrix.head()

假设用户 A 观看的电影是 air_force_one (1997)，则计算列联表中所有电影与 air_force_one (1997) 的相关性。

AFO_user_rating = movie_matrix['Air Force One (1997)']
simliar_to_air_force_one = movie_matrix.corrwith(AFO_user_rating)

这样我们就得到了所有电影与 air_force_one （1997）的相关性。

但是，直接对这个相关性进行排序并推荐最相关的电影有一个及其严重的问题：

ratings = pd.DataFrame(df.groupby('title')['rating'].mean())#计算电影平均得分
ratings['number_of_ratings'] = df.groupby('title')['rating'].count()
import matplotlib.pyplot as plt
%matplotlib inline
ratings['number_of_ratings'].hist(bins = 60);

上图是电影被评分次数的直方图，可以看到大量的电影评分次数不足10次。评分次数太少的电影很容易就被判断为高相关性。所以我们要将这部分的评分删掉。

corr_AFO = pd.DataFrame(similar_to_air_force_one, columns = ['Correlation'])
corr_AFO.dropna(inplace = True)
corr_contact = corr_contact.join(ratings['number_of_ratings'],how = 'left',lsuffix='_left', rsuffix='_right')
corr_AFO[corr_AFO['number_of_ratings']>100].sort_values(by = 'Correlation',ascending = False).head()

这样我们就得到了一个与 air_force_one (1997) 高相关的电影列表。但是高相关有可能评分低（概率低），再从列表里挑几部平均得分高的电影推荐就好了。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对的支持。

python推荐系统代码,python标签推荐代码

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“不到40行代码用Python实现一个简单的推荐系统”

暂无评论...

www.eoogi.com 华山资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

周耀辉/邓慧中《从什么时候开始》[320K/MP3

2024/11/16

周耀辉/邓慧中《从什么时候开始》[FLAC/分轨

2024/11/16

蒋荣宗《蒋荣宗ZONG x FOCA 夏日马戏节》[3

2024/11/16

坣娜.1997-你怎么可以不爱我【巨石】【WAV+

2024/11/16

群星.1992-暗恋桃花源电影原声带【滚石】【

2024/11/16

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/11/16

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

不到40行代码用Python实现一个简单的推荐系统

python 对字典按照value进行排序的方法

使用Django开发简单接口实现文章增删改查

评论“不到40行代码用Python实现一个简单的推荐系统”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

不到40行代码用Python实现一个简单的推荐系统

python 对字典按照value进行排序的方法

使用Django开发简单接口实现文章增删改查

评论“不到40行代码用Python实现一个简单的推荐系统”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存