信息过滤——从协同推荐到深度学习

2023-07-30 22:03:01 来源:哔哩哔哩

摘要:本文介绍了推荐算法的发展历程,从最早基于标签的推荐到协同过滤和矩阵分解方法的应用,再到后来深度学习技术的引入和发展。重点介绍了协同过滤和矩阵分解两种方法,以及它们在解决推荐系统中的挑战方面的应用。最后,强调推荐算法在内容产业中的重要性,是提高质量和服务效率的关键之一。

关键词:推荐算法、协同过滤、矩阵分解、深度学习、内容产业

一、引言


(资料图片)

复杂的信息流充斥在无边无际的人类世界之中。面对刷不完的视频和商品,我们该如何选择?面对顾客的行为和偏好,我们该如何实现个性化?面对数不尽的广告和邮件,我们又该如何推送给需要的人呢?推荐算法由此诞生,其本质依旧是一个分类、预测、决策的模型,通过分类了解用户特征从而实现按需投放,通过已有数据预测未知数据值从而更好评估用户行为的可能性,通过大数据拟合从而得到一个更敏锐、更精准的决策系统。

如果说推荐算法的源头,我觉得它源于人与人之间的交往,内有管鲍之交,鲍叔牙力荐管仲,终成一国之相;外有学术之圈,诺贝尔互相提名,因此最早的推荐都只发生在熟人之间。进入城市化的社会,我们每天面对大量的陌生面孔,彼此不认识更谈不上了解,精准评估一个用户的偏好喜爱是非常困难的,于是心理学的即时观察和对用户的经验分析逐渐发展,当然这一切都只发生在线下face to face,仅仅是一个人的定性评估。不过随着线上用户行为的增多,我们面对面的机会逐渐减少,该如何紧紧抓住用户兴趣,如何去量化用户行为的可能性呢?于是真正意义上的推荐算法出现了。

二、综述

如果让大家去想该如何推荐?大概率都会想到,喜欢看什么就推什么,这就是直觉的、最基本的推荐思维——基于标签的推荐。喜欢什么内容推荐什么内容,简单地完成了价值传递的任务,但是推送的某一内容有可能是重复的,反而降低兴趣;有可能喜欢的内容库存特别多,一股脑推给用户,对于平台是轻松很多,对于用户却是大海捞针,这一切都源于基于标签的推荐缺少信息精准过滤的过程。1992年,施乐公司提出了协同过滤(Collaborative Filtering, CF)的方法,对于信息有着双层过滤+收益反馈的机制——用户兴趣大过滤、基于用户(user)的协同小过滤、效果反馈迭代直至收敛,其中基于用户的协同过滤,基本思想基于用户之间的相似性,来推送彼此的内容。2003年Amazon提出基于物品(item)的协同过滤,基于物品之间的相似性,来推送评分高的内容,改善了大数据相似度计算难的问题。2009年,Netflix推荐算法大赛的第三年,三个团队终于完成了要求的目标,获得100万美元奖金,在这次比赛中,矩阵分解(Matrix factorization)算法脱颖而出,借鉴数学已有的知识解决用户特征的问题,大致方法经历SVD——Funk-SVD——Bias-SVD——SVD++——TimeSVD++——TSVD这几步,本质是预测模型,最终目的是分解成几个小矩阵,通过几个小矩阵的乘积来补全大矩阵没有评分的位置,对于机器学习来说,问题转化成如何获得几个最优的小矩阵,保证有评分的误差最小,迭代的方法是从算法的复杂度、解决稀疏度的方向入手。总之对于Netflix这是一次非常成功的实践,对于之后的《纸牌屋》的出现具有一定的基础性贡献。

总结一下,协同过滤法总共两种,一种是基于邻域的协同过滤,另一种是矩阵分解。这两种方法都不需要用户、物品的任何背景材料,属于无监督学习,但是在数据稀疏性、冷启动问题、超大用户、内容多样性、参数指标获取方面都有发展完善的空间。

之后,2010年大阪大学提出了分解机(Factorization Machine, FM)的概念,进一步建立矩阵分解的机器学习、深度学习架构,之后的NFM(加入神经网络)、AFM(加入注意力机制)、AutoInt。2014年Facebook提出了GBDT(Gradient Based Decision Tree)+LR(Logistic Regression)方法,引入决策树和逻辑斯蒂回归,全面拥抱机器学习和深度学习,之后的Wide&Deep、Deep&Cross发展成XDeepFM,XDeepFM是抖音推荐算法的基石。

三、结论

经过几天的调研、读论文、实践,我对于推荐算法框架有了初步的认知,了解大数据服务我们,又杀熟我们的工作机制,感叹Netflix公司的前瞻性贡献,相信高手在民间。互联网公司的发展不能光依靠砸钱来实现已有产业的垄断,而应该去研究如何提高内容产业的质量和服务效率,而推荐算法是其中之一。

如果认真走入一个领域,你就会发现它一定是最朴素的道理加上变幻的规则约束,进而呈现出精彩纷呈的世界,从哲学来看,大道至简,却也非常道。

四、参考文献

[1]网飞如何用智商打败对手?为何中国却只有“优爱腾”?

/video/BV1WL411w7Vz/?share_source=copy_web&vd_source=2493f65903f7e0745a991498a2234592

[2]/p/389785446

[3]/zhengzhicong/p/

[4]/p/451731153

[5]/

[5]/p/496849498

[6]/tardis/zm/art/624036684?source_id=1005

[7]/liuq4360/recommender_systems_

[8] Goldberg D, Nichols D, Oki B M, et al. Using collaborative filtering to weave an information tapestry[J]. Communications of the ACM, 1992, 35(12): 61-70.

[9]Linden, G, Smith, et al. recommendations: item-to-item collaborative filtering[J]. Internet Computing, IEEE, 2003, 7(1):76-80.

[10] Koren Y , Bell R , Volinsky C . Matrix Factorization Techniques for Recommender Systems[J]. Computer, 2009, 42(8):30-37.

[11] Rendle S . Factorization Machines[C]// ICDM 2010, The 10th IEEE International Conference on Data Mining, Sydney, Australia, 14-17 December 2010. IEEE, 2010.

[12] He X , Pan J , Ou J , et al. Practical Lessons from Predicting Clicks on Ads at Facebook[M]. ACM, 2014.

[13] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.

[14] Wang R, Fu B, Fu G, et al. Deep & cross network for ad click predictions[M]//Proceedings of the ADKDD'17. 2017: 1-7.

[15] Lian J, Zhou X, Zhang F, et al. xdeepfm: Combining explicit and implicit feature interactions for recommender systems[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 1754-1763.

[16] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

标签:
x 广告
x 广告

Copyright @  2015-2022 南极晚报网版权所有  备案号: 粤ICP备2022077823号-13   联系邮箱: 317 493 128@qq.com