首页 >科技 > > 内容页

信息过滤——从协同推荐到深度学习

2023-07-30 22:03:01 来源：哔哩哔哩

摘要：本文介绍了推荐算法的发展历程，从最早基于标签的推荐到协同过滤和矩阵分解方法的应用，再到后来深度学习技术的引入和发展。重点介绍了协同过滤和矩阵分解两种方法，以及它们在解决推荐系统中的挑战方面的应用。最后，强调推荐算法在内容产业中的重要性，是提高质量和服务效率的关键之一。

关键词：推荐算法、协同过滤、矩阵分解、深度学习、内容产业

一、引言

(资料图片)

复杂的信息流充斥在无边无际的人类世界之中。面对刷不完的视频和商品，我们该如何选择？面对顾客的行为和偏好，我们该如何实现个性化？面对数不尽的广告和邮件，我们又该如何推送给需要的人呢？推荐算法由此诞生，其本质依旧是一个分类、预测、决策的模型，通过分类了解用户特征从而实现按需投放，通过已有数据预测未知数据值从而更好评估用户行为的可能性，通过大数据拟合从而得到一个更敏锐、更精准的决策系统。

如果说推荐算法的源头，我觉得它源于人与人之间的交往，内有管鲍之交，鲍叔牙力荐管仲，终成一国之相；外有学术之圈，诺贝尔互相提名，因此最早的推荐都只发生在熟人之间。进入城市化的社会，我们每天面对大量的陌生面孔，彼此不认识更谈不上了解，精准评估一个用户的偏好喜爱是非常困难的，于是心理学的即时观察和对用户的经验分析逐渐发展，当然这一切都只发生在线下face to face，仅仅是一个人的定性评估。不过随着线上用户行为的增多，我们面对面的机会逐渐减少，该如何紧紧抓住用户兴趣，如何去量化用户行为的可能性呢？于是真正意义上的推荐算法出现了。

二、综述

如果让大家去想该如何推荐？大概率都会想到，喜欢看什么就推什么，这就是直觉的、最基本的推荐思维——基于标签的推荐。喜欢什么内容推荐什么内容,简单地完成了价值传递的任务，但是推送的某一内容有可能是重复的，反而降低兴趣；有可能喜欢的内容库存特别多，一股脑推给用户，对于平台是轻松很多，对于用户却是大海捞针，这一切都源于基于标签的推荐缺少信息精准过滤的过程。1992年，施乐公司提出了协同过滤(Collaborative Filtering, CF)的方法，对于信息有着双层过滤+收益反馈的机制——用户兴趣大过滤、基于用户(user)的协同小过滤、效果反馈迭代直至收敛，其中基于用户的协同过滤，基本思想基于用户之间的相似性，来推送彼此的内容。2003年Amazon提出基于物品(item)的协同过滤，基于物品之间的相似性，来推送评分高的内容，改善了大数据相似度计算难的问题。2009年，Netflix推荐算法大赛的第三年，三个团队终于完成了要求的目标，获得100万美元奖金，在这次比赛中，矩阵分解(Matrix factorization)算法脱颖而出，借鉴数学已有的知识解决用户特征的问题，大致方法经历SVD——Funk-SVD——Bias-SVD——SVD++——TimeSVD++——TSVD这几步，本质是预测模型，最终目的是分解成几个小矩阵，通过几个小矩阵的乘积来补全大矩阵没有评分的位置，对于机器学习来说，问题转化成如何获得几个最优的小矩阵，保证有评分的误差最小，迭代的方法是从算法的复杂度、解决稀疏度的方向入手。总之对于Netflix这是一次非常成功的实践，对于之后的《纸牌屋》的出现具有一定的基础性贡献。

总结一下，协同过滤法总共两种，一种是基于邻域的协同过滤，另一种是矩阵分解。这两种方法都不需要用户、物品的任何背景材料，属于无监督学习，但是在数据稀疏性、冷启动问题、超大用户、内容多样性、参数指标获取方面都有发展完善的空间。

之后，2010年大阪大学提出了分解机(Factorization Machine, FM)的概念，进一步建立矩阵分解的机器学习、深度学习架构，之后的NFM（加入神经网络）、AFM（加入注意力机制）、AutoInt。2014年Facebook提出了GBDT(Gradient Based Decision Tree)+LR(Logistic Regression)方法，引入决策树和逻辑斯蒂回归，全面拥抱机器学习和深度学习，之后的Wide&Deep、Deep&Cross发展成XDeepFM，XDeepFM是抖音推荐算法的基石。

三、结论

经过几天的调研、读论文、实践，我对于推荐算法框架有了初步的认知，了解大数据服务我们，又杀熟我们的工作机制，感叹Netflix公司的前瞻性贡献，相信高手在民间。互联网公司的发展不能光依靠砸钱来实现已有产业的垄断，而应该去研究如何提高内容产业的质量和服务效率，而推荐算法是其中之一。

如果认真走入一个领域，你就会发现它一定是最朴素的道理加上变幻的规则约束，进而呈现出精彩纷呈的世界，从哲学来看，大道至简，却也非常道。

四、参考文献

[1]网飞如何用智商打败对手？为何中国却只有“优爱腾”？

/video/BV1WL411w7Vz/?share_source=copy_web&vd_source=2493f65903f7e0745a991498a2234592

[2]/p/389785446

[3]/zhengzhicong/p/

[4]/p/451731153

[5]/

[5]/p/496849498

[6]/tardis/zm/art/624036684?source_id=1005

[7]/liuq4360/recommender_systems_

[8] Goldberg D, Nichols D, Oki B M, et al. Using collaborative filtering to weave an information tapestry[J]. Communications of the ACM, 1992, 35(12): 61-70.

[9]Linden, G, Smith, et al. recommendations: item-to-item collaborative filtering[J]. Internet Computing, IEEE, 2003, 7(1):76-80.

[10] Koren Y , Bell R , Volinsky C . Matrix Factorization Techniques for Recommender Systems[J]. Computer, 2009, 42(8):30-37.

[11] Rendle S . Factorization Machines[C]// ICDM 2010, The 10th IEEE International Conference on Data Mining, Sydney, Australia, 14-17 December 2010. IEEE, 2010.

[12] He X , Pan J , Ou J , et al. Practical Lessons from Predicting Clicks on Ads at Facebook[M]. ACM, 2014.

[13] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.

[14] Wang R, Fu B, Fu G, et al. Deep & cross network for ad click predictions[M]//Proceedings of the ADKDD'17. 2017: 1-7.

[15] Lian J, Zhou X, Zhang F, et al. xdeepfm: Combining explicit and implicit feature interactions for recommender systems[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 1754-1763.

[16] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

标签：

资讯