热门搜索: 中考 高考 考试 开卷17
服务电话 024-96192/23945006
 

统计推荐系统

编号:
wx1201949091
销售价:
¥78.32
(市场价: ¥89.00)
赠送积分:
78
数量:
   
商品介绍

本书由LinkedIn公司的技术专家撰写,着眼于推荐系统的核心—统计方法,不仅讲解理论知识,而且分享了作者在LinkedIn和Yahoo!的实践经验。全书分为三部分:部分介绍推荐系统的组成、经典推荐方法及评估方法,并引出了探索与利用问题;第二部分围绕点击通过率(CTR)预估这一重要问题,重点介绍快速在线双线性因子模型和面向回归的隐因子模型,为热门推荐和个性化推荐提供解决方案;第三部分讨论进阶主题,涵盖分解的隐含狄利克雷分布模型、张量分解模型、层次收缩模型以及多目标优化方法。

---作者简介---迪帕克·K. 阿加瓦尔(Deepak K. Agarwal) LinkedIn公司副总裁,领导人工智能/机器学习团队的研发工作。之前曾任Yahoo!研究院研究主管和首席研究员,以及AT&T公司研究员。20多年来,他致力于为Web应用开发、部署机器学习和统计方法,以及解决推荐系统和计算广告领域的大数据问题。陈必衷(Bee-Chung Chen) LinkedIn公司首席主任工程师、应用研究员,曾任Yahoo!研究院研究员。作为核心开发者,他为LinkedIn和Yahoo!设计了前沿的推荐算法,此外,他还关注数据挖掘、机器学习和大数据分析技术。---译者简介---戴薇 深圳大学计算机与软件学院研究生,主要研究方向为迁移学习、推荐系统和机器学习。潘微科 深圳大学计算机与软件学院副教授,主要研究方向为迁移学习和推荐系统。 明仲 深圳大学计算机与软件学院院长、教授,大数据系统计算技术国家工程实验室执行主任,主要研究方向为人工智能、软件工程和推荐系统。

出版者的话译者序前言部分  基础知识章  简介21.1  面向网络应用的推荐系统概述31.1.1  算法31.1.2  优化指标51.1.3  探索与利用之间的权衡51.1.4  推荐系统的评估51.1.5  推荐和搜索:推送与拉取61.2  一个简单的评分模型:热门推荐71.3  练习10第2章  经典推荐方法112.1  物品特征112.1.1  分类122.1.2  词袋模型132.1.3  主题建模152.1.4  其他物品特征162.2  用户特征162.2.1  声明的个人信息172.2.2  基于内容的画像172.2.3  其他用户特征182.3  基于特征的方法182.3.1  无监督方法182.3.2  有监督方法192.3.3  上下文信息222.4  协同过滤222.4.1  基于用户-用户相似度的方法232.4.2  基于物品-物品相似度的方法242.4.3  矩阵分解242.5  混合方法272.6  小结282.7  练习28第3章  面向推荐问题的探索与利用293.1  探索与利用之间的权衡简介303.2  多臂赌博机问题313.2.1  贝叶斯方法313.2.2  极小化极大方法343.2.3  启发式赌博方案353.2.4  方法评价363.3  推荐系统中的探索与利用363.3.1  热门推荐363.3.2  个性化推荐363.3.3  数据稀疏性的挑战373.4  处理数据稀疏性的探索与利用373.4.1  降维方法373.4.2  降维中的探索与利用393.4.3  在线模型393.5  小结403.6  练习40第4章  评估方法414.1  传统的离线评估方法414.1.1  数据划分方法424.1.2  准确度指标444.1.3  排序指标454.2  在线分桶测试494.2.1  设置分桶测试494.2.2  在线性能指标504.2.3  测试结果分析514.3  离线模拟524.4  离线回放544.4.1  基本回放估计554.4.2  回放的扩展574.5  小结584.6  练习58第二部分  常见问题设置第5章  问题设置与系统架构605.1  问题设置605.1.1  常见的推荐模块605.1.2  应用设置635.1.3  常见的统计方法655.2  系统架构665.2.1  主要组件665.2.2  示例系统67第6章  热门推荐696.1  应用案例:雅虎“今日”模块696.2  问题定义716.3  贝叶斯方案726.3.1  2×2案例:两件物品,两个间隔736.3.2  K×2案例:K件物品,两个间隔756.3.3  一般解776.4  非贝叶斯方案796.5  实验评估816.5.1  比较分析816.5.2  方案刻画836.5.3  分段分析856.5.4  桶测试结果866.6  大规模内容池876.7  小结876.8  练习88第7章  基于特征回归的个性化897.1  快速在线双线性因子模型907.1.1  FOBFM概述907.1.2  FOBFM详解917.2  离线训练937.2.1  EM算法947.2.2  E步骤957.2.3  M步骤967.2.4  可扩展性977.3  在线学习977.3.1  在线高斯模型977.3.2  在线逻辑模型987.3.3  探索与利用方案997.3.4  在线模型选择997.4  雅虎数据集上的效果展示1007.4.1  My Yahoo!数据集1017.4.2  雅虎首页数据集1037.4.3  不包含离线双线性项的FOBFM1057.5  小结1057.6  练习106第8章  基于因子模型的个性化1078.1  面向回归的隐因子模型1078.1.1  从矩阵分解到RLFM1088.1.2  模型详解1098.1.3  RLFM的随机过程1128.2  拟合算法1138.2.1  适用于高斯响应的EM算法1148.2.2  适用于逻辑响应的基于ARS的EM算法1188.2.3  适用于逻辑响应的变分EM算法1218.3  冷启动效果展示1248.4  时间敏感物品的大规模推荐1278.4.1  在线学习1278.4.2  并行拟合算法1288.5  大规模问题效果展示1308.5.1   MovieLens-1M数据1318.5.2  小规模雅虎首页数据1328.5.3  大规模雅虎首页数据1348.5.4  结果讨论1378.6  小结1388.7  练习138第三部分  进阶主题第9章  基于隐含狄利克雷分布的分解1409.1  简介1409.2  模型1419.2.1  模型概述1419.2.2  模型详解1429.3  训练和预测1459.3.1  模型拟合1459.3.2  预测1509.4  实验1509.4.1  MovieLens数据1509.4.2  Yahoo! Buzz应用1519.4.3  BookCrossing数据集1539.5  相关工作1549.6  小结1550章  上下文相关推荐15610.1  张量分解模型15710.1.1  建模15710.1.2  模型拟合15810.1.3  讨论15910.2  层次收缩模型16010.2.1  建模16010.2.2  模型拟合16110.2.3  局部增强张量模型16410.3  多角度新闻文章推荐16510.3.1  探索性数据分析16610.3.2  实验评估17110.4  相关物品推荐17610.4.1  语义相关性17710.4.2  响应预测17710.4.3  预测响应和预测相关性的结合17810.5  小结1781章  多目标优化17911.1  应用设置17911.2  分段方法18011.2.1  问题设置18011.2.2  目标优化18111.3  个性化方法18311.3.1  原始表示18411.3.2  拉格朗日对偶18511.4  近似方法18811.4.1  聚类18811.4.2  采样18911.5  实验18911.5.1  实验设置19011.5.2  实验结果19111.6  相关工作19711.7  小结198参考文献199索引205

这本书讲什么推荐系统是一类自动化的计算机程序,能够在不同场景下将物品和用户进行匹配。推荐系统无处不在,已然成为我们日常生活的一部分。例如,亚马逊购物网站上的产品推荐,雅虎上的内容推荐,Netflix上的电影推荐,领英上的工作推荐等。匹配算法的构建需要用到大量高频数据,它们来源于用户与物品的历史交互行为。从本质上来看,推荐算法属于统计学范畴,在序贯决策过程、高维类别数据的建模以及开发可伸缩的统计方法等领域都面临着挑战。在推荐系统领域,算法的推陈出新依赖于计算机科学家、机器学习专家、统计学家、优化专家、系统专家,当然还有领域专家之间的密切合作。可以说,推荐系统是大数据领域最振奋人心的应用之一。我们为什么写这本书虽然计算机科学、机器学习和统计学等领域已有大量关于推荐系统的书籍,但它们仅针对问题的某些特定方面,没有综合考虑所有的统计问题,也没有分析这些统计问题是如何相互关联的。而我们也是在雅虎和领英部署推荐系统时才意识到这个问题,例如,统计学和机器学习的重点在于最小化样本外的预测误差,但达成这个目标并不意味着实践中的所有重要问题都得到了解决。从统计学意义上来说,推荐系统是一个高维序贯过程,研究实验设计类问题与开发精密的统计模型一样重要。事实上,这两者关系密切,高效的实验设计需要借助模型克服维数灾难。此外,大多数现有工作倾向于对单一反馈建模,例如电影评分、购买和点击率。但随着Facebook、领英和推特等社交媒体的兴起,多种反馈随之而来,例如,一个新闻推荐应用可能需要同时对用户的点击率、分享率和发文率这三类数据建模。这种面向多种反馈的建模是很有挑战性的。最后的问题是,即便我们获得了能够实现这种多变量预测的方法,又该如何构建效用函数去完成推荐呢?优化分享率比优化点击率更重要吗?关于这些问题的解答,我们可以与多目标优化领域的专家密切合作,利用多目标优化来获得一些效用参数。本书的目的是对推荐系统中的问题进行全面讨论,另外,也对当前最先进的统计方法,如自适应序贯设计(多臂赌博机方法)、双线性随机效应模型(矩阵分解)以及现代的基于分布式计算框架的可伸缩模型,进行详细且深入的探讨。我们希望通过本书分享我们在工业界开发大规模推荐系统的丰富经验,也希望能够引起统计学、机器学习和计算机科学等领域相关人士的关注。我们相信,这对许多方面都是有益的。本书有助于推进高维大数据统计的研究,这类研究尤其有利于Web应用的发展。此类学术研究离不开处理海量数据的软件,为此,我们将本书用到的隐因子模型的代码公布在以下网址:https://github.com/beechung/Latent-Factor-Models。我们也相信本书能够成为连接理论研究与实际应用的桥梁。一方面,本书可以帮助对推荐有疑惑的学者理解推荐系统中的统计知识;另一方面,如果建模人员在实际应用中遇到复杂的统计问题,本书也能提供深入的解答。章节组织结构本书共分为三个部分。在部分中,我们将介绍推荐系统问题、存在的挑战、应对挑战的主要思路以及所需的背景知识。在第2章中,我们将概述几种开发推荐系统的经典方法。这些方法将用户和物品表示为特征向量,然后通过一些相似度计算函数、标准监督学习或协同过滤来预测用户-物品的评分。这些经典方法通常会忽略推荐问题中探索与利用之间的权衡。因此,我们将在第3章论述在推荐系统中权衡探索与利用的重要性,并介绍用它解决后面章节中问题的主要思路。在深入研究技术性方案之前,我们将在第4章回顾一些用于评估不同推荐算法性能的方法。在第二部分中,我们将提供针对常见问题设置的详细解决方案。在第5章中,我们将介绍不同的问题设置,并展示一个系统架构案例。接下来的三章分别对应三个常见的问题设置。第6章将为热门推荐问题提供几种解决方案,尤其注重探索和利用之间的权衡。第7章将基于特征回归解决个性化推荐问题,重点在于如何利用最新的用户-物品交互数据不断更新模型,使其快速收敛至最优。第8章将第7章中基于特征的回归模型扩展成因子模型(矩阵分解),同时还将为因子模型中的冷启动问题提供一个合适的解决方案。在第三部分中,我们将讨论三个进阶主题。在第9章中,我们将介绍一个结合隐含狄利克雷分布(LDA)主题模型的矩阵分解模型,该模型可以同时确定物品蕴涵的主题和用户对不同主题的偏好度。在0章中,我们将研究上下文相关推荐问题,即物品不仅需要与用户具有高度的关联性,还必须与上下文相关(例如,推荐与用户正在阅读的新闻相关的物品)。在1章中,我们将讨论一个基于约束优化方法的多目标优化框架,试图在其他目标的有界损失范围内(例如,点击损失不超过5%)优选化某一特定目标(例如,收入)。缺点与其他书籍一样,本书也难免存在不足。首先,我们没有深入涉及现代计算框架,比如可以用来拟合一定规模模型的Spark框架。其次,如果用户构成了一个社交网络,那么传统的实验设计方法无法用于模型的在线评估,这就需要我们开发适用于社交图谱推理的新技术。以上这些进阶主题都不在本书的范围内。全书从始至终都将基于回归的

商品参数
基本信息
出版社 机械工业出版社
ISBN 9787111635734
条码 9787111635734
编者 [美] 迪帕克·K. 阿加瓦尔(Deepak K. Agarwal) 陈必衷
译者
出版年月 2018-03-01 00:00:00.0
开本 16开
装帧 平装
页数 220
字数 160
版次 1
印次 1
纸张
商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]