首页 - 推荐新闻 - 魔方,不二家,中原银行-简书咨询,大数据采集简书内容,分享给你最实用的信息

魔方,不二家,中原银行-简书咨询,大数据采集简书内容,分享给你最实用的信息

发布时间:2019-08-14  分类:推荐新闻  作者:admin  浏览:226

作者 | 王喆

转载自知乎王喆的机器学习笔记

导读:周星驰闻名的电影《功夫》里边有一句闻名的台词——“全国武功,攻无不克,唯快不破”。假如说引荐体系的架构是那把“攻无不克”的“玄铁重剑”,那么引荐体系的实时性便是“唯快不破”的“柳叶飞刀”。咱们这篇文章就从引荐体系“实时性”的视点,谈一谈影响引荐体系实时性的有哪些要素?怎么进步引荐体系的实时性?

导读:周星驰闻名的电影《功夫》里边有一句闻名的台词——“全国武功,攻无不克,唯快不破”。假如说引荐体系的架构是那把“攻无不克”的“玄铁重剑”,那么引荐体系的实时性便是“唯快不破”的“柳叶飞刀”。咱们这篇文章就从引荐体系“实时性”的视点,谈一谈影响引荐体系实时性的有哪些要素?怎么进步引荐体系的实时性?

在问为什么之前,要先问一下“是不是”。为了证明引荐体系实时性和引荐体系效果的联络,Facebook曾运用GBDT+LR模型和单纯的树模型进行过实时性的试验。

图1 Facebook的模型实时性试验

图1中横轴代表的是模型练习完毕到模型测验的时刻间隔(天数),纵轴是丢失函数Normalized Entropy。从图中可以看到,无论是GBDT+LR模型,仍是单纯的树模型,丢失函数都跟模型更新推迟有着正相关的联络。

直观一点,在用户运用个性化新闻运用时,用户的期望是更快找到与自己爱好相符的文章;在运用短视频服务时,等候更快地“刷”到自己感爱好的内容;在进行在线购物时,相同期望更快找到自己喜爱的产品。一切的引荐都杰出一个“快”字,这便是引荐体系“实时性”效果的直观表现。

从专业的视点来说,引荐体系的实时性相同是至关重要的,首要表现在下面两个方面:

这两个方面的原因也直接与影响引荐体系实时性的两大要素有关:

引荐体系“特征”的实时性

引荐体系特征的实时性指的是体系“实时”地搜集引荐体系模型所需的输入特征,使引荐体系可以总是运用最新的特征进行猜测和引荐。

举例来说,现在开发一个短视频引荐体系,某用户完整地看完了一个长度为10分钟的“羽毛球教育”视频上。那么毫无疑问该用户关于“羽毛球”这个主题是感爱好的。体系期望在用户下次翻页的时分就持续引荐“羽毛球”相关的视频。可是因为体系特征的实时性不强,用户的观看前史无法实时反馈给引荐体系,导致引荐体系在得知该用户看过“羽毛球教育”这个视频的时分,现已半个小时之后了,此刻用户现已脱离该运用了。这便是一个引荐体系实时性差导致引荐失利的比方。

固然,用户在下次敞开该运用的时分,引荐体系可以运用前次的用户行为前史引荐“羽毛球”相关的视频,但该引荐体系毫无疑问丧失了最或许添加用户粘度的,添加用户留存度的机遇。

那么怎么增强“特征”的实时性呢?这儿我简略画了一张引荐体系的干流技能架构图(图2),来阐明影响“特征”实时性的三个首要阶段 。

图2 引荐体系数据流的技能架构图

客户端实时特征

客户端是最接近用户的环节,在经典的引荐体系中,常常运用客户端搜集时刻、地址、引荐场景等上下文特征,然后让这些特征随http恳求一同抵达服务器端,参加模型猜测。可是客户端关于实时性的重要性,常常被忽视的一点是客户端仍是可以实时搜集session内用户行为的当地。

拿新闻类app来说,用户在同一session中,三分钟之内别离点击并阅读了三篇文章。这三篇文章关于用户的引荐成果来说是至关重要的,因为它们代表了用户的即时爱好。假如选用传统的流核算渠道,乃至散布式批处理核算渠道,因为体系推迟问题,大概率无法在3分钟之内就把session内部的行为前史存储到特征数据库(比方redis)中,这就使这位用户的引荐成果不会立刻遭到session内部行为的影响。

假如客户端可以缓存session内部的行为,作为与上下文特征相同的实时特征传给引荐服务器,那么引荐模型就可以实时得到session内部行为特征,进行实时的引荐。这便是运用客户端实时特征进行实时引荐的优势地点。关于这个论题,感谢 @dragonfly 在评论中共享的经历。

流处理渠道的准实时特征处理

跟着storm,spark streaming,特别是flink等一批十分优异的流处理渠道的日益老练。运用流处理渠道进行准实时的特征处理现已成为了当时引荐体系的标配。

所谓流处理渠道,是将日志以流的方式进行mini batch处理的准实时核算渠道。因为每次需求等候并处理一小批日志,流处理渠道并非彻底实时的渠道,但优势是可以进行一些简略的核算类特征的核算,比方一个物品在该时刻窗口内的曝光次数,点击次数,一个用户在该时刻窗口内的点击论题散布等等。

流处理渠道核算出的特征可以立马存入特征数据库供引荐体系模型运用,尽管无法实时的依据用户行为改动用户成果,但分钟等级的推迟根本可以确保用户的引荐成果准实时地遭到之前行为的影响。

散布式批处理渠道的全量特征处理

跟着数据终究抵达以HDFS为主的散布式存储体系。Spark等散布式核算渠道总算可以进行全量特征的核算和抽取。在这个阶段侧重进行的还有多个数据源的数据join和以及推迟信号的兼并。

比方用户的曝光、点击、转化数据往往是在不同时刻抵达HDFS的,有些游戏类运用的转化数据的推迟乃至高达几个小时,因而也只要在这一阶段才可以进行全量特征以及相应label的抽取和兼并。也只要在全量特征准备好之后,才可以进行更高阶的特征组合的作业。这往往是无法在客户端和流处理渠道渠道上进行的。

散布式批处理渠道的核算成果的首要用途有两个:

当然,因为数据从发生到彻底进入HDFS,再加上spark的核算推迟,这一进程的总推迟往往到达小时等级,现已无法进行所谓的“实时”引荐。更多的是对用户下次登陆时进行更好的引荐。

再谈引荐体系特征实时性的重要性

在构建引荐体系时,引荐体系的实时性往往是简单被咱们忽视的要素。咱们一味聚集在一些离线目标上,期望在离线目标中发现改善模型结构的头绪,殊不知线上特征实时性的改动就会发生原强于模型结构的影响。

但特征实时性再强,影响的规模也仅限于当时用户,要想快速捉住体系等级的大局的数据改变和新发生的数据pattern,就必须加强“模型”的实时性,下篇文章咱们就介绍一下增强引荐体系“模型”实时性的首要办法。

按常规给我们出两个典型的运用场景,我们考虑一下这两个场景是怎么完成的?是不是特征实时性最直接的表现:

当然,假如有字节跳动和知乎的同学言传身教,那是再好不过的。

原文链接:https://zhuanlan.zhihu.com/p/74813776

(*本文为 AI科技大本营转载文章,转载请联络作者)

间隔「训练+会议」优惠票 2149 元(3.5折)限时抢购完毕仅剩 1 天

3.5 折最终倒计时 1 天,8 月 12 日将敞开 5 折票

下一篇
快捷导航
最新发布
标签列表