秀站网,秀执着,秀梦想,一个爱秀的地方!

自媒体资讯网

热门关键词:  as  i hone  阿萨德  网站
知乎:源自社区又服务于社区的AI技术
来源:
作者:
时间:2018-07-25
浏览热度:
#评论#
[ 导读 ] 每次知乎的技术负责人公开谈及人工智能技术,「智能社区」都是一个绕不开的词汇。
「知乎希望利用 AI 技术打造一个智能社区。」

每次知乎的技术负责人公开谈及人工智能技术,「智能社区」都是一个绕不开的词汇。然而「智能社区」也是一个相对陌生的概念:如今研究者与工程师们明确了深度神经网络在语音、图像和自然语言数据上的作用,并将它们进行逐一的细化和延展成了种种「智能应用」。然而「智能社区」是什么?

「每个人来到知乎,都能快速看到他感兴趣的人和内容,他的疑问可以被极速送达到有意愿和能力回答的人,他也会快速遇到让他拍案的好问题,分享只有他最懂的信息,收获最令他满足和愉悦的认同,与他希望遇到的人产生有价值的交流、讨论,甚至争执。这一切会是这个时代的思考和总结。我们会以从未有过的效率,创造思维的连接。让每个个体的思考和经验,被分享,被筛选,被总结,被转化成为这个时代的知识。知识的生产方式和迭代效率会因为这样的连接发生质的改变。」这是知乎合伙人、高级副总裁李大海对智能社区的定义。

然而为什么选择 AI 技术实现这一目标?AI 技术为社区带来了哪些变化?本文希望找到这些问题的答案。

不是「哪里有 AI」而是「处处皆 AI」

知乎诞生的初心是认为「在信息爆炸的互联网海洋中,有价值的信息仍然是稀缺的」。而其中最有价值的部分,是那些深藏在某些特定用户的脑海中的知识、经验与见解。平台需要对这些内容进行大量的挖掘与沉淀工作,才能让它们被真正需要的用户利用起来。完成这样的工作需要庞大的用户基数——这一点知乎已经通过成为最大的中文知识分享平台做到了。而规模也带来了问题多样性的指数级增长,让原有的产品机制开始「失效」,对排序、推荐算法都提出了更高的需求,这就是 AI 技术引入的必要性。

这个过程与深度学习本身的兴起逻辑是一致的:当数据的数量超出一定范围,人类就很难从大量数据中找到规律,需要在自己设置设计模型结构的基础上,引入可训练的模型,让机器帮助研究者完成参数的选择。而当数据的维度也超过一定范围时,进行特征提取变成了需要消耗大量人力物力进行试验的工作,因此研究者进一步引入可训练的特征提取器。

「AI 技术的引入让每一个人持有的信息都能高效地被发掘、得到交流、并且通过大家评价的过程进行过滤。换言之,整个知识生产的方式、节奏和效率都得到了质的变化,知识的生产与消费、社区的建立与管理,都变成了一个不一样的过程。」李大海总结道。

在这样的一个智能社区里,对 AI 技术的应用情况是十分惊人的。当我们试图从业务逻辑对知乎对 AI 的应用进行梳理,会发现从内容生产、消费到用户连接与社区管理,每一个过程都涉及不同的机器学习问题,放眼望去,与其说「哪里有 AI」,不如说「处处皆 AI」。

内容生产部分,可以分为问题提出与问题路由。问题提出是一个从用户的查询中识别出意图,发现知乎现在还无法满足的意图,引导用户进行提问,并根据用户的意图生成合理的问题的过程,得到提问和描述后,后台的卷积神经网络模型会从知乎超过二十五万个话题中选择出最匹配的话题,进行话题的推荐和绑定。问题路由则是如何分发问题以让合适的用户看到问题、激发他们的创作欲望。这就是一个典型的机器学习排序(learning to rank)问题。先在众多用户中通过召回定位合适的范围,然后通过 pointwise/pairwise/listwise 等排序方法,找出最有可能接受邀请以及最有可能产生优质回答的用户,进行推荐,或让用户选择委托系统进行邀请。

内容的分发和消费部分,按照情景可以分为首页信息流、搜索和相关推荐等。在信息流部分,李大海特别强调,「知乎的信息流设计与其他平台有所不同的地方在于,知乎希望用户来探索更大的世界而不是进入信息茧房,因此我们特别注重在信息流里拓展用户的兴趣边界。」除此之外,搜索是典型的文本与问题之间相关性回归问题,而相关推荐则既可以基于用户进行,也可以基于问答文本进行,可以用协同过滤(Collaborative Filtering)的方法进行,也可以用深度表示的方法进行。

连接和治理则是社区特有的需求,知乎在连接方向的追求是「让人发现更多有趣的灵魂」,本质上是理解用户价值观、兴趣,然后进行推荐的过程。而治理则是甄别不同类别的低质行为(如答非所问、软文)和不友善行为(阴阳怪气、贴标签),以针对不同情况进行不同处理,降低对讨论氛围的影响。

而除了业务逻辑主线的各个部分外,AI 技术也帮助进行了众多的细节优化,比如如何对不同呈现形式的信息流进行针对性渲染:如何挑选封面图、挑选后如何进行

裁剪操作,以在首页的卡片中呈现更多信息量,帮助用户判断是否要进行消费。

「知乎从 16 年起进行开始引入机器学习相关算法,最开始从经典机器学习方法开始(例如梯度提升决策树(GBDT)),再逐步替换成深度神经网络(DNN)的新方法。」李大海也提到了在业界的深度学习方法迭代之迅速,「一、两年前,带注意力机制的双向 LSTM 模型还是一个『新方法』,如今已经是一个『经典方法』了。」

内容消费里的 AI 技术:从首页信息流说起

当你打开知乎,你看到的是什么?

知乎的「推荐」信息流是首页里十分重要的一栏。用户在这里可以看到符合自己兴趣的内容,当下的一些热点讨论,也有知乎帮助你拓展兴趣边界的探索。然而知乎上仅问题与回答就超过 1 亿条,其中还有类目繁多的 live、电子书等付费内容。这道拥有超过一亿个选项的多选题,没有任何一个排序算法能独立给出令人满意的答案。因此庞大的内容体系决定了,只有分层级的排序系统才能胜任这个任务。

知乎的首页负责人张瑞用一张架构图为机器之心详细地描述了这个名为「水晶球」的推荐系统的组成。

 

知乎:源自社区又服务于社区的AI技术

 

首页上出现的内容经历过两次排序。第一次是从数十个推荐队列里被「召回」,第二次是在合并后经过深层神经网络(DNN)的「排序」。

「召回」的第一个步骤是,召回模块根据用户的历史行为表现(用户画像),确定数十个推荐队列,或者说数十个「召回源」的召回比例和召回数量。

推荐队列是一个个含有特定标签的内容合集。有些队列里内容性质相似,比如热点新闻队列、视频队列。还有的队列与用户行为紧密相关,比如关注的人队列、搜索关键词队列。

「召回」过程的第二个步骤是各召回源根据用户的需求分别将自己的队列中的内容做排序后,按召回数量返回内容。

整个「召回」过程都是以用户为中心的、高度个性化的:

比如一个初来乍到的新用户还没有「关注的人」,召回模块就不会从关注的人队列拉取内容,而是转向兴趣探测队列,帮助算法更好地了解用户。

再比如今天的视频类内容非常丰富,但是根据用户画像,这位用户极少消费视频内容,那么召回模块仍然只会从视频队列请求三条内容,视频队列也只推荐三条最符合用户需求的内容。

相关文档:

常用测试集带来过拟合?你真的能..

Spark团队开源新作:全流程机器..

机器学习5年大跃进,可能是个错..