Quora是如何做推薦的,quora怎么才能使用Quora是如何做推薦的知乎聯(lián)合創(chuàng)始人張亮在值乎上問了俞軍老師一個問題,「以您的使用體驗看,您覺得知乎現(xiàn)在最急需做的三到五項產(chǎn)品改進是哪些」俞軍老師的回答中給的第一個意見就是,「個性化內容的挖掘和推快遞,我知道知乎里有大量內容是我感興趣的,但知乎推快遞的內容只有很少是我愿......
知乎聯(lián)合創(chuàng)始人張亮在值乎上問了俞軍老師一個問題,「以您的使用體驗看,您覺得知乎現(xiàn)在最急需做的三到五項產(chǎn)品改進是哪些」俞軍老師的回答中給的第一個意見就是,「個性化內容的挖掘和推快遞,我知道知乎里有大量內容是我感興趣的,但知乎推快遞的內容只有很少是我愿意點擊的,總讓我有種入寶山而空回的感覺,這方面網(wǎng)易云音樂、淘寶、今日頭條都是不錯的學習對象?!鼓敲矗兄懊腊嬷酢敝Q的Quora是如何做推薦的呢以下內容選自RecsysChina。
Quora的VP Engineering機器學習大牛Xavier Amatriain,曾在WWW2016大會的Question Answering Workshop做了一個報告,Machine Learning for QA Sites:The Quora Example[1]。
Quora的Mission:To share and grow the worlds knowledge。
Quora主要考慮的三個因素:Relevance、Quality和Demand。
Quora核心的數(shù)據(jù)模型及其之間的關系:
Feed Ranking
Quora做推薦的一個最核心問題就是Personalized Feed Ranking。Quora是以問題、答案與主題為核心把「知識」串聯(lián)起來,然后基于用戶的頂和踩等動作來劃分內容質量,最后再通過人和問題的Follow關系讓知識在社區(qū)內流動起來。而個人Feed正是這種「流動」的最主要的載體。Xavier說Quora做Feed Ranking的難度要比Netflix大,這也正常,沒有更大的挑戰(zhàn)想來Xavier也不會跳槽是吧。Quora Feed Ranking的首要目標是確保推快遞進用戶Feed的內容應該是和用戶興趣高度相關的,其次還需要考慮的包括用戶之間的Follow關系以及互動,Xavier管這個叫做social relevance,另外還有時間因素,比如一些和熱點事件相關的問答,也應該及時地推快遞進用戶Feed。
1.目標:Present most interesting stories for a user at a given time
·Interesting=topical relevance+social relevance+timeliness
·Stories=questions+answers
2.主要使用的是個性化的learningtorank方法
3.Xavier確認了一點,相比于時間排序(timeordered),相關度排序大大提升了用戶參與度。
4.面臨的挑戰(zhàn):
·potentially many candidate stories
·realtime ranking
·optimize for relevance
下圖是Quora做Feed Ranking最最基礎的數(shù)據(jù)構成,Quora管這個叫做「impression logs」。
圍繞這些基礎行為,Quora定義的Relevance函數(shù)如下。
簡單講就是使用一個「行為加權函數(shù)」來預測用戶對一個story的感興趣程度。有兩種可選的計算方法,一種是把所有行為弄到一個回歸模型里面直接預測最終值,另外一種就是先分別預測每個動作的可能性(比如頂、閱讀、分享等)然后再綜合起來加權求和。第一種簡單,但可解釋性稍差,第二種可以更好的利用每個動作信號,但需要給每個動作配一個分類器,計算消耗大。
Quora主要使用的三類模型如下:
另外Xavier也強調了特征工程的重要性,在這塊下功夫搞一下對最終能得到一個好的ranking結果非常有幫助,如果能夠實時在線的更新特征就更好了,這樣可以更及時地對用戶的行為作出響應。Quora最主要的特征包括:
·user(e.g.age,country,recent activity)
·story(e.g.popularity,trendiness,quality)
·interactions between the two(e.g.topic or author affinity)
從整體框架來看,Quora的Feed Ranking也沒有什么太特別的地方,基本上也是業(yè)界的標準打法。Quora比較特別的是它的數(shù)據(jù)模型相對其他網(wǎng)站更復雜,之間的關系也更多樣化。比如從用戶角度看,既可以follow其他用戶User,又可以follow問題Question,還可以follow主題Topic。
1.Follow用戶接收到的信息范圍更廣也更多樣化,驚喜內容很可能就是來自于自己關注的有趣的用戶,但也可能最容易制造不相關的內容噪音,這塊的最重要工作是用戶專業(yè)度的評估。
2.Question/Answer是Quora最核心的內容元素,也是驅動Quora體系里知識流動的原力,這塊的主要工作是引導更多的高專業(yè)度用戶來貢獻優(yōu)質答案,另外就是如何激發(fā)生產(chǎn)出更多的好問題(甚至是自動生成問題),要計算answer ranking,還有要做反sapm的工作。
3.Topic是對一個主題內容的聚合,Topic在Quora的信息架構里面承載著極其重要的角色,是知識結構的骨架,Quora管這個叫做Topic Network,如何構建Topic Network本身就是一個非常大的挑戰(zhàn),另外還需要解決的問題包括,如何把Topic下(潛在)優(yōu)質的問題發(fā)掘出來,以及如何把水問題降權和過濾/合并重復問題等。
圍繞著這些核心問題,Quora分別都進行了更深入的工作。Answer Ranking
Goal:Given a question and n answers,come up with the ideal ranking of those n answers.
Quora主要考慮了下面三大維度來進行Ranking計算,每個大維度下面又包含了很多的features。
4.答案內容本身的質量度。Quora對什么是「好的答案」有明確的指導[2],比如應該是有事實根據(jù)的,有可復用價值的,提供了解釋說明的,進行了好的格式排版的等等。
5.互動,包括頂/踩、評論、分享、收藏、點擊等等。
6.回答者本身的一些特征,比如回答者在問題領域的專業(yè)度。
另外這塊的工作也包含非個性化的與個性化的兩部分,某些類問題的排序是非個性化的,最好的答案對所有用戶而言都是一致的,而另外一些問題則是個性化的,對于每個人而言最好的答案會有自己個性化的判斷??傊?,Answer Ranking對Quora非常重要,這塊Quora做得很細致,Quora的blog上有一篇專門的文章講這個,有興趣的朋友可以去看看原文[3]。
The Answer Ranking system endtoend
Ask2Answers
A2A是Quora產(chǎn)品里面非常重要的一個功能,本來Quora是可以直接把相關問題推薦給系統(tǒng)認為的合適的回答者的,Quora最開始也是這么做的,但系統(tǒng)自動做這事兒顯然不如發(fā)動群眾人肉邀請回答來得感覺好,A2A操作增強了儀式感,讓被邀請者有種被人需要的感覺,心理上很滿足,另外這也是一種社交動作,社交的精髓之一就是為用戶制造「裝逼」的便利,回答問題前很隨意的「謝邀/瀉藥」,一切盡在不言中了。這個功能看似很簡單,Quora也是下了功夫的,Quora把A2A這事model成了一個機器學習問題:Given a question and a viewer rank all other users based on how「wellsuited」they are。其中「wellsuited」=likelihood of viewer sending a request+likelihood of the candidate adding a good answer,既要考慮瀏覽用戶發(fā)快遞邀請的可能性,又要考慮被邀請者受邀回答的可能性。Quora的blog上也有一篇文章詳細講解了他們的做法[4]。
Topic Network
Quora花了很大力氣來正確引導用戶給內容打標簽,持續(xù)不斷堅持這項工作的好處開始逐漸顯露出來了,他們發(fā)現(xiàn)[5],
隨著用戶群體的擴大,Topic正在呈現(xiàn)出迅速多樣化的勢頭。
很多領域都自組織出了相當不錯的層級知識結構。
Quora相信這種依靠社群來組織領域知識的方式是可行的。
User Trust/Expertise Inference
這是Quora另一件非常重要的事情,Quora需要找出某個領域的專家,然后通過產(chǎn)品引導這些專家在這個領域里貢獻更多的優(yōu)質答案。Quora會考慮用戶在某個領域里回答問題的多少,接收到的頂、踩、感謝、分享、收藏及瀏覽等數(shù)據(jù)。另外還有一個很重要的是專業(yè)度的傳播效應,比如Xavier在推薦系統(tǒng)領域對某個答案頂了一下,那么這個答案作者在推薦系統(tǒng)領域很可能具備較高的專業(yè)度。
其他
其他相關的,包括推薦主題、推薦用戶、相關問題、重復問題、反Spam等等,Quora大量地在使用機器學習的方法來解決這些問題。
Quora最大的寶藏,就是這幾年在各個領域不斷積累下來的大量有價值的內容,Quora自然也少不了對這些的挖掘,有篇文章叫Mapping the Discussion on Quora Over Time through Question Text[6],就是一個很好的挖掘數(shù)據(jù)價值的案例。
Facebook等幾個主題隨時間的變化情況
參考資料:
[1]http://www.slideshare.net/xamat/machinelearningforqasitesthequoraexample
[2]https://www.quora.com/WhatdoesagoodansweronQuoralooklikeWhatdoesitmeantobehelpful/answer/QuoraOfficialAccount
[3]https://engineering.quora.com/AMachineLearningApproachtoRankingAnswersonQuora
[4]https://engineering.quora.com/AskToAnswerasaMachineLearningProblem
[5]https://data.quora.com/TheQuoraTopicNetwork
[6]https://data.quora.com/MappingtheDiscussiononQuoraOverTimethroughQuestionText
特別聲明:以上文章內容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關于作品內容、版權或其它問題請于作品發(fā)表后的30日內與ESG跨境電商聯(lián)系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號密碼登錄
平臺顧問
微信掃一掃
馬上聯(lián)系在線顧問
小程序
ESG跨境小程序
手機入駐更便捷
返回頂部