【原稿】我分享的主題是數(shù)據(jù)驅(qū)動的決策輔助和產(chǎn)品智能大數(shù)據(jù)培訓是騙局,主要涉及我在數(shù)據(jù)科學探索方面的經(jīng)驗以及Fix這個數(shù)據(jù)驅(qū)動的創(chuàng)業(yè)公司的商業(yè)模式、業(yè)務流程和參考。特征和推薦算法。
數(shù)據(jù)科學探索的心得與體會
數(shù)據(jù)科學可以從獲得的大數(shù)據(jù)競賽平臺開始。這是一個大規(guī)模的數(shù)據(jù)科學家社區(qū)。成立于2010年,專注于舉辦數(shù)據(jù)科學和機器學習競賽。
在 C 端,它迅速吸引了大量數(shù)據(jù)科學家和機器學習開發(fā)者的參與。在B端,.com的模式也與一大批優(yōu)秀企業(yè)對接,探索現(xiàn)實中各種業(yè)務問題的算法和解決方案。
而其基于社區(qū)的招聘服務和代碼共享工具也是社區(qū)運營的關鍵競爭力。
人們常說它是一個玩數(shù)據(jù)的平臺,ML開發(fā)者大顯身手,一舉成名。如果你是學習數(shù)據(jù)科學的新手,想找工作,可以先參加幾場比賽。
如下圖,有兩個練習:
回歸分析預測房價。這是美國中西部只有大約 100,000 人的大學城。數(shù)據(jù)給出了79個解釋變量,如質(zhì)量得分、形狀(規(guī)則/不規(guī)則/非常不規(guī)則)、居住面積、路面(鋪好的礫石/柏油碎石)等。通過分析這些解釋變量,可以預測房價。
如圖,Y軸是銷售價格,X軸是1-10的質(zhì)量分數(shù)。可以看出,當質(zhì)量分數(shù)增加時,售價也以增加的速度增加。
分類問題。這是給谷歌的視頻打標簽,使用-8M作為訓練數(shù)據(jù),視頻在百萬量級,每個視頻對應3-5個標簽,標簽總數(shù)約4000個。
從給定的訓練集中提取一些模型并移動到測試集。問題輸出是對于每個視頻,可以預測一個標簽列表,并且標簽可以按置信度排序。
在數(shù)據(jù)競爭中,數(shù)據(jù)經(jīng)過預處理,基本變成了行列的表格數(shù)據(jù)。因此可以省去很多原始數(shù)據(jù)的預處理過程。
下圖展示了基本的數(shù)據(jù)科學流程:
一開始要先收集原始數(shù)據(jù)(CRM、歷史交易等),以及網(wǎng)站分析或埋點用戶的APP行為,根據(jù)這些埋點跟蹤用戶的行為。
之后對原始數(shù)據(jù)進行預處理,也稱為數(shù)據(jù)清洗,因為原始數(shù)據(jù)會有很多冗余、重復信息、缺失變量和錯誤。基于清洗后的數(shù)據(jù)集,可以進行一些探索性分析和機器學習。
數(shù)據(jù)科學用途和數(shù)據(jù)產(chǎn)品
尿布和啤酒是數(shù)據(jù)科學探索和分析的經(jīng)典例子。許多分析師對產(chǎn)品信息進行分類并監(jiān)控產(chǎn)品相關性。
總的來說,大部分產(chǎn)品的相關性較低,約為0.1,啤酒和紙尿褲的相關性為0.3。針對這一奇怪現(xiàn)象,分析人士分析發(fā)現(xiàn),很多爸爸晚上去超市給寶寶買尿布,也買啤酒給自己喝。
這樣,超市在推出產(chǎn)品時,可以將相關性比較高的產(chǎn)品放在一起,方便顧客選擇。因此,對于數(shù)據(jù)科學來說,通過數(shù)據(jù)分析和建模,可以獲得一些有說服力的信息,便于決策輔助。
另一個是生成分析和智能數(shù)據(jù)產(chǎn)品:
數(shù)據(jù)科學家分類
數(shù)據(jù)科學家可以分為兩類,但也有很多人兼任并相互轉(zhuǎn)換。
更多的時候是問題導向,比如用戶在工作時間和下班后在購物平臺上的消費習慣不同。最初可以對整體綜合信息進行分析,然后根據(jù)結果進行更詳細的分析。用戶可以根據(jù)城市、地理位置、用戶使用的客戶端進行分類細化。
這里的整個過程是互動的,即不斷提出新問題,通過分析解決,再提出新問題,最終目的是輔助決策。
主要由指標驅(qū)動,例如提高用戶在廣告平臺上的轉(zhuǎn)化率。轉(zhuǎn)化率是從用戶點擊廣告到產(chǎn)生轉(zhuǎn)化或用戶訪問網(wǎng)站并下載應用的時間。
通過應用新模型或改進現(xiàn)有系統(tǒng)的現(xiàn)有參數(shù)來改進指標,最終目標是產(chǎn)生智能產(chǎn)品,當然中間考慮規(guī)模和自動化。
Fix的商業(yè)和商業(yè)模式
Fix的商業(yè)模式
Fix 的商業(yè)模式與早期的商業(yè)模式非常相似。在 2004、2005 年左右,F(xiàn)ix 的商業(yè)模式主要是用戶可以建立一個他們想在線觀看的電影隊列。將電影發(fā)送到用戶家中。
Fix采用的是直郵模式,不過是電商+直郵+推薦?,F(xiàn)在,F(xiàn)ix是一家在線個性化服裝推薦公司。用戶注冊后,系統(tǒng)會推薦一些衣服寄到家里,用戶可以根據(jù)自己的興趣和喜好來決定是否購買這些衣服。
Fix主要解決用戶以下購物痛點:
Fix的商業(yè)模式
下圖從用戶的角度展示了Fix的業(yè)務流程:
從用戶的角度來看,用戶需要填寫一份個人風格問卷。問卷涵蓋了購買衣服時考慮的一般問題,例如顏色、價格、尺寸等。
Fix 收集用戶的個人風格問卷,并根據(jù)算法和造型師推薦進行推薦。之后,用戶會收到五件不同的衣服,可以在方便的地方試穿和搭配其他衣服,喜歡保留,不喜歡退貨。
Fix在推薦衣服或搭配人品時,采用的是人機協(xié)同的方式,不是單純的機器算法,也不是單純的人工。優(yōu)勢互補,達到1+1>2的效果。
下圖為人機協(xié)作推薦服裝:
按算法:
如下圖所示,人與算法協(xié)同工作:
構建人機協(xié)同系統(tǒng),讓兩者優(yōu)勢互補,真正實現(xiàn)1+1>2。人類可以在系統(tǒng)中處理非結構化數(shù)據(jù),例如文本數(shù)據(jù)、照片等。
您還可以與用戶進行情感交流。比如造型師和用戶之間,如果多做一些情感交流,大家就會更加信任他們。還可以有更多的創(chuàng)造力,使算法不受邊緣情況的影響。
如上圖,左邊是電腦,右邊是人。計算機可以處理相對繁重的重復計算。此外,計算機的短期記憶和長期記憶是人類無法比擬的。
人類擅長處理非數(shù)據(jù)結構,美化照片,建立更好的人機關系。靈敏度也可以處理,比如這句話:把麥克風放在地上,上面放一本書。其中,大家都知道的“上面”是地面,但在這樣的場景下機器學習很難。
Fix 的數(shù)據(jù)團隊簡介和職責
下圖是Fix的數(shù)據(jù)團隊概覽:
Fix團隊由約80人組成,主要分為四個小團隊:客戶、推薦、庫存和數(shù)據(jù)平臺。數(shù)據(jù)平臺團隊的大數(shù)據(jù)架構和自動化分析流程支持其他三個團隊,與業(yè)務單元一一對應。
客戶團隊主要做精準營銷、需求預測、用戶畫像、客服分析。需求預測主要考慮用戶的穩(wěn)定增長、需求的季節(jié)性和訂閱用戶。
推薦團隊主要做人貨匹配、用戶造型師匹配、人與造型師行為分析。
當用戶發(fā)送請求時,造型師將與用戶匹配。Human主要研究造型師在虛擬環(huán)境中的行為,比如一些歷史購買或退貨數(shù)據(jù),并基于這些數(shù)據(jù)采樣,構建一個虛擬環(huán)境供造型師選衣服。.
在已知購買和退貨的情況下控制造型師信息的顯示。還要檢查不同的演示情況對造型師成功率的影響。造型師行為分析通過日志分析造型師的實際選擇行為。
庫存團隊主要做庫存預測、基于算法的清關和標簽。
庫存在任何時候都是非??勺兊摹}庫里有庫存的商品,還有從庫存發(fā)往用戶家中的商品,留在用戶家中,退回用戶沒有購買的商品,所以需要對庫存進行預測。還有產(chǎn)品的標簽,有了標簽數(shù)據(jù),可以做更好的匹配。
Fix的智能物流
智能物流-倉庫分配
Fix采用單倉發(fā)貨、單包方式。
如下圖,選擇倉庫發(fā)貨:
Fix 有五個存儲庫。當用戶發(fā)送請求時,首先選擇存儲庫。在選擇倉庫的時候,要考慮運輸成本、交貨時間、庫存匹配等。倉庫在不斷的賣貨,所以庫存會不斷的消耗,不同的庫存和用戶維度也在實時變化。
智能物流-造型師匹配
如下圖,是用戶造型師搭配表:
基于交易歷史、造型師的用戶評分和兩個配置文件的匹配。它將考慮用戶和造型師的屬性。如果用戶是媽媽,它會盡量推薦同樣是媽媽的造型師。
智能物流——人與貨的匹配
下圖是基于用戶和過去產(chǎn)品交易的特征建模:
人貨匹配可以理解為更傳統(tǒng)的機器學習算法,其中之一就是協(xié)同過濾。協(xié)同過濾不使用用戶特征和產(chǎn)品特征,而僅使用用戶特征和過去的產(chǎn)品交易。
另一種方法是根據(jù)用戶特征和產(chǎn)品特征進行建模。用戶特征部分Fix有用戶問卷;產(chǎn)品特征部分通過邏輯回歸、支持向量機、深度神經(jīng)網(wǎng)絡學習得到。
下圖展示了用戶問卷的特點:
從圖中可以看出,將收集用戶的數(shù)據(jù),包括年齡、位置、職業(yè),以及用戶的體型、顏色偏好等。
Fix還設計了風格彩虹概念,將每個用戶的風格和喜好放在七個維度,包括經(jīng)典、浪漫、波西米亞、前衛(wèi)、閃亮、休閑和制服。
另外,隱式大小可以根據(jù)交易歷史得到。例如,如果用戶規(guī)模從小到大,在不同的范圍內(nèi),模型會預測一些隱式的規(guī)模來將用戶放在相同的范圍內(nèi)。
下圖為產(chǎn)品特點:
產(chǎn)品特征通過深度神經(jīng)網(wǎng)絡學習獲得。通過對圖片的分析,將每個產(chǎn)品的圖片放入深度神經(jīng)網(wǎng)絡,并產(chǎn)生一些流程。可以為每個產(chǎn)品過程計算產(chǎn)品相似度矩陣,從而可以使用鄰近矩陣。推薦方法。
Fix的推薦算法
在算法方面,F(xiàn)ix主要是在開源庫的基礎上自研,更像。
如下圖,F(xiàn)ix主要算法Mixed-混合效果邏輯回歸:
在矩陣中,每一行代表一個用戶,每一列代表一個產(chǎn)品。還有用戶特征、產(chǎn)品特征,還有一些匹配的反饋。然后通過建模預測這些數(shù)據(jù),這是具有混合效應的邏輯回歸。
推薦算法的挑戰(zhàn)
對于推薦算法,最應該考慮的指標是什么?例如,交易數(shù)據(jù)、購買率?
Na?ve 的解決方案是忽略造型師的選擇并為交易數(shù)據(jù)建模。
交易數(shù)據(jù)是每個用戶,每次郵寄、購買和退回的物品和產(chǎn)品。這樣做的好處是可以用傳統(tǒng)的機器學習來解決問題,而且交易數(shù)據(jù)量不是很大。
但是,如果我們真的使用這種方法,我們會遇到很多問題。要刪除數(shù)據(jù):
當用戶有特殊要求時,如果用戶不喜歡無袖,造型師不會推薦。這部分數(shù)據(jù)無法反映在交易數(shù)據(jù)中。對于此類用戶,無法估計這些用戶推薦的這些產(chǎn)品是否成功。速度。
購買率不一定是一個好的排序指標
下面兩張圖是兩件衣服的購買率對比:
圖中我們可以看到第一項覆蓋率比較低,大圈是所有用戶群。所有用戶群體中只有一小部分選擇了這款產(chǎn)品,因為這款產(chǎn)品比較前衛(wèi),雖然受眾少大數(shù)據(jù)培訓是騙局,但知道為誰選擇,購買率高。
第二件比較中性和百搭,可以送給任何人,但造型師不太確定顧客在買什么。因此,被選中的用戶圈子覆蓋面大,但覆蓋率高,購買率低。
如下圖,如果以購買率作為指標,則需要將第一項排在第一位:
訂購時需要注意的一個非常重要的因素是,在造型師選擇過程中會有選擇性偏差,可以使用兩階段模型來解決這種偏差。
總結
本文主要分享一些數(shù)據(jù)科學的經(jīng)驗和Fix的一些關鍵技術。如果讀者對數(shù)據(jù)科學感興趣,我建議三個詞:興趣、實踐和分享。
以上內(nèi)容根據(jù)王建強先生在“大數(shù)據(jù)應用創(chuàng)新”專場的演講內(nèi)容整理而成。
原美國總部技術總監(jiān),中國科學技術大學管理學學士,博士。2008年獲得洛瓦州統(tǒng)計學博士學位。他是科羅拉多州立大學(州)統(tǒng)計系的客座教授,美國國家統(tǒng)計局(of)和美國農(nóng)業(yè)部聯(lián)合培養(yǎng)的博士后,-的高級科學家。 (-Labs),以及 廣告組的數(shù)據(jù)科學家。擁有多年數(shù)據(jù)分析與建模經(jīng)驗,涵蓋需求預測、供應鏈管理、廣告點擊率預測、廣告排名、推薦算法、統(tǒng)計預測模型等領域。對數(shù)據(jù)科學教育、互聯(lián)網(wǎng)廣告和新興零售商業(yè)模式感興趣。
【51CTO原稿,合作網(wǎng)站轉(zhuǎn)載,轉(zhuǎn)載請注明原作者及出處】