探花系列成人不卡的无码高清,亚洲黄色AV免费性爱片

編者按：MIT博士、Salesforce前SVP、數(shù)據(jù)科學(xué)家Rama Ramakrishnan提醒，在從事數(shù)據(jù)科學(xué)項(xiàng)目時(shí)，養(yǎng)成首先創(chuàng)建基線的良好習(xí)慣，迅速交付價(jià)值，避免自我欺騙。

準(zhǔn)備解決一個(gè)數(shù)據(jù)科學(xué)問(wèn)題時(shí)，你可能很想單刀直入，直接開(kāi)始創(chuàng)建模型。

別這么做。首先創(chuàng)建一個(gè)常識(shí)基線。

常識(shí)基線是指，假設(shè)你不懂?dāng)?shù)據(jù)科學(xué)，你會(huì)如何解決這個(gè)問(wèn)題。假設(shè)你對(duì)監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、聚類(lèi)、深度學(xué)習(xí)之類(lèi)一無(wú)所知?，F(xiàn)在問(wèn)問(wèn)你自己，如何解決手頭的問(wèn)題？

對(duì)于經(jīng)驗(yàn)豐富的從業(yè)者而言，首先創(chuàng)建常識(shí)基線是常規(guī)操作。

他們會(huì)首先思考數(shù)據(jù)和問(wèn)題，發(fā)展某種關(guān)于什么能使解決方案更好的直覺(jué)，以及考慮一些需要避免的地方。他們會(huì)和商業(yè)終端用戶(hù)討論，這些用戶(hù)之前可能通過(guò)手工方式解決這個(gè)問(wèn)題。

有經(jīng)驗(yàn)的從業(yè)者會(huì)告訴你，常識(shí)基線不僅實(shí)現(xiàn)起來(lái)很簡(jiǎn)單，而且常常難以打敗。即使數(shù)據(jù)科學(xué)模型確實(shí)戰(zhàn)勝了這些基線，優(yōu)勢(shì)也可能很小。

直銷(xiāo)郵件

讓我們來(lái)看三個(gè)例子，從一個(gè)直銷(xiāo)的例子開(kāi)始。

你為一家服裝零售商工作，手頭有一個(gè)顧客數(shù)據(jù)庫(kù)，其中包括了去年從你處買(mǎi)過(guò)東西的每個(gè)顧客的信息。

你希望給一些顧客發(fā)郵件，宣傳最新的春裝，預(yù)算可以支持給數(shù)據(jù)庫(kù)中的100000名顧客發(fā)送郵件。

你應(yīng)該選擇哪100000個(gè)呢？

你大概已經(jīng)在打算創(chuàng)建一個(gè)訓(xùn)練集和一個(gè)測(cè)試集，并訓(xùn)練一些監(jiān)督學(xué)習(xí)模型了。也許是隨機(jī)森林或梯度提升。甚至是深度學(xué)習(xí)。

這些都是很強(qiáng)大的模型，你的工具箱也應(yīng)該常備這些。但是，先問(wèn)自己一個(gè)問(wèn)題：“如果這些方法都不存在，我必須靠自己的小聰明解決這個(gè)問(wèn)題，那么我該如何挑選出這100000個(gè)顧客？”

常識(shí)告訴你，應(yīng)該選擇那些最忠誠(chéng)的顧客，畢竟，他們是最可能對(duì)郵件感興趣的人。（不過(guò)，其實(shí)這個(gè)問(wèn)題也可以從增量建模（Uplift Modeling）的角度考慮，可能不管你發(fā)不發(fā)郵件，最忠誠(chéng)的顧客總是傾向于到你這兒買(mǎi)東西，反而是給不那么忠誠(chéng)的顧客發(fā)郵件，增量更高。）

那么，你將如何衡量忠誠(chéng)度呢？直觀地說(shuō)，忠誠(chéng)顧客傾向于多購(gòu)買(mǎi)，多花錢(qián)。所以你可以計(jì)算每位顧客去年在你那里花了多少錢(qián)，到你那里買(mǎi)過(guò)多少次東西？

如此計(jì)算之后，查看下結(jié)果，你會(huì)發(fā)現(xiàn)它很好地描述了忠誠(chéng)度。但是你也注意到，這樣會(huì)選中那些在上半年很忠誠(chéng)、下半年“失蹤”的客戶(hù)。

通過(guò)查看顧客在你處的最近購(gòu)買(mǎi)情況，可以修正這一問(wèn)題。如果花費(fèi)和購(gòu)買(mǎi)頻率相似，那么昨天在你處買(mǎi)東西的顧客，價(jià)值比11個(gè)月前購(gòu)買(mǎi)過(guò)的顧客要高。

總結(jié)一下，你為每位顧客計(jì)算：

過(guò)去12個(gè)月在你處的花銷(xiāo)

過(guò)去12個(gè)月在你處發(fā)生的交易數(shù)量

上一次交易到現(xiàn)在有幾周

你可以基于上面的三個(gè)測(cè)度排序顧客列表：

測(cè)度轉(zhuǎn)換為10分制（十分位）

選中其中的前100000名顧客。

恭喜！你剛剛發(fā)現(xiàn)的是價(jià)值很高的RFM（Recency-Frequency-Monetary）啟發(fā)式算法，直銷(xiāo)領(lǐng)域久經(jīng)考驗(yàn)的主力算法。

萬(wàn)一你好奇R、F、M中哪個(gè)最重要，據(jù)研究R最重要。

RFM方法易于創(chuàng)建，易于解釋?zhuān)子谑褂谩Ｗ蠲畹氖?，它出人意料地有效。有?jīng)驗(yàn)的直銷(xiāo)從業(yè)者會(huì)告訴你，即使當(dāng)更復(fù)雜的模型戰(zhàn)勝RFM的時(shí)候，兩者之間的差距也比你想象的要小得多，讓你懷疑是否有必要構(gòu)建復(fù)雜模型。

推薦系統(tǒng)

接下來(lái)，我們來(lái)看一個(gè)推薦系統(tǒng)的例子。

你工作的服裝零售商有一家電商網(wǎng)站，需要你創(chuàng)建產(chǎn)品推薦區(qū)域，該區(qū)域?qū)@示在首頁(yè)上。

服裝推薦需要個(gè)性化——如果訪問(wèn)者之前訪問(wèn)過(guò)你的站點(diǎn)，你需要基于歷史數(shù)據(jù)推薦符合他們口味的商品。

有些書(shū)整本都在討論這一主題，而GitHub上也有許多專(zhuān)門(mén)為此開(kāi)發(fā)的庫(kù)。你是不是應(yīng)該直接開(kāi)始應(yīng)用矩陣分解（點(diǎn)擊閱讀）？

到了一定時(shí)候你大概應(yīng)該嘗試下矩陣分解，但剛開(kāi)始你不應(yīng)該直接應(yīng)用矩陣分解。你首先應(yīng)該創(chuàng)建一個(gè)常識(shí)基線。

向訪問(wèn)者展示相關(guān)商品的最簡(jiǎn)單的方案是什么？

暢銷(xiāo)商品！

是的，它們并不是個(gè)性化的。但是暢銷(xiāo)商品之所以是暢銷(xiāo)商品，正是因?yàn)橛凶銐虻脑L問(wèn)者購(gòu)買(mǎi)了它們。所以從這個(gè)意義上說(shuō)，很大可能至少相當(dāng)一部分訪問(wèn)者會(huì)對(duì)這些商品感興趣，即使這些商品并不是根據(jù)訪問(wèn)者的興趣定制的。

此外，不管怎么說(shuō)，你都需要準(zhǔn)備好顯示暢銷(xiāo)商品，畢竟你需要向沒(méi)有數(shù)據(jù)的初次訪問(wèn)者展示一些東西。

選中暢銷(xiāo)商品很簡(jiǎn)單。確定一個(gè)時(shí)間窗口（最近24小時(shí)、最近7天、……），確定一項(xiàng)測(cè)度（利潤(rùn)、訪問(wèn)量、……），確定計(jì)算周期（每小時(shí)、每日、……），編寫(xiě)查詢(xún)請(qǐng)求并加以自動(dòng)化。

并且你可以調(diào)整這一基線，稍稍加上一點(diǎn)個(gè)性化。比如說(shuō)，如果記住了訪問(wèn)者上次訪問(wèn)站點(diǎn)瀏覽的商品類(lèi)別，那么你可以直接從這一具體類(lèi)別中選出暢銷(xiāo)商品（而不是選出所有類(lèi)別的暢銷(xiāo)商品），在推薦區(qū)域展示。例如，上次訪問(wèn)時(shí)瀏覽過(guò)女裝類(lèi)別的訪問(wèn)者，可以向她展示暢銷(xiāo)女裝。

需要澄清的是，上面描述的“調(diào)整”涉及開(kāi)發(fā)工作，因?yàn)槟阈枰坝涀　辈煌L問(wèn)會(huì)話的信息。但是，如果你計(jì)劃創(chuàng)建、交付基于模型的個(gè)性化推薦，那么這些收集信息的開(kāi)發(fā)工作是免不了的。

定價(jià)優(yōu)化

最后一個(gè)例子是零售定價(jià)優(yōu)化。

作為一個(gè)服裝零售商，你販賣(mài)季節(jié)性商品——例如，毛衣——在季節(jié)末，需要清庫(kù)存，以便為下一季的商品留出空間。服裝業(yè)對(duì)此的標(biāo)準(zhǔn)做法是減價(jià)促銷(xiāo)。

如果折扣太小，最后時(shí)刻你將不得不以廢品回收的價(jià)格出清積壓的季節(jié)性商品。如果折扣太大，季節(jié)性商品會(huì)很快售罄，但是你損失了賺取更多金錢(qián)的機(jī)會(huì)。

在服裝行業(yè)，平衡這兩者的藝術(shù)稱(chēng)為清倉(cāng)優(yōu)化或減價(jià)優(yōu)化。

有大量關(guān)于如何使用數(shù)據(jù)科學(xué)技術(shù)建模和求解這一問(wèn)題的文獻(xiàn)（例如，牛津價(jià)格管理手冊(cè)的第25章，利益申明：這書(shū)是我寫(xiě)的）。但是讓我們首先考慮下如何創(chuàng)建一個(gè)常識(shí)基線。

想象一下，手頭有100單位的毛衣，這一季還有4周。每周可以調(diào)一次價(jià)，也就是說(shuō)你有4次出手調(diào)整的機(jī)會(huì)。

你應(yīng)該從本周就開(kāi)始減價(jià)嗎？

好吧，首先考慮下，你覺(jué)得如果維持價(jià)格不變，下面4周可以賣(mài)掉多少單位毛衣？

我們?nèi)绾喂烙?jì)這一數(shù)值？最簡(jiǎn)單的做法是看看上一周賣(mài)了多少。

假定上一周賣(mài)了15單位。如果接下來(lái)4周和上一周情況差不多，那么我們將賣(mài)出60單位，到了季節(jié)末會(huì)積壓40單位。

不妙。明顯需要減價(jià)。

零售商有時(shí)使用折扣階梯，八折、七折、六折……最簡(jiǎn)單的做法是首先邁上折扣階梯的第一階，也就是下周開(kāi)始八折促銷(xiāo)。

快進(jìn)一周。比方說(shuō)賣(mài)掉了20單位，剩下80單位和3周。假設(shè)剩下3周維持相同的賣(mài)出率（例如，20單位每周），總共將賣(mài)出60單位，季節(jié)末仍將積壓20單位。所以你需要在折扣階梯上往下走一階，下周開(kāi)始增加促銷(xiāo)力度，改為七折出售。

以此類(lèi)推，在每周重復(fù)以上策略，直到季節(jié)末。

取決于賣(mài)出率對(duì)折扣的響應(yīng)程度，不同的商品可能遵循不同的折扣路徑。比如，相比下圖中的商品A，商品B需要更大力度的折扣刺激。

這一常識(shí)基線可以通過(guò)非常簡(jiǎn)單的if-then邏輯實(shí)現(xiàn)。和上面的個(gè)性化推薦例子一樣，我們也可加以調(diào)整（例如，之前我們直接使用上一周的銷(xiāo)售單位數(shù)“預(yù)測(cè)”未來(lái)幾周的銷(xiāo)售量，但是我們也可以轉(zhuǎn)而使用前幾周的平均銷(xiāo)售量）。

搞定了基線之后，你可以勇往直前，釋放數(shù)據(jù)科學(xué)的全部火力。但是不管你做了什么，都需要將所得結(jié)果與基線進(jìn)行比較，從而精確地評(píng)估工作的回報(bào)。

結(jié)語(yǔ)

在很多問(wèn)題上，古老的二八法則仍然適用。常識(shí)基線經(jīng)常能夠讓你以很快的速度取得80%的價(jià)值。

隨著越來(lái)越多數(shù)據(jù)科學(xué)技術(shù)的應(yīng)用，你將看到更高的價(jià)值，但價(jià)值增長(zhǎng)的速度越來(lái)越慢。取決于具體情況，你當(dāng)然可以決定使用一個(gè)復(fù)雜方案榨取最后一點(diǎn)價(jià)值。不過(guò)你應(yīng)該在很清楚增加的成本和收益的前提下才這么做。

常識(shí)基線能從根本上保護(hù)你避免理查德·費(fèi)曼提到的著名危險(xiǎn)：

首要原則是，你千萬(wàn)不能愚弄自己，最容易被愚弄的人是你自己。

創(chuàng)建數(shù)據(jù)科學(xué)模型可能是一個(gè)非常享受的過(guò)程，你很容易哄騙自己，你所創(chuàng)建的復(fù)雜、傾注了很多心血、精心調(diào)整的模型（從成本/收益角度上而言）更好，而實(shí)際上并沒(méi)有那么好。

常識(shí)基線能夠迅速交付價(jià)值，也能避免自我欺騙。請(qǐng)養(yǎng)成首先創(chuàng)建基線的好習(xí)慣。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5599

瀏覽量
124406
數(shù)據(jù)科學(xué)

數(shù)據(jù)科學(xué)

+關(guān)注

關(guān)注
0

文章
168

瀏覽量
10794