不卡的AV网站,欧美日韩A片-免费日韩电影在线

什么是實(shí)驗(yàn)的異質(zhì)性

1. 如何理解實(shí)驗(yàn)結(jié)果中的指標(biāo)變化

當(dāng)我們看到如下試金石實(shí)驗(yàn)指標(biāo)結(jié)果時(shí)

在進(jìn)行分析前，可能我們的第一直覺是這樣的

經(jīng)過異質(zhì)性分析后，可能會(huì)發(fā)現(xiàn)實(shí)際情況是這樣的

2. 概念解析與定義

實(shí)驗(yàn)的異質(zhì)性，一般被稱為HTE（即Heterogeneous Treatment Effects），意為實(shí)驗(yàn)中同一個(gè)treatment對(duì)不同的實(shí)驗(yàn)樣本，得到的策略效果可能是不一樣的。另外還有一些重要的概念需要大家理解

英文簡(jiǎn)稱	英文全稱	中文譯名	含義	公式
ATE	Average Treatment Effect	平均處理效應(yīng)	所有實(shí)驗(yàn)對(duì)象的平均實(shí)驗(yàn)效果	ATE=E[Y(1)?Y(0)]ATE=E[Y(1)?Y(0)]
CATE	Conditional Average Treatment Effect	條件平均處理效應(yīng)	滿足一定條件的實(shí)驗(yàn)對(duì)象的平均實(shí)驗(yàn)效果	CATEX=E[Yx(1)?Yx(0)∣x∈X]CATEX?=E[Yx?(1)?Yx?(0)∣x∈X]
ITE	Individual Treatment Effect	個(gè)體處理效應(yīng)	某個(gè)實(shí)驗(yàn)對(duì)象的實(shí)驗(yàn)效果	ITEi=E[Yi(1)?Yi(0)],i=1,2,...NITEi?=E[Yi?(1)?Yi?(0)],i=1,2,...N

* 此處采用Donald Rubin提出的潛在因果框架（Potencial outcome）來對(duì)實(shí)驗(yàn)效果進(jìn)行統(tǒng)計(jì)公式上的描述 [1]

* 由于業(yè)內(nèi)并沒有統(tǒng)一的定義，HTE、CATE、ITE概念在一定程度上會(huì)有混用的情況，讀者需要參考描述以及上下文綜合判斷名詞的含義

3. 異質(zhì)性分析對(duì)于業(yè)務(wù)的意義

1.了解策略對(duì)于不同用戶的不同效果，協(xié)助挖掘背后的業(yè)務(wù)邏輯，輔助迭代、進(jìn)行新一輪的實(shí)驗(yàn)

2.嘗試尋找策略最優(yōu)子人群，讓整體無效的策略，有機(jī)會(huì)進(jìn)行部分先推全；反之依然，讓部分負(fù)向的策略，減少損失

3.對(duì)實(shí)驗(yàn)結(jié)果建模后預(yù)測(cè)，對(duì)線上提供動(dòng)態(tài)的最優(yōu)人群支持

根據(jù)試金石測(cè)算，以某產(chǎn)品線下6月運(yùn)行中的35個(gè)實(shí)驗(yàn)為例，僅23%左右的實(shí)驗(yàn)沒有在實(shí)驗(yàn)人群視角發(fā)現(xiàn)異質(zhì)性

異質(zhì)性分析方法概述

1. 異質(zhì)性分析的維度選擇

1. 對(duì)于分流單元的維度X，當(dāng)X滿足以下條件時(shí)，可以作為異質(zhì)性的維度進(jìn)行后續(xù)分析

T⊥XT⊥X

?，即分析維度與實(shí)驗(yàn)分流無關(guān) (Unconfoundedness)

?分析工具化的常見簡(jiǎn)化方式：對(duì)于一個(gè)分流ID，選取他在首次進(jìn)入實(shí)驗(yàn)前一天的標(biāo)簽取值

?簡(jiǎn)單推導(dǎo)：

T是隨機(jī)化的，

T⊥Y,T⊥XT⊥Y,T⊥X

，所以

E[Yi(1)∣x∈X]=E[Yi(1)｜Ti=1,x∈X]E[Yi?(1)∣x∈X]=E[Yi?(1)｜Ti?=1,x∈X]

，所以（3）成立

2. 異質(zhì)性分析的維度分析bad case舉例

假設(shè)我們需要分析的實(shí)驗(yàn)策略為：根據(jù)用戶的活躍度標(biāo)簽，低、中、高頻用戶的優(yōu)惠券策略分別做了新/老策略迭代

分析目標(biāo) & 常見錯(cuò)誤方法舉例	不成立原因簡(jiǎn)述	推薦的實(shí)驗(yàn)分析方式
不同活躍度人群的策略效果在實(shí)驗(yàn)運(yùn)行7天后，利用實(shí)驗(yàn)用戶在第7天的活躍度標(biāo)簽進(jìn)行結(jié)果拆解	在實(shí)驗(yàn)開始后，用戶的活躍度標(biāo)簽受到了策略影響，即T⊥X不成立	使用用戶在進(jìn)入實(shí)驗(yàn)前1天的活躍度標(biāo)簽值
分別分析低頻策略、中頻策略、高頻策略對(duì)于低、中、高頻用戶的策略效果按天取每天用戶的活躍度標(biāo)簽，對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行拆解	用戶的活躍度標(biāo)簽受到了策略影響，即T⊥X不成立 ·用戶所在分組應(yīng)該是確定的，不隨時(shí)間改變	分別建立3個(gè)人群正交實(shí)驗(yàn)
分析高單價(jià)類目商品（3C家電）和低單價(jià)類目商品（休閑食品）的轉(zhuǎn)化率差異選取xx類目曝光用戶，計(jì)算實(shí)驗(yàn)周期內(nèi)對(duì)應(yīng)類目的曝光訂單轉(zhuǎn)化率	分析目標(biāo)是面向指標(biāo)維度的（sku所在類目），而非分流單元的維度（C端實(shí)驗(yàn)通常為賬號(hào)、設(shè)備），不適用本文提到的異質(zhì)性分析方法	試金石現(xiàn)已支持指標(biāo)維度下鉆曝光訂單轉(zhuǎn)化率的分子、分母均受到策略影響，需在觀測(cè)全面后綜合判斷

2. 異質(zhì)性分析的方法選擇

研究對(duì)象	研究方法	適用場(chǎng)景	pros & cons
CATE	維度下鉆	·低維 ·分析目標(biāo)明確	+ 快速簡(jiǎn)單，便于理解 + 產(chǎn)品化容易 - 維度選擇依賴分析師經(jīng)驗(yàn) - 交互效應(yīng)處理困難
	方差分析（ANOVA，ANCOVA）	·低維 ·分析目標(biāo)較明確 ·交互效應(yīng)評(píng)估	+ 解釋性強(qiáng)，統(tǒng)計(jì)學(xué)理論背書 + 可以處理低維度交互效應(yīng) + 可作為feature selection的候選方法 - 基于線性模型假設(shè) - 高維度交互效應(yīng)解讀困難
	因果樹（Causal Tree）	·高維 ·分析目標(biāo)不明確，希望探索	+ 建模方法符合分析直覺 - 模型復(fù)雜度不足，無法準(zhǔn)確描述復(fù)雜的現(xiàn)實(shí)世界效果 - 本方法為現(xiàn)代機(jī)器學(xué)習(xí)因果算法的基石之一，有更好的替代方案
ITE	Meta - Learner	·高維 ·希望輸出ITE ·算法訓(xùn)練	+ 算法常用，可大規(guī)模并行，有工程化先例 + 在過往的simulation中X-learner對(duì)ITE估計(jì)的準(zhǔn)確度表現(xiàn)優(yōu)秀 + X-learner通常使用xgboost模型，對(duì)各種feature有較強(qiáng)的處理能力 - 計(jì)算量大，耗資源 - 需要調(diào)參 - 由于缺乏統(tǒng)計(jì)推斷結(jié)果，一般不會(huì)直接產(chǎn)出p-value，存在對(duì)于ITE數(shù)值準(zhǔn)確性的質(zhì)疑，算法利用結(jié)果的rank居多
ITE	DML	·高維 ·希望輸出ITE和置信區(qū)間	+ 有嚴(yán)謹(jǐn)統(tǒng)計(jì)理論證明ITE估計(jì)的無偏有效性，可產(chǎn)出樣本級(jí)的ITE以及置信區(qū)間 + 在過往的simulation中Causal Forest DML對(duì)ITE估計(jì)的準(zhǔn)確度表現(xiàn)優(yōu)秀 + DML模型框架本身具備一定的robust特性，在結(jié)合Forest模型后，調(diào)參需求低，不容易過擬合，對(duì)各種feature有較強(qiáng)的處理能力 - 慢，耗資源，工程化先例少
ITE + CATE hybrid	ITE Model + Decision Tree Interpreter	·高維 ·分析目標(biāo)不明確，希望探索	+ 決策樹的建模方法符合分析直覺 + ITE模型可以較好的對(duì)復(fù)雜的現(xiàn)實(shí)世界進(jìn)行抽象總結(jié) - ITE模型可能會(huì)慢

* CATE、ITE建模方法的細(xì)節(jié)可參考Appendix

CATE下鉆探索工具M(jìn)VP版邏輯介紹

項(xiàng)目地址：http://xingyun.jd.com/codingRoot/abtest_ds/CATE_model?

模型邏輯：多維度的維度下鉆 + Decision Tree Interpreter

快速開始：

from CATE_model.utils.workflow import CateWorkFlow
yaml_path = 'config.yaml'                # 按分析要求配置YAML文件
cate_workflow = CateWorkFlow(yaml_path)  # 初始化CATE對(duì)象
cate_workflow.prepare_analysis()         # 初始化ABTestAnalyzer
cate_workflow.execute_cate_auto()        # 自動(dòng)執(zhí)行所有環(huán)節(jié)
cate_workflow.df_out.styler              # 輸出CATE差異最大子人群目標(biāo)指標(biāo)統(tǒng)計(jì)

項(xiàng)目基本流程

YAML配置方法：第一次可以先根據(jù)項(xiàng)目demo修改，并參考YAML配置說明.md?

項(xiàng)目MVP功能說明

1.通過填寫YAML配置，自動(dòng)生成實(shí)驗(yàn)分析SQL，并執(zhí)行取數(shù)，目前包括

?自動(dòng)獲取試金石實(shí)驗(yàn)分流信息

?自動(dòng)獲取試金石實(shí)驗(yàn)指標(biāo)信息

?解析實(shí)驗(yàn)CATE研究使用的用戶標(biāo)簽表

?自動(dòng)生成所有數(shù)據(jù)源的關(guān)聯(lián)關(guān)系

2.為實(shí)驗(yàn)CATE研究提供自動(dòng)化工具，目前包括

?自動(dòng)化生成實(shí)驗(yàn)?zāi)繕?biāo)指標(biāo)的CATE差異最大化子人群

?提供調(diào)參接口，高級(jí)用戶可自定義模型參數(shù)

?提供可視化的模型結(jié)果輸出，高級(jí)用戶可根據(jù)輸出調(diào)節(jié)模型表現(xiàn)

3.為實(shí)驗(yàn)的下鉆分析提供探索、分析功能，目前包括

?CATE人群的實(shí)驗(yàn)效果統(tǒng)計(jì)檢驗(yàn)

?CATE人群的多指標(biāo)拆解

?CATE人群的特征描述

實(shí)驗(yàn)異質(zhì)性分析show case

針對(duì)近期某頻道重點(diǎn)改版實(shí)驗(yàn)，此項(xiàng)目整體實(shí)驗(yàn)指標(biāo)為負(fù)向不顯著，但通過運(yùn)行分析工具后發(fā)現(xiàn)，有兩類子人群分別具有正向和負(fù)向的顯著效果

實(shí)驗(yàn)HTE人群統(tǒng)計(jì)

對(duì)于這些子人群，我們發(fā)現(xiàn)他們?cè)跇I(yè)務(wù)漏斗上的變化并不一樣，那么下次對(duì)于頻道進(jìn)行迭代時(shí)，產(chǎn)品經(jīng)理可以整理有針對(duì)性的選擇對(duì)負(fù)向人群進(jìn)行針對(duì)性的優(yōu)化

人群編號(hào)	用戶畫像總結(jié)	頻道uv	點(diǎn)擊uv	加車uv	轉(zhuǎn)化訂單數(shù)
3	年輕人，低活躍	1.0%	2.2%	2.6%	5.8%
38	非年輕人，高線城市，plus用戶	-2.2%	-2.2%	-3.1%	-5.7%

未來展望

1.自定義分流表

2.自定義畫像表 & 經(jīng)海路畫像表

3.CATE模型迭代

4.通用維度配置模版 & 業(yè)務(wù)場(chǎng)景模版

5.圖形化交互界面，簡(jiǎn)化輸入配置

Appendix & 參考資料

【1】因果分析框架 & Donald Rubin的Potencial Outcome

?Potencial Outcome

?設(shè)

TiTi?

?代表第i個(gè)樣本是否收到了處理（treatment，策略影響），是為1，否為0

YiYi?

?代表個(gè)體i的結(jié)果，另外記

{Yi(1),Yi(0)}{Yi?(1),Yi?(0)}

?為個(gè)體i接受處理、對(duì)照的潛在結(jié)果

?每個(gè)個(gè)體通常只會(huì)有1個(gè)狀態(tài)，個(gè)體因果作用無法直接觀測(cè)，我們只有

Yi=Ti?Yi(1)+(1?Ti)?Yi(0)Yi?=Ti??Yi?(1)+(1?Ti?)?Yi?(0)

?在隨機(jī)化實(shí)驗(yàn)的場(chǎng)景下，我們可以得到

其中最重要的邏輯為：

T是隨機(jī)化的，

T⊥YT⊥Y

，所以

E[Yi(1)]=E[Yi(1)｜Ti=1]E[Yi?(1)]=E[Yi?(1)｜Ti?=1]

，所以（3）成立

?因果推斷（一）：因果推斷兩大框架及因果效應(yīng)：https://zhuanlan.zhihu.com/p/652174282?

?因果推斷簡(jiǎn)介之二：Rubin Causal Model (RCM) 和隨機(jī)化試驗(yàn)：https://cosx.org/2012/03/causality2-rcm/?

【2】ANOVA與CATE的交互效應(yīng)分析

當(dāng)需要進(jìn)行異質(zhì)性分析的維度為X時(shí)，我們可以通過構(gòu)建下列回歸方程去描述X在實(shí)驗(yàn)中是否存在顯著的異質(zhì)性，當(dāng)

β3β3?

對(duì)應(yīng)的F-test顯著時(shí)，我們就可以認(rèn)為實(shí)驗(yàn)在維度X上存在顯著的異質(zhì)性

Y=β0+β1?T+β2?X+β3?X?TY=β0?+β1??T+β2??X+β3??X?T

當(dāng)

X∈{0,1}X∈{0,1}

時(shí)，我們可以用下圖來進(jìn)行異質(zhì)性的理解

【3】CATE & ITE估計(jì)

idea1：對(duì)于每個(gè)參與實(shí)驗(yàn)的對(duì)象i，如果能得到

Yi(1)Yi?(1)

?和

Yi(0)Yi?(0)

?的合理估計(jì)，那么ITE就可求了 idea2：對(duì)于實(shí)驗(yàn)人群X，如果能找到一種觀測(cè)方式，求得

E[Yx(1)?Yx(0)∣x∈X]E[Yx?(1)?Yx?(0)∣x∈X]

?，那么CATE就有了

?Meta Learner的極簡(jiǎn)介紹

?S-Learner

?stage1: 利用模型估計(jì)

μ(x,t)=E[Y∣X=x,T=t]μ(x,t)=E[Y∣X=x,T=t]

?stage2: 定義CATE結(jié)果如下

τ^(x)=μ^(x,T=1)?μ^(x,T=0)τ^(x)=μ^?(x,T=1)?μ^?(x,T=0)

?T-Learner

?stage1: 利用兩個(gè)模型，分別估計(jì)

μ0(x)=E[Y(0)∣X=x]μ0?(x)=E[Y(0)∣X=x]

μ1(x)=E[Y(1)∣X=x]μ1?(x)=E[Y(1)∣X=x]

?stage2: 定義CATE結(jié)果如下

τ^(x)=μ1^(x)?μ0^(x)τ^(x)=μ1?^?(x)?μ0?^?(x)

?X-Learner

?stage1：利用兩個(gè)模型，分別估計(jì)

μ0(x)=E[Y(0)∣X=x]μ0?(x)=E[Y(0)∣X=x]

μ1(x)=E[Y(1)∣X=x]μ1?(x)=E[Y(1)∣X=x]

?stage2：實(shí)驗(yàn)組、對(duì)照組數(shù)據(jù)交叉擬合構(gòu)造

Di1=Yi1?μ0^(Xi1),τ1(x)=E[D1∣X=x]Di1?=Yi1??μ0?^?(Xi1?),τ1?(x)=E[D1∣X=x]

Di0=μ1^(Xi0)?Yi0,τ0(x)=E[D0∣X=x]Di0?=μ1?^?(Xi0?)?Yi0?,τ0?(x)=E[D0∣X=x]

?stage3：定義CATE為模型估計(jì)值的加權(quán)平均，權(quán)重來自于在condition x下實(shí)驗(yàn)組、對(duì)照組的樣本比例

τ(x)=g(x)τ0(x)+(1?g(x))τ1(x)τ(x)=g(x)τ0?(x)+(1?g(x))τ1?(x)

?更多資料參考uber的causalML項(xiàng)目：https://causalml.readthedocs.io/en/latest/methodology.html?

?Causal Forest的極簡(jiǎn)介紹

?如果將普通決策樹算法的葉子分裂準(zhǔn)則從最小化整體

Y^Y^

?的MSE，替換為最大化葉子結(jié)點(diǎn)的CATE差異，那么根據(jù)貪心算法，我們可以得到一個(gè)拆解CATE的Causal Tree（還有很多保證樣本平衡、估計(jì)可靠的weighting和honest的方法細(xì)節(jié)沒有介紹）

?為了克服一棵樹帶來的high variance，仿照random forest，構(gòu)建由Causal Tree組成的森林，并且我們可以通過觀察在不同樹中樣本是否被多次劃入一個(gè)葉子結(jié)點(diǎn)來調(diào)節(jié)本樣本對(duì)當(dāng)前葉子估計(jì)的權(quán)重，最終得道一個(gè)可以產(chǎn)出ITE估計(jì)的森林模型

?DML的極簡(jiǎn)介紹

?我們定義

θ(x)θ(x)

?為CATE，那么構(gòu)建下列函數(shù)

Y=θ(x)?T+g(X)+?,E[?∣T,X]=0Y=θ(x)?T+g(X)+?,E[?∣T,X]=0

T=f(X)+η,E[η,X]=0T=f(X)+η,E[η,X]=0

?stage1: 擬合g、f函數(shù)，求得殘差

ω=Y?E[Y∣X]ω=Y?E[Y∣X]

υ=T?E[T∣X]υ=T?E[T∣X]

?stage2: 擬合殘差，求得CATE估計(jì)

ω=θ(x)?υ+?ω=θ(x)?υ+?

?如果我們將上述double ML的過程用GMM的方式寫成矩函數(shù)，

E[((Y?E[Y∣X])?(T?E[T∣X])θ(x))(T?E[T∣X])]=0E[((Y?E[Y∣X])?(T?E[T∣X])θ(x))(T?E[T∣X])]=0

那么根據(jù)Neyman orthogonality condition，我們可以證明此過程估計(jì)的

θ(x)θ(x)

在大樣本下具備無偏一致性，此特性與

ω,υω,υ

在一定程度上沒有關(guān)系

?關(guān)于doubly robust，R-learner，CausalForestDML等方法呢？是否有理論框架能總結(jié)這一類利用殘差進(jìn)行推斷的方法呢？參考：Orthogonal Statistical Learning Arxiv:1901.09036V3

?更多關(guān)于DML、CausalForest資料請(qǐng)參考微軟的EconML項(xiàng)目：https://www.pywhy.org/EconML/spec/overview.html

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴