5200小说网

手机浏览器扫描二维码访问

第7章 从预试验到持续监测(第1页)

一秒记住【xiaoyanwenxue.com】精彩无弹窗免费!“人人都可以是产品经理(套装共13册)(.shg.tw)”!

第7章

从预试验到持续监测

在世界各地的会议上,人们在开始发言时总是先对某个词语在词典中的含义及其相关问题进行阐述,这样的事情每天都在发生。我讨厌那些阐述,但它们确实触及所有领域的一个基本真相:如果人们对一个术语的理解无法达成一致,那么一切谈话都毫无意义。因此,我想首先界定“预试验”“测试”“大规模试验”的含义,并解释它们为什么是干预设计过程必有的三个独特过程,不过我不会借助词典。

首先,它们有严格的先后顺序:没有进行预试验,就不能进行测试。每进一步,你对干预效果的信心就提升一步,对该效果所能达到的规模及达到该效果所需的成本也会更加明确。这主要是因为每进一个阶段就意味着更大的样本量(这个花哨的统计术语的意思是“有多少人参与了干预”),更有效的设计和流程,更多的公司人员参与其中,相应的干预措施也更有可能被确定下来,成为公司标准操作流程的一部分。

预试验是有严格范围限制的干预,这种干预可能最终不会奏效(记住,必须明确证明有效性,以避免确认偏见)。因此,应该使用较小的样本量,关注干预措施的进展速度,以不那么“尽善尽美”的方式进行干预。说其不够“尽善尽美”不仅是因为这个词有趣,而且还意味着在预试验阶段要努力减小对公司的影响,而不是大规模地推广程序化的操作。很少有预试验是不经过反复进行或改进就能取得成功的,在长时间的调整过程中,任何环节都有可能变化。

这样做有一个重要的好处:减少对客户和员工的影响。当我们以一种看似完美的方式做事时,客户会很快适应,中断这种方式会让客户感觉受到伤害。对员工来说,这更是一个大的打击。领导者经常犯的一个错误是:他们意识不到员工们会全身心地投入新项目,并以为员工们不在意该项目被停止。但事实上,人们会非常在意自己工作的意义,所以,通过控制预试验的规模,最大限度地降低投入,使其不那么尽善尽美(是的,这个词用起来仍然很有趣),可以减少对员工的影响。丹·阿里利和他的同事们用一种有趣的方式证明了这一点:他们付钱雇人组装乐高玩具,对其中一组被试的做法是,在他们刚组装完的时候就当面拆掉他们组装好的玩具;对另一组被试的做法则是,将他们组装好的乐高玩具整齐地摆在他们面前。结果显示,前一种做法会让组装者更快地放弃这份工作。这个实验说明人需要有成就感,预试验和测试可以减少对人们的成就感的伤害。

速度和资源效用也很重要。因为我们选择了多项干预措施,所以我们在一定时间内很有可能同时进行三到五个预试验。如果进行这些预试验的效率过低,我们将会停滞不前,所以必须不断地集中精力寻找粗略版的、能改变行为的干预措施。我给项目经理的经验法则是:如果某个预试验耗时两周以上,就应缩小它的范围和规模。例如,你想通过发信件的方式进行预试验,但这会让收发室的信件堆积如山,怎么办?那就从电话咨询开始。想尝试一下高科技手段?别急,先做一张电子表格,试试人工操作,看看这样是否有积极效果。但与此同时,要确保这些干预措施确实能改变行为——你肯定不想因为仓促行事而错误地放弃某一项干预措施吧。

跟前面讨论的可能性验证一样,预试验验证以定性和定量的方式确认你正朝着正确的方向前进。因为样本量很小,所以这从统计学上来说没什么意义,但是没关系,我们只想确定干预措施会产生正面影响、负面影响还是没有影响,以决定下一步往哪儿走。有没有人只愿意在教堂诊所注射流感疫苗?收到信件的人会比没有收到信件的人更积极地去注射疫苗吗?先有一个粗略的想法,再用三角交叉法进行检验,然后继续。或者,如果真的没有足够的信息得出结论,并且你本能地认为是因为规模太小而导致得不到足够的信息,那么你可以扩大预试验范围,再进行一次预试验。

即使不是为了统计上的显著性,预试验验证也是衡量干预设计过程最重要的一个阶段。我们在写行为陈述时会说一些自信的话,比如“用(数据)来衡量”。预试验是我们第一次真正地衡量目标行为。定量研究人员将确定如何持续地获得这些数据,定性研究人员要确定访谈中提什么问题,在什么环境下进行观察。如果这一步做得好,现在构建的模式就能指引以后的每一步,直到进行大规模试验。

一些干预措施很有可能无效,甚至与你想要的结果相去甚远或相反,这很正常。如果每次尝试都产生了你想要的行为改变,那么这很有可能是因为衡量的方式有误,或是确认偏见导致的。当干预不能产生你想要的结果时,你就得做出决定——就像干预选择一样,你最终只能凭直觉去做这个决定:要么修改预试验并重新做一遍,要么停止这个预试验并回到“压力箭头图”和“干预设计”环节去找新的方法。但是,和干预选择一样,某些模式会提供一些帮助决策的信息。

最好在干预设计过程中针对共同的促进压力或抑制压力设计不同的预试验,这样就可以判断一个失败的预试验是偶然的还是必然的。例如,在流感疫苗的案例中,针对社区责任这一促进压力,可以让宗教领袖向教徒宣讲注射疫苗、保护他人的重要性,也可以以相同的理由给社区的每个人写一封私人信,鼓励他们注射疫苗。如果这两项干预措施都没有显示哪怕一点点的效果,那么这可能是由于社区责任这一促进压力的作用并没有想象中的那么大,应该停止这个方向的预试验。如果宣讲有效而信件无效,则社区责任这个促进压力仍然有效,只是应该把发送信件这一预试验改成开展更多的宣讲活动。

要修改的方案也可能受其他干预措施的预试验结果的影响,即使它们不是基于同样的压力因素的。不要太关注单项干预措施的去留及单个压力因素的有效性,它们都是达到目的的手段。我们从结果开始,结果就是行为。如果你同时进行5项干预措施,1项不起作用而4项效果很好,那么就不要再考虑这项不起作用的干预措施,而应该继续进行预试验。你已经通过干预改变了行为,这是进行整个干预设计过程的目的。

现在开始讨论“统计学显著性”和“效应量”,你们中的一些人可能已经开始点头说好了,尽管你们实际上并不知道这两个术语是什么意思。别担心,每当有人开始谈论流行文化时,虽然我无法从一组名单中挑选出青少年喜欢的流行歌星,我也都会频频点头的。但是,数据统计很重要,了解它们有利于更好地进行干预设计过程,所以在讨论预试验、测试和大规模试验之前,我们将简短地介绍一下数据统计及其使用方法。我当然不会教你如何做数学题,(你以为我在写数学教材吗?)但至少我能确保你会一直频频点头。

即使你是统计学专家,也请阅读这一部分,因为我将挑战统计学里的一些基本假设。我是现代的马尔德,我认为统计学一直都在隐瞒P值的真实意义!这是一个阴谋!

对干预措施的数据统计的验证基于这样一个简单的事实,即人们既不是完全可预测的,也不是完全不可预测的。如果人是完全可预测的,那么就不需要任何数据统计,因为干预对人的影响将是零,也就是没有影响。以流感疫苗信件为例:如果人是完全可预测的,那么收到信件的人要么都会注射流感疫苗,要么都不会,验证就像观察整个团队的移动方向一样简单。

如果人是完全不可预测的,那么就不需要数学(或干预)了,干预设计过程将不起任何作用。因为不管采取什么样的干预措施,人们都会随机地或者不受任何因素影响地去注射疫苗。事实上,这个世界还没有变得那么混乱不堪,行为还是可以被改变的,因而可以有把握地认为这不是一个完全不可预测的世界。

所以,我们发信件进行了测试,有些收到信件的人注射了流感疫苗,有些没有。数据统计能算出有多少人是因为收到信件而去注射疫苗的,有多少人是由于其他因素影响而去注射疫苗的。

在一个完美的世界里,这封信可以被发给地球上的每一个人。依此方法能够算出这封信对所有人的真实影响,通过统计行为变化的数量就能确切地知道干预是否有效。但这显然是不可能发生的——我付不起寄这75亿封信的费用!因此,我们会把信件发给一部分人(这就是我们的样本,“样本量”里的“样本”),并尝试推测其他未收到信件的人可能会如何行动。发给越多的人,我们对统计的结果就越有信心,这个统计结果也会越接近把信件发给每个人的结果。

在预试验时,我们可以选取200个人,给其中100个人(实验组)寄信件,对另外100个人(对照组)什么也不做,运用两组统计数据测试寄信件能否有效地改变行为。首先是在实验组内部进行比较:只测试收到信件的人,看看有多少人在收到信件前的一个月里注射了疫苗,有多少人在收到信件后的一个月里注射了疫苗。如果有更多的人在收到信件后注射疫苗,那就证明发送信件的方法有效。

且慢,还有一个可能:流感高发季节来得越晚,注射流感疫苗的人就越多,注射疫苗人数增多可能与这封信无关。因此还需要做实验组与对照组之间的对比,看看有多少收到信件的人及没收到信件的人在接下来的一个月里注射了流感疫苗。如果有更多的收到信件的人接受了疫苗注射,那么这也证明发送信件的方法有效。

这两种比较均有共同的指向:收到信件的人更有可能注射流感疫苗。不是完全有可能(记住,这仅仅适用于那些行为可以被预测的人),但与什么都不做相比,信件提升了注射流感疫苗的可能性。这就引出了两个重要的问题:信件让人注射疫苗的可能性有多大?这一结果是否适用于那200个人之外的更广泛的人群?这就是定量研究里的两个数值:效应量和P值。

“效应量”回答了第一个问题:这封信是真的非常有效地改变了人们的行为,还是只是在很有限的程度上改变了人们的行为?理解“效应量”非常简单,数量越多,就意味着干预越有效。虽然“效应量”的具体意义无法立刻得到体现(这在很大程度上取决于你所衡量的内容),但是定量研究人员可以很容易地将其转化为描述性的陈述,比如,收到信件后,注射流感疫苗的人会增加20%。

“P值”回答了第二个问题:你在多大程度上可以确定信件产生了效果?这个值有点令人感到困惑,其数值越低,说明干预越有效,因为P值的意义是:在多大程度上,试验的结果是偶然因素所致,而非你的干预措施所致。例如,发送让人注射流感疫苗的信件,如果P值是0.2,这就意味着有20%的概率是错的(这封信没有效果),80%的概率是对的(这封信改变了行为)。请注意,错了并不意味着这封信有负面影响,会阻止人们注射疫苗,而只是意味着信件没起作用,我们称之为零结果。

如果你不得不和一个统计学团队一起工作,而他们并不了解行为改变科学,你很有可能会为这个P值跟他们起争执。在传统意义上“正确”的P值小于0.05(错的概率是5%或120)。这种惯例来自学术界,在学术界只有正确的结果(P0.05)可能会使后来的研究失去意义。

我们关注的是改变行为,而不是诺斯底式地追求知识,所以我们只要大体上正确就行。想象一下,有一项P=0.2的干预措施,如果你告诉普通的统计学家,他们会说P=0.2相当于干预措施没有效果。天哪,伙计!事实上,这个数值只是表示你的结论有误的可能性为20%而已。可恶!可恶!可恶!

我们关注的是干预效果!P=0.2像是一种容易吞咽的小药丸,它除了让你的魅力增加20%,没有任何其他副作用,所以完全可以接受。它尝起来像棉花糖并且味道多种多样,价格却只要1美分,而且它能治愈癌症。即使我有15的概率是错的,它不能治愈癌症,但是我们是不是也应该尝试一下?因为所有的预试验验证都是为了确定是否应该进行更大规模的测试。

一般而言,对于被罗列出来的干预措施,很少有结果被证明产生了负面效果,更多的结果仅仅是没有产生预期中的正面效果而造成了资源的浪费。因此,如果干预措施不会造成明显的负面影响,那么45的正确率并不可怕,这才是数据统计的意义所在。

P值的存在是因为不能对世界上的每个人都进行干预。如果能对每个人都进行干预,那么测量结果就是干预的实际效果,就可以确切地知道有多少人改变了行为。因为研究是基于选择的样本的,这就需要确定在多大程度上,基于样本的结果可以被推广至更大的人群。样本越小,我们要做的推测就越多。如果能对世界上一半的人而不是只对100个人进行干预和测量,我们会对测量结果的代表性更有信心,该结果也将更接近干预措施的真实效果。

预试验的样本量小,因此它很难让人相信干预措施可以改变所有人的行为。这就是我们需要继续进行测试的原因之一。

如果行为改变有聚合效度,那么即使P=0.2,你也会想更多地了解干预的效果。测试类似于预试验,但它会涉及更多的人,操作难度更大。在这一阶段,需要确定扩大研究规模,衡量干预对行为的影响有多大,我们努力地想知道:“这样做值得吗?”这比想象的要难很多。事实证明,找到改变行为的干预措施相对容易,但找到值得推广的干预措施相对困难。所以要进行测试验证,重点是获得持续的定量和定性反馈,同时还需要考虑“操作成本”和“效应量”的要求。

如果你很聪明(或者超级聪明),你可能会问为什么不直接从测试开始,毕竟,更大的样本量总是会带来更可靠的结论。如果预试验唯一的目的在于证实需要用更大的样本再做一次测试,为什么一开始不从大样本着手,省去这额外的一步呢?

因为我说不可以。预试验成本低廉,可以有效避免各种易于察觉的损失,比如,避免把钱浪费在无效的规模化干预上,避免因做大规模的蠢事而带来的损害。你可能会争辩说,一次测试就可以找出这些问题,而且这样做只比预试验的成本稍高,在展示问题方面稍弱。既然有P值揭示结果的准确程度,为什么要进行预试验?

我们可以把真正的原因归结为一个简单的事实:失败会带来痛苦。失败越大,痛苦就越大。我们投入越多,就越不愿意失败,越容易忽视证明措施无效的种种迹象,这又回到干预设计过程所努力防范的确认偏见。预试验的主要优势不在于样本量小,而在于它比测试的投入少,我们从而也更愿意去识别那些无效的干预措施。

这不仅是为了节省发送流感疫苗信件的邮费或者避免损害公司的名声。记住,预试验中不完美的操作是为了避免大量资源的浪费及干预流程的中断。尽管在现代商业社会,很多企业既没经过预试验也没进行测试,就推出了大量的大规模干预措施,但几乎没有人会说测试不好。人们不做测试的原因是抑制这一努力的力量太强,而不是因为测试本身没有价值。实际上,如果跳过简单的预试验,我们的干预验证周期就会更长。

用简单的数学计算就可以说明预试验的作用了——以三叶草健康医疗公司为例。我们的行为科学团队将成员分成3人一组:1名定量研究员、1名定性研究员和1名项目经理。1个小组每次做2个项目,每个项目平均8周,所以每个小组每年大约有12个项目。每个项目需要预试验3~5项干预措施,因此每年有36~60次预试验。我们通常有2~3个这样的小组,一个10人的行为科学团队每年总共可以进行180次预试验。

想象一下,你要实施“尽善尽美”的大规模干预措施,同时P值要满足P

野花图鉴  重生之凰临天下  佣兵天下(二十年纪念版)  谈婚论价  天才圣手  总裁老公,适渴而止  女总裁的超级保镖  矿物与岩石图鉴  御史大人你马甲掉了  上古强身术  冤家路窄  驭兽魔后  薄情前夫太凶猛  造物主之我培植了怪兽文明  长生歌  冰山总裁的至尊高手  绝色锋芒:牛X王妃  毒宠小狂后  神级保安  不装了,我是黑煞战神  

热门小说推荐
重生之极限进化

重生之极限进化

在未来进化大时代的新世界,每一个新人类都有资格修炼成超武强者,主角生于开端之前,死于新世界激战之中,但他见证过无数强者崛起与陨落他带着资深进化度的重生记忆,不可思议地重返末世灾难开端之前,掌握无数先机的他,获取奇迹一般的进化之力未来是一个辉煌无比的新世界!我此生必定超越巅峰,凌驾所有新人类王者之上,成为掌控未来新世界的主宰!...

战神的六个姐姐

战神的六个姐姐

热门小说战神的六个姐姐由一骑当先最新写的一本都市生活类小说,故事中的主角是萧云杜牛牛,内容主要讲述他乃无双国士,镇守边疆,震慑四方宵小。他曾退敌百万,无人匹敌,获封不败战神。今朝,卸甲归乡,受人轻视,遭人欺辱,想过平凡生活的他。结果某一天发现自己还有六个姐姐...

哈利波特之学霸无敌

哈利波特之学霸无敌

一剧情艾伦哈里斯重生HP世界,试图改革巫师教育,打破保密法最终boss不是伏地魔,是另一位原著中存在的角色。二风格本文非真系统文,依据HP风格,故事剧情的开展一本比一本黑暗。三特点万事皆三,JK罗琳用了7作为特别数字,而本文中,3则是一个有魔力的数字。万物归环,事物都是循环的,时间的洪流里,凡...

末日土行者

末日土行者

残酷的末世到来,丧尸横行,幸存者为了物资而互相杀戮。整个世界变得危险万分。而他,却拥有封神榜中土行孙的能力。控制泥土,随意在泥土中穿梭。于是,末世猥琐流诞生了。凭借着逆天的跑路能力,且看他如何在末世中挣扎求生,建造出一个末世之中最安全的地底王国,成为主宰。众号搜索‘宝巨要崛起’添加,或直接搜索‘进入一个你全新的世界...

我从古墓来

我从古墓来

文能开口诈皮商,武能墓中镇风水。进可欺身压粽子,退能挺胸驱凶害。我是守陵人,我从古墓来。...

重修洪荒之逆生诀

重修洪荒之逆生诀

这是一部关于洪荒的小说,却是不一样的洪荒,鸿钧不是坏的,准提不是无耻的,原始也不是心胸狭窄的。洪荒也不是小说的终点。所有的内容尽量抛弃那些写烂的老套情节,力求写出新意,如果觉得好的帮忙收藏推荐吧。感谢起点论坛封面组提供封面!朋友帮忙建了个群202052728。欢迎加入交流!...

每日热搜小说推荐