腾讯郭棋林实验数据难获取挑战观测数据上的 - 易得肺癌的人群

TUhjnbcbe - 2022/12/8 23:29:00

白癜风黑色素 http://baidianfeng.39.net/a_xcyy/130530/4182527.html

分享嘉宾：郭棋林腾讯高级数据研发工程师

编辑整理：甘雨鑫上海财经大学

出品平台：DataFunTalk

导读：本文的分享主题为观测数据因果推断，希望通过本文可以让大家对观测数据因果推断有一个整体的了解，明晰当前观测数据因果推断的困境和主要处理方法，以及在特定问题中的一套通用解法。具体将围绕以下3部分展开：

观测数据因果推断基本知识

准实验方法在腾讯看点的应用案例

启动重置类问题通用分析方法

观测数据因果推断基本知识

1.混淆结构和对撞结构

因果关系是相关关系的一种，因果推断用于学习因果关系。左图中T和Y之间的有向边代表因果关系，此因果关系会让它们在上层显示出一个相关性。我们能不能通过相关性去寻找因果性呢？答案是否定的。因为除了因果关系，还有两种结构也会让T和Y显示出因果性，比如右侧的混淆结构(confounding)和对撞结构(sampleselection)。在这两种结构中，虽然T和Y之间不存在有向边的因果关系，但却会因为混淆因子和对撞因子的存在，导致它们显现出统计相关性，这样就会给我们的因果推断制造一些干扰，这也是因果推断方法存在的必要性。下面，我们依次举例说明混淆结构和对撞结构。

①混淆结构

我们拿“穿鞋睡觉“和”第二天起床头疼“来说明由混淆因子带来的相关性。比如，在一个数据集中，我们发现”穿鞋睡觉“和”第二天起床头疼“的相关性很高，因此我们可能推断出”穿鞋睡觉“会导致”第二天起床头疼“。事实上，我们知道在医学中这条有向边是不存在的。那么，这样的相关性是谁带来的呢？我们又看了下数据，发现在数据集中有”昨晚喝酒“这个变量，并且”穿鞋睡觉“的人大部分是”昨晚喝酒“的人。事实上，”昨晚睡觉“会导致”第二天起床头疼“在医学中是具备因果性的，因此最终间接导致了我们看到的“穿鞋睡觉”的人“第二天起床头疼“的比例很高，这就是混淆结构。其中，同时影响”穿鞋睡觉“和”第二天起床头疼“的变量”昨晚喝酒“就是混淆因子。

②对撞结构

我们常常发现，在娱乐圈中，才华和美貌是成反比的，出现这种现象的原因就是对撞结构，也称之为选择偏差。我们可以看右边的图，其实只要具备才华和美貌中的一项就容易进入娱乐圈，但同时具备才华和美貌本身就是一个小概率事件，所以我们看到娱乐圈中大部分人只具备才华和美貌中的一项，给我们的感觉是他们的才华和美貌成反比。实际上，在全体人群中这两者是没有相关性的，这就是对撞结构。其中，对撞因子是“是否在娱乐圈“，我们只会在娱乐圈看到这种反比。

2.解决方法

那么如何解决这两种结构带来的干扰，从而得到真正的关系呢？一般的方法是实验。

从左图中可以看到，实验相当于取消了干预在因果图上所依赖的父节点，让干预的分配只依赖于一个随机变量。这时可以证明，在整体人群中的因果效应，我们称之为ATE，等于相关性。这里的关键是用户是被随机分配的，当没有随机条件时，ATE公式（尤其是加粗的部分）将无法成立。比如，在右图观测的数据中，干预是受到混淆变量Z的影响。在这种情况下，加粗部分不成立，我们也就无法通过相关性直接得到因果性。

3.观测数据和实验数据的区别

我们拿“穿鞋睡觉”和”第二天起床头疼“的数据来说明实验数据和观测数据的区别。

观测数据中，“穿鞋睡觉“作为实验组，但其中大部分人都是醉酒的，“脱鞋睡觉”作为对照组，但其中大部分人都是清醒的，因此我们看到“穿鞋睡觉”的实验组里中大部分人都醉酒，得出“穿鞋睡觉”导致醉酒（”第二天起床头疼“）的错误的因果关系。我们可以清楚地看到混淆对因果关系的影响，我们发现两个组醉酒的分布是非常不平衡的。

实验数据中，我们会进入每个睡觉的人的房间，通过抛硬币决定给他脱鞋还是穿鞋。最终实验组和对照组醉酒和清醒的状况如右图所示，各种混淆变量比较均衡，我们还发现两个组醉酒的比例都差不多，最终我们得到“穿鞋睡觉“不会导致醉酒（“第二天起床头疼”）的正确的因果关系。

这就是实验数据和观测数据上推断的区别。

4.实验的局限性

既然如此，这类问题我们都用实验解决不就可以了吗？事实上，存在一些无法实验的原因，比如伦理限制、无法实现、历史遗留等。因此我们不得不借助观测数据上的因果推断来得到因果效应。

5.挑战观测数据上的因果推断

观测数据上的因果推断是需要一定的业务主观性的，因此它分析的结论很容易被挑战。我们拿吸烟会导致肺癌的案例来说明观测数据因果推断目前的主要问题。

刚开始去观测吸烟和肺癌的关系，我们会发现吸烟人群中肺癌的比例很高，因此可能得出结论吸烟会导致肺癌。

①挑战1

吸烟的人大部分都是男性，而男性和女性肺癌的犯病概率是不一样的，所以如果不控制性别和年龄，可能会导致吸烟和肺癌的结论存在辛普森悖论。

小编补充：辛普森悖论是指当人们尝试探究两种变量是否具有相关性的时候，会分别对之进行分组研究。然而，在分组比较中都占优势的一方，在总评中有时反而是失势的一方，即简单的将分组资料相加汇总，不一定能反映真实情况。

②挑战2

只固定性别和年龄远远不够，还有很多遗漏的混淆因子，如工业化程度、心情，这些变量也同时影响吸烟和肺癌。更有甚者提出，可能有一些根本无法衡量的因子同时影响吸烟和肺癌，如吸烟基因。在不考虑它的情况下得到的结论也是错误的。

③挑战3

即使做了很大努力，把工业化程度和心情全部固定住了，同时把吸烟基因通过敏感性分析的方法排除了。我们还是会被挑战——可能控制了一个对撞因子，比如哮喘。吸烟和肺癌都会导致哮喘，如果不小心在控制混淆因子的同时控制了对撞因子，那么最终得到的因果关系也是带了相关性的。当然，还有随着因果图的复杂，也会带来很多挑战，相应的因果推断也会发生改变。

可以看出，观测数据因果推断的过程比较曲折。

6.因果推断整体分析框架

为了绕开观测数据因果推断的问题，我们引入了准实验。从目前因果推断整体的分析框架中可以看到准实验所处的位置，左图包含实验数据和观测数据的因果推断。其中，在观测数据的因果推断中，我们会优先看数据是否满足DID（DifferencesInDifference，双重差分）、工具变量和断点回归的前提要求。如果满足，会优先使用这三种方法；如果不满足，才会使用PSM（PropensityScoreMatching，倾向评分匹配）和混淆PSM方法。这种优先级的原因是相比于PSM，前三种方法绕开了混杂因子，这是唯一的也是最重要的区别。因此它们依赖的假设在业务层面更容易得到满足，同时也很容易被检验，这样的结论也更容易被信服。我们把上面的三种方法称为准实验方法。下面，我们来看看准实验方法在腾讯看点中的应用案例。

准实验方法看点应用案例

1.DID双重差分-天气资讯分析

DID在腾讯看点中是一个常用的方法，我们用DID发现了在极端天气下，天气资讯对用户留存的影响。去年8月6号，是台风黑格比经过的时间，我们希望在这样极端的天气下，推送天气的咨询是否能提升用户留存。

对于这个问题，我们首先想到如下实验：

实验组：8月6号曝光天气的用户

对照组：8月6号未曝光天气的用户

结论：曝光天气的用户次留相比于未曝光天气的用户次留高了20%。

事实上，这个结论肯定是错误的。因为曝光天气和未曝光天气这两组用户本身就不平衡，因为我们通常是给活跃用户曝光。因此，这样得到的结论是带有混淆偏差的。

因此，我们又想到如下实验：

实验组：前期未曝光天气，8月6号曝光天气的用户作为实验组

对照组：前期未曝光天气，8月6号未曝光天气的用户作为对照组

结论：曝光天气的用户相比于未曝光天气的用户在受到干预之后，次留扩大了1.4%

基于上述结论，我们判断天气内容的曝光对次留是有因果效应的。为什么说这就是因果效应呢？双重差分中，第一层差分指的是实验组和对照组在实验前后的差异，我们在右上图看到了实验前的平行性是满足的，可以认为混淆变量对实验组和对照组的第一重差分是相等的，那么影响第二重差分（实验组和对照组差分的差分）的因素就只有干预本身了。因此，我们可以通过二次差分得到一个因果效应，也就是这里的1.4%。

为了证明因果结论的正确性，我们验证了天气内容曝光后的转化路径，主要是点击率以及留存。我们发现及时、准确及本地的点击内容的准确性是远超于的大盘的，同时这个高点击率还能延续到第二天，说明这样的内容能够让用户感受到平台的关心，从而带来次留的提升。根据这样的因果结论，我们最终建议对天气做一个单独的推荐和链路审核策略。因为天气对及时性的要求更高，例如，一旦天气过时了一个小时，极端天气已经过了，这样的内容就容易引起反感。因此，链路侧需要有一个更加特定的审核策略，来保证天气内容的供应。同样，推荐策略也需要考虑及时性和本地性。此外，我们还在表达形态上提出建议，我们希望将天气内容单独占据一个资源位。

2.断点回归-小说业务应用

在小说业务中我们发现，提升新用户的首章完成率可以提升新用户的次留。我们可以看到中间这张图，横轴是新用户第一天的阅读时间，纵轴是新用户的次留。我们发现新用户第一天的阅读时间和次留间存在明显的端点，大概在s左右。这个时间大约是阅读完一章的时间。因为是新用户，所以是新用户的首长阅读时间。因此我们发现了提升新用户的首章完成率对新用户的次留有因果效应。为什么说这是因果效应呢？因为s左右是一个连续的邻域，我们可以认为其在邻域中各种混淆变量基本不会有太大的差异。根据这个结论，我们应该以提升新用户的首章完成率作为目标。针对这个目标，我们有如下建议：

在首页推荐时，以小说易读率作为一个指标，不优先考虑进入节奏比较慢的小说

取消首章阅读的广告，来提升首章完成率，从而提升用户的次留

类似的问题还有很多，下面我们针对一个启动重置类问题来做一个详细的分享。

启动重置类问题通用分析方法

1.产品描述

下面我们拿QQ浏览器的两个使用场景来说明什么是启动重置类问题：

①首页重置

用户在上一次搜索完感兴趣的内容后，从搜索页面退出。过了一段时间后再返回，发现页面已经变成了信息流首页。这个功能的目的是为了提升信息流的曝光，但我们担心这个功能可能会影响用户的搜索体验，从而影响用户的的活跃度。

②闪屏

用户在上一次使用完app后，隔一段时间返回，又会出现app的启动加闪屏广告。这个功能设计的目的是提高商业化的收入，但我们也担心这样的设计会得不偿失。

那么针对这样的启动重置类问题，在没有数据的情况下，我们怎么去评估启动重置类策略的总收益呢？下面，我们用首页重置问题作为我们主要的例子进行方案的讲解。

2.通用分析框架

针对这类问题，我们提出一套通用的观测数据因果推断分析方式来给出答案。我们主要

青秀山