Testin DataRL:从A/B测试到运营智能优化的算法路径

[摘要] A/B测试正在被越来越多的产品、运营人员采用,许多企业兴趣盎然开始尝试A/B测试,但收集数据和分析结果都需要时间,典型的A/B测试可能持续数周时间,虽然有超过14%的A/B测试产生统计学显著的改进,但收效并不理想。除了拥有强大产品技术团队的部分头部App之外,很多企业都无法持续、有效地将用户分段、找到适合A/B测试的部分,并执行有意义的A/B测试。

人工智能强化学习AIRL(Artificial Intelligence Reinforcment Learning)适合传感和响应环境,可以从众多的变体中确定最佳变化,已经成功用于测试变体并确定实时最佳效果。企业可以基此同时运行多个测试,典型类别的变体可以自动创建并付诸从小至大的受众进行测试并扩展至全量用户,基于进化计算和大规模并行多变量测试,帮助产品经理实时向每个渠道的用户提供最成熟的数字体验,更有效地持续优化得出最优运营结果。

使用行业最高水准训练的测试方法为每个访问者提供变体,以了解哪些对谁最有效。对于App产品运营优化,RL不会自动提供设计、图像和消息,但RL将发现哪些设计、图像和消息呈现的用户体验与App用户产生共鸣。它将不断尝试有机会的想法,以找到更优化的组合,但所有的想法都来自产品经理。向特定访问者呈现内容或功能,通过A/B和MVT测试对不同组合行测试,实时为每个访问者自动呈现最佳组合,RL最擅长的是找到人们从未有过的想法和组合,最大化实现产品经理的创造力。

任何一个产品经理都希望开启上帝模式,知道某个设计、色彩、按钮、图片是用户最喜欢、并点击最多的那个。TestinData A/B测试,已经为很多顶尖的产品经理提供了从优秀到卓越的必杀密器,为产品、运营和经营管理人员,有效掌握、提升了以下这些经营核心指标:

  • 点击率 Click-through Rate (CTR)
  • 转化率 Conversion Rate (CR)
  • 更新率 Renewal Rate
  • 跳出率 Bounce Rate
  • 平均保留率 Average Retention
  • 平均使用量(应用,手机网站、网页,App屏幕或游戏场景上的时间),Mean Usage (Time on app, mobile web, mobile webpage, an app screen or game scene)
  • 平均每用户事务数Average Transactions Per User
  • 净推动者指数 Net Promoter Score (NPS)
  • 客户满意率 Customer Satisfaction Rate
  • 平均每用户收入 Average Revenue Per User (ARPU)
  • 平均订单大小 Average Order Size

除了大量的人工工作、工程配合和部门协调,A/B测试还要应对环境中的动态,当完成一个静态A/B实验时,结果所要求的实施条件往往已经不再具备。在日趋惨烈的碎片化市场竞争面前,测试参量、用户注意力更短,客户的忠诚度和耐心更加变幻无常。而频繁面临的高实效性要求的运营活动,又难以提供一个相对完整、静态的时间、用户样本量进行完整的A/B测试。

我们都很熟悉巴普洛夫的条件反射实验,通过奖励狗的积极行为、惩罚负面行为持续对狗进行训练,随着时间的推移,狗会强化学习、并计算出为获得奖励而采取的行动。

随后发展起来的智能系统的一个主要特征是能够适应未知环境,其中学习能力是智能系统的关键技术之一。特别是强化学习,从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖赏值最大,是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法,通过试错(trial-and-error)的方法来发现最优行为策略,采用统计技术和动态规划方法来估计在某一环境状态下的行为的效用函数值,从而通过行为效用函数来确定最优行为。在函数估计强化学习中,同时并行两个迭代过程:一是值函数迭代过程,另一是值函数逼近过程,而值函数逼近过程的正确性和速度将对强化学习产生根本的影响。

现实的App系统总是处于动态、复杂的开放环境中,因此要对环境加以细分,并在每个场景中学习的知识对下一个场景中的学习是有用的,建立连续的插曲式(episodic)场景,如一个棋类程序对同一个对手时,在每一棋局中学习的策略对下一棋局都是有帮助的,这也是AlphaGo进化的前提。

在有限反馈的连续决策问题中处理学习,通过奖罚制度的基础上学习最佳A/B路径动作。这种奖励和惩罚反馈强化了要执行的行为以及要避免的行为。在通过持续A/B测试进行转换率优化过程中,通过这种模式尽早结束差异变化、将流量从性能差的变体重新路由到动态变化更好的变体,消除不好的变化,从而取得更好的性能变化。

上图显示了从相对静止、恒定比例测试变体的阶段性A/B实验,到动态连续最佳优化变体A/B运营实战的不同。

强化学习RL(Reinforcement Learning) 模型

通过对未知环境一边探索一边建立环境模型以及学得一个最优策略,强化学习是将机器学习算法和环境互动结合起来的方式,在一个有限域内,只要时间充足(或做算力足够),在一个设定目标中获得较优解。

for t = 1, 2, \ldots, T

1. 观测到数据 x_t \in \mathbb{R}^n
2. 选择action a_t \in \mathcal{A}
3. 得到损失 l(x_t, a_t(x_t))
目标是: \min_{a_t \in \mathcal{A}}\sum_{t=1}^T l(x_t, a_t(x_t))

对于RL强化学习,时刻t的action可以影响时刻t+1我们得到的data。具体的,在时刻t,我们观测到x_t(在RL里x_t一般被称作state),同时选择action a_t \in \mathcal{A},然后suffer lossl(x_t, a_t(x_t)),并且x_{t+1} \sim P(x' | x_t, a_t(x_t))

所以从这个角度看,RL是一种更积极的学习,因为我们可以用自己的action来决定如何探索state space。

RL里面partially observable的情况就更难一些,我们不能直接观测到state,在这种情况下x_t是某种观测量,然后通过x_t来更新对当前所在state的