Testin DataAI:从A/B测试到智能自动化优化

[摘要] A/B测试正在被越来越多的产品、运营人员采用,许多企业兴趣盎然开始尝试A/B测试,但收集数据和分析结果都需要时间,典型的A/B测试可能持续数周时间,虽然很多A/B测试都产生了显著的改进,但除了拥有强大产品技术资源的App之外,很多企业都无法持续、有效地将用户分段、找到适合A/B测试的部分,并执行有意义的A/B测试。
人工智能强化学习AIRL(Artificial Intelligence Reinforcment Learning)适合传感和响应环境,可以从众多的变体中确定最佳变化,已经成功用于测试变体并确定实时最佳效果。企业可以基此同时运行多个测试,典型类别的变体可以自动创建并付诸从小至大的受众进行测试并扩展至全量用户,基于进化计算和大规模并行多变量测试,帮助产品经理实时向每个渠道的用户提供最成熟的数字体验,更有效地持续优化得出最优运营结果。
使用行业最高水准训练的测试方法为每个访问者提供变体,以了解哪些对谁最有效。对于App产品运营优化,RL不会自动提供设计、图像和消息,但RL将发现哪些设计、图像和消息呈现的用户体验与App用户产生共鸣。它将不断尝试有机会的想法,以找到更优化的组合,但所有的想法都来自产品经理。向特定访问者呈现内容或功能,通过A/B和MVT测试对不同组合行测试,实时为每个访问者自动呈现最佳组合,RL最擅长的是找到人们从未有过的想法和组合,最大化实现产品经理的创造力。

最近几年,似乎就在突然之间,App流量红利已经开始明显的消失了,逐渐地产品经理面对愈加复杂细分的用户需求,绞尽脑汁也难以决定产品的改进方案,运营团队使出浑身解术也难以持续提升关键经营指标,市场推广人员手里拿着大把的预算,但往往花再高的成本都很难持续获得优质的用户增长了。

出路何在?最有效的也许只有提升转化率、提升活跃、提升用户满意度。

如何持续打造让用户满意的产品呢?任何一个产品经理都希望开启上帝模式,知道某个设计、色彩、按钮、图片是用户最喜欢、并点击最多的那个。

转换率优化(CRO)是移动页面或App测试新想法以找到更好的转换设计的过程。 这可以采取小的变化(如按钮颜色)或大的变化(如引导页面重新设计)的形式,一般来说,应用程序将尝试针对特定指标进行优化,如加入购物车或潜在客户或平均订单价值。A/B测试是最简单、常见的一种CRO。 它涉及针对新设计或经验(B)测试当前设计或“控制”体验(A)。
A/B测试主要关注离散元素,希望能够隔离哪些变化改进了关键绩效指标,哪些不变。获胜的想法通常得到实施,成为未来A/B测试的新“控制”。A/B测试和转换率优化通常非常重要,因为它可以让App、页面更好地利用其流量,更深入地了解客户,并挑战他们现有的假设。 A/B测试不仅教会了与客户产生共鸣的东西,而且让他们最终能够购买产品。
TestinData A/B测试,已经为很多顶尖的产品经理、运营推广团队提供了从优秀到卓越的必杀密器,为产品、运营和经营管理人员,有效掌握、提升了以下这些经营核心指标:
  • 点击通过率 Click-through Rate (CTR)
  • 转化率 Conversion Rate (CR)
  • 更新率 Renewal Rate
  • 跳出率 Bounce Rate
  • 平均保留率 Average Retention
  • 平均使用量(应用,手机网站、网页,App屏幕或游戏场景上的时间),Mean Usage (Time on app, mobile web, mobile webpage, an app screen or game scene)
  • 平均每用户事务数Average Transactions Per User
  • 净推动者指数 Net Promoter Score (NPS)
  • 客户满意率 Customer Satisfaction Rate
  • 平均每用户收入 Average Revenue Per User (ARPU)
  • 平均订单大小 Average Order Size

应用客户价值曲线除了大量的人工工作、工程配合和部门协调,A/B测试还要应对环境中的动态,当完成一个静态A/B实验时,结果所要求的实施条件往往已经不再具备。在日趋惨烈的碎片化市场竞争面前,测试参量、用户注意力更短,客户的忠诚度和耐心更加变幻无常。而频繁面临的高实效性要求的运营活动,又难以提供一个相对完整、静态的时间、用户样本量进行完整的A/B测试。

我们都很熟悉巴普洛夫的条件反射实验,通过奖励狗的积极行为、惩罚负面行为持续对狗进行训练,随着时间的推移,狗会强化学习、并计算出为获得奖励而采取的行动。

随后发展起来的智能系统的一个主要特征是能够适应未知环境,其中学习能力是智能系统的关键技术之一。特别是强化学习,从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖赏值最大,是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法,通过试错(trial-and-error)的方法来发现最优行为策略,采用统计技术和动态规划方法来估计在某一环境状态下的行为的效用函数值,从而通过行为效用函数来确定最优行为。

在函数估计强化学习中,同时并行两个迭代过程:一是值函数迭代过程,另一是值函数逼近过程,而值函数逼近过程的正确性和速度将对强化学习产生根本的影响。现实的App系统总是处于动态、复杂的开放环境中,因此要对环境加以细分,并在每个场景中学习的知识对下一个场景中的学习是有用的,建立连续的插曲式(episodic)场景,如一个棋类程序对同一个对手时,在每一棋局中学习的策略对下一棋局都是有帮助的,这也是AlphaGo进化的前提。在有限反馈的连续决策问题中处理学习,通过奖罚制度的基础上学习最佳A/B路径动作。这种奖励和惩罚反馈强化了要执行的行为以及要避免的行为。

在DataAI的持续A/B测试进行转换率优化的过程中,将根据模型智能判断、结束差异变化,将流量从性能差的变体重新路由到动态变化更好的变体,消除不好的变化,从而取得更好的性能变化。上图显示了从相对静止、恒定比例测试变体的阶段性A/B实验,到DataAI动态持续最佳优化变体运营智能优化的不同,可以看出,在一个观察周期内,转化率指标呈现波浪式稳步上升、而用户成本持续下降的趋势。

强化学习RL(Reinforcement Learning) 模型

人类进化提升智能水平的基本途径是通过与环境的交互学习,人工智能的核心诉求就是构建具有人类智能的系统,其典型特征就是能够适应未知环境,并逐渐增强自身能力,而其中的强化学习,就是采用人类学习中的“试错”机制,强调从与环境的交互中学习,学习过程中从评价性反馈信号极大积累奖赏为学习目标。

强化学习(Reinforcement Learning)是一种自我修正和反馈的机器学习机制,让机器拥有自我学习和自我思考的能力,试图解决决策优化的困扰,具体来说是指对特定状态State,采取什么行动方案Action,才能是使收益Reward最大。通过对未知环境一边探索一边建立环境模型以及学得一个最优策略,强化学习是将机器学习算法和环境互动结合起来的方式,在一个有限域内,只要时间充足(或做算力足够),在一个设定目标中获得较优解。

强化学习最早可以追溯到巴甫洛夫的条件反射实验,它从动物行为研究和 优化控制两个领域独立发展,最终经 Bellman 之手将其抽象为马尔可夫决策过 程(Markov Decision Process,MDP)问题而完成形式化。对于环境反馈的有利 奖赏,Agent 将强化引发这种奖赏的动作,并在以后与环境交互的过程中更偏向 于执行该动作。强化学习是一种将环境映射到行为、在此过程中实现最大化目标的学习过程 (Reinforcement Learning is   learning what to do——how to map situations to actions——so as to maximize a numerical reward signal) 。
没有明确的指导信号,reward可以看做是指导信号,类比SL是求解函数 y =f(x,z) ,其中x是Agent的状态,z是Agent在该状态获得的奖励,f是要求解的策略,y则是输出的动作action,即根据状态和奖励序列求解最优策略,a = \pi(s,r)。RL的目标则是maximize a reward signal,而不是去发现数据背后的结构。RL的对象是agent(就像面向对象技术中的object),agent感知环境(State),做出判断(Action),得到相应的回报(Reward)。

如上图所示,每一步,对于agent都有:

  • 计算动作 At
  • 接收观察 St
  • 接收常量回报 Rt

对于environment都有:

  • 接收行为 At
  • 发出观察 Ot
  • 发出常量回报 Rt

此外,RL具有以下特征:

  • 不需要监督,有一个reward signal。
  • 强化学习中没有监督学习中的有标记样本,即没有人直接告诉机器在什么状态下该做什么动作,只有等到最终结果揭晓,才能通过“反思”之前的动作是否正确来进行学习,因此强化学习可以看作具有“延迟标记信息”的监督学习问题。
  • 智能体的行为会影响它随后收到的反馈。
  • 学习的目的就是要找到能使得长期累积奖赏最大化的策略。

Rewards

  1. Rt是一个标量反馈信号。
  2. 反映了智能体在时刻t行为得好坏。
  3. 智能体的目的即最大化累积回报。
  4. RL式基于回报假设:所有目标都可以表示为最大化期望累计回报。

Sequential Decision Making 连续决策

  • 目标:选择行动以最大限度地实现未来回报行动可能会产生长期影响;
  • 奖励可能会延迟;
  • 牺牲直接奖励来获得更多的长期奖励可能会更好,例如财务投资和转化率优化,可能需要几个月的时间才能成熟。

利用反馈来优化带来的好处在于能够兼顾其对长期的收益,例如下围棋、自动驾驶、App持续的产品迭代和运营活动对于一些需要长期策略支持的问题特别有效。

实践中,由于限制条件的不确定性,强化学习不是寻找绝对的最优解,而是找到相对满意的次优解,再不断迭代进化,从次优解向最优解无限逼近。也是由于限制条件的不确定性,强化学习的很多算法往往不能保证单调收敛。结合置信域策略优化TRPO(Trust Region Policy Optimization),可以有效地改善单调策略。

Testin DataAI:从A/B测试到运营智能自动优化 (Reinforcement Learning Optimizing Automation)

  1. 快速将阶段实验版本选优结果实时反馈给更大比例用户,缩短AB优化测试回报周期;
  2. 7*24小时系统自动进行版本选优和比例调整,无人工干预,保持运营水准持续提升;
  3. 专利AI算法模型[专利号:2017102790713] ,行业领先App场景持续训练、迭代进化;
  4. SaaS模式私有化弹性部署,API支持复杂产品大规模用户并发。
运营智能优化 Testin DataAI Reinforcement Learning Conversion Rate Optimization
运营智能自动优化 (Reinforcement Learning Optimizing Automation)

运营智能自动化优化 DataAI API

  • 无需人工干预,7*24小时智能版本选优、分流调整,保持运营水准持续提升;
  • 经过行业领先App复杂场景、大用户样本持续训练、迭代进化;
  • 历史数据智能分析比较,持续增长;
  • 连续决策,智能挑选动作行为,最大化更多的长期累积回报;
  • 人工辅助调整接口。

在现实的App推广运营优化任务中,机器引擎所获的App自身的反馈信息有限,且在多部决策后才能逐渐积累奖励。由于具有广泛的应用基础,DataAI引擎可以获得行业一线App不断积累的产品、运营专家的决策过程场景训练。

在强化学习系统中,人类的“经验”是以“数据”形式存在的。而在应用(Web、移动网页、原生移动应用、H5、公众号、小程序)产品、推广、运营实际操作中,人类专家的决策轨迹数据包括每条轨迹的状态和动作序列。通过这样的数据,DataAI引擎可以知道在什么状态下应选择什么动作,利用监督学习提升DataAI符合人类专家决策轨迹数据的策略能力,然后再通过回归算法即可被持续训练获得进化的策略模型。以此为初始策略,通过强化学习的训练方法基于环境反馈持续进行改进,从而实施更好的策略。

如上图所示,for t = 1, 2, \ldots, T

1. 对于数据 x_t \in \mathbb{R}^n
2. 选择action a_t \in \mathcal{A}
3. 得到损失 l(x_t, a_t(x_t))
目标是: \min_{a_t \in \mathcal{A}}\sum_{t=1}^T l(x_t, a_t(x_t))

对于DataAI RL模型,时刻t的action可以影响时刻t+1我们得到的data。具体的,在时刻t,我们得到到x_t(在RL里x_t一般被称作state),同时选择action a_t \in \mathcal{A},然后suffer lossl(x_t, a_t(x_t)),并且x_{t+1} \sim P(x' | x_t, a_t(x_t))。DataAI的RL模型是一种更积极的学习,可以用自己的action来决定如何探索state space。

Testin云测是“应用云测试服务”倡导者,通过AI自动化真机云测试、共享众包测试、全栈漏洞检测和DataAI数据智能,为应用(Web、移动网页、原生移动应用、H5、公众号、小程序)、移动游戏、VR/AR、AI、IoT物联网和工业APP提供所需的全栈应用质量、安全测试服务,DataAI通过机器学习引擎实现应用(H5, 移动页面, 二维码, 小程序, 快应用, 原生App)的实时自动优化,使产品、运营和市场人员能够持续、高效提升转化率和关键经营指标,目前已经持续为240万应用进行了1.9亿次测试。Testin云测具备ISO9000、ISO27001、ISO20000、ISO17025和CMMI 3资质,是中国合格评定CNAS测试机构,与ARM、Intel、Google、IBM、微软、360以及移动互联网产业链企业建立了良好的合作与沟通关系,先后被评为德勤Deloitte 2015年、2016年中国高科技高成长50强,2017红鲱鱼Red Herring Global 100。

Leave a Comment