本文源于今日头条算法工程师曹欢欢的分享,笔者结合自身理解和思考加以总结梳理,力求整理出每个产品经理都可以在实操中运用的科学设计产品方法论。
今日头条用了短短5年时间,成为移动端新闻媒体的独角兽,2016年末,完成10亿美金D轮融资,估值近110亿美元,成功挤入互联网第二梯队。如一句老话所说,世上没有平白无故的成功,当了解了今日头条如何打磨产品功能和交互设计后,笔者发现其成功是必然的,也是有迹可循的,这一切都源于自上而下的数据化思维。
本文源于今日头条算法工程师曹欢欢的分享,笔者结合自身理解和思考加以总结梳理,力求整理出每个产品经理都可以在实操中运用的科学设计产品方法论。
本文共分六个模块:
一、今日头条前世今生–介绍今日头条近期数据,今日头条的源起
二、数据思维做产品–CEO张一鸣如何解读数据思维,详述三个方法论
三、数据思维指导算法演化–头条推荐算法概述
四、今日头条的A/B测试系统–超级强大的科学实验系统
五、需求从何而来?数据收集到何种程度?–科学严谨的实验态度处理需求,收集全量用户行为
六、如何低成本完成有效A/B测试–A/B测试的原则,注意事项、实践方法和案例分析
介绍方法论之前,我们来看看今日头条究竟有何成功之处。今日头条是一个个性化信息推荐平台,基于大数据和人工智能,做到信息推荐的千人千面,2017年6月数据显示,今日头条日活用户超7700万,月活用户近1.8亿,日均使用时长超76分钟,日均启动次数超13次,如此活跃的数据,出现在一个新闻信息类应用实属罕见,今日头条2017年营收达到150亿,其吸金能力也是让人瞠目结舌。
接下来,笔者带着大家来一起探秘今日头条的成功之道——数据思维打磨产品。
今日头条从起名字开始就运用了数据思维,创始团队没有头脑风暴,没有投票,没有老大拍板儿,而是采用科学实验的方式,通过数据观测确定了头条的名称。实验方法如下所属:
今日头条CEO张一鸣所定义的数据思维包含三个维度:
按照特定维度对目标排序,分析top对象在特定属性上的共同点。
(1)A/B测试定义
A/B测试是一种把实验对象随机分组,把一个或多个测试组的表现与对照相比较,进行测试的方式。
(2)A/B测试目的
通过科学实验设计,在保证采样样本无偏,有代表性的前提下,流量分割与小流量测试等方式,获得具有代表性的实验结论,并确信该结论在推广到全部流量可信。
注意事项:测试组和对照组不要设计多个变量同时测,一次实验只设置唯一变量,同时实验组内分小组,尽量保证组间数据随机分布,便于分析数据波动影响。测试前需要定义核心观测指标,通过指标数值变化,确定实验结果的好坏。
交叉验证用得最多的场景是涉及到人工运营的场景,在评估时需要人工介入为文章分类,以保证推荐的准确,那么评估和审核都需要依赖人,人员能力的差异和流动性导致评估和审核标准会变来变去,这就需要机器可以监控人的行为,每个评估的运营人员有自己一个任务队列,把一个要评估的样本至少放到两个以上的评估队列里面去,就意味着一个样本最少有两个人看过,如果他们意见不一致,我们有一个资深的仲裁小组进行仲裁。
推荐算法是今日头条产品的灵魂。头条推荐算法是一系列算法的策略的组合,每一个子系统的改进都会对系统整体造成影响。
一个排序模型,搭配多个召回模型,通过召回模型做初筛,然后反馈给排序模型,节省99%的处理资源,推荐更快捷。
对推荐效果可能产生影响的因素:候选内容集合的变化、召回模块的改进和增加、推荐特征的增加、推荐系统架构的改进、规则策略的改变。
今日头条同时在线测试的实验有很多,每月多达有上百个之多,如何科学的分配实验流量,减少沟通,降低实验成本,做到实验结果可视化展示是必须思考的,于是出现了今日头条的A/B测试系统。
共享实验。是指实验模型只测试某类特定属性用户,可以与其他非相关属性的实验共用实验对象,流量桶分配逻辑与独占实验类似,但是当其用户可以分配到其他实验中,复用部分用户。如下图所示:
基于这套系统,基于数据分析协助产品功能迭代(经历几十个版本迭代),数百个有效改进上线,人均有效点击提升40%,人均停留时长提升50%。
互联网产品的需求一般来源于用户反馈或焦点小组需求收集,是一种信息的归纳总结,但是这部分数据是有偏信息,不可以简单粗暴的将用户反馈的需求作为直接需求,所谓会哭的小孩有奶吃,很多时候,用得很好的用户不反馈,用得不好的才反馈。如果你改变了,是不是伤害了那些不反馈的用户呢?
其实你是不知道的,所以这些需求我们并不一定要做,只是先做一个候选实验的需求池。如果一个需求两三周持续在反馈,这个需求可能是一个强需求,那么做好了小渠道测试,用数据说话。
(1)原生功能
(2)WAP页面
阅读细节行为收集,今日头条已经做到了近乎于眼动测试的程度,通过数据可以分析用户阅读文章的滑屏速度,阅读习惯,阅读速度,什么地方快速滑过,什么地方仔细阅读,最终,以量化的形式反馈给内容创作者,帮助其持续优化内容编辑。
产品核心竞争力=拉新能力*留存能力*变现能力。每项能力比对手强20%,整体差距超过70%,数据思维可以帮助团队把每一项能力发挥到极致。
初创团队可能没有太多资源开发多个版本进行多渠道测试,一些大公司也不会如同今日头条专门设计一个A/B测试系统,那么如何在没有很多预算的情况下完成简易有效的A/B测试呢?首先,要理解A/B测试的原则,其次,一定要躲过一些坑,最后,就是根据实际情况确定测试方案(开发参与实现方案讨论)。
(1)多方案同时段并行测试;
(2)测试方案只有一个唯一变量;
(3)用户行为数据收集;
(4)定义核心指标。
(1)一定要是单变量。如果两个版本,每个版本有2处不同,最终分析的时候很难确定是哪个优化导致的指标变化。
(2)统计置信度。受到样本量影响(样本太少,样本代表性);置信水平(A方案49%,B方案51%,可能数据分流导致的偏差所致,分流有偏造成的影响)
(3)设置对比观察数据组,即没有任何调整的情况各项数据指标如何,用于实验效果对比分析。
(1)从测试页面类型分类
(2)从测试时间点分类
样本量足够的情况下,可以考虑实验组数据内部再做分组,如同今日头条系统实现的部分,观察用户行为波动性,保证测试结果置信度更高。
我们以P2P平台为例,假设P2P平台月新增1万注册用户,9000用户注册未投资,以往通过短信告知用户下发投资卷召回用户,效果非常不明显,现在将9000用户随机分成3组,每组3000用户,分别是1组(对比观测组),2组(红包召回组),3组(话费召回组),短信文案知识红包和话费区别。观察三组用户在短信发出后一天内的行为变化,核心指标定为登录APP行为。
红包和话费充值初期数量不会很大,可以考虑设计成手动下发,如果用户投资则固定时间充值,无需相应开发。
通过对比用户登录和投资行为,可以很明显的看出何种召回方式效果更好,因为是小数据样本检测,充值量初期不会太大,可以节省话费充值对接开发,测试效果出来,优化完善,确认召回方案后再进行开发才相对高效,因为很可能新召回策略并不比原有策略有效。
希望本文对产品经理们有所帮助,可以为您的产品设计提供科学的方法,也希望在留言区看到您的留言,我们一起交流小团队如何使用A/B测试,科学设计产品。
来源:pmcaff 互联网产品研究中心