【大咖来了 第4期】数据驱动的产品决策和智能化

作者: 王建强 2019-11-07 16:32:26

数据与产品的结合

话题一是数据与产品的结合,以 Stitch Fix 作为例子,阐述数据科学是如何渗透到产品的不同环节的。

Stitch Fix 是一家数据驱动的服装新零售的电商公司,致力帮助用户发现适合他自己的风格款式,主要服务于没时间逛街、对穿搭不在行、想追逐时尚等特征的用户群体。

Stitch Fix 所有的销售都来源于推荐,推荐采用的是盲盒模式,用户在收到商品之前是没有预览过的,这样就意味着需要猜用户会喜欢哪些衣服。如果一旦猜错,消耗的将是造型师服务和双向物流的这些真金白银的成本,所以对准确度的要求非常之高。

如下图,从普通的用户角度看,使用Stitch Fix 主要分为三步骤。


Set.1是回答个人的风格问卷,之后会收到搭配好的五件衣服,试穿后留下喜欢的,免费退回其他不喜欢的。

Stitch Fix 鼓励用户对每一件衣服从尺寸、价位、版型、风格和颜色等维度进行反馈,这些数据将助力数据科学团队更好的了解用户与服装的匹配情况。

数据科学团队人员占员工总数的 1/4,同时也意味着数据科学渗透到产品的很多环节,发挥着应有的价值,例如仓库分配、用户与造型师匹配、用户画像、人货匹配、库存管理等环节。
例一:仓库分配
当有用户请求发出,需要决定从哪一个仓库为用户发货。选仓发货需要综合考虑多个因素,包括运费,投运时间,仓库风格和用户风格匹配情况等,基于这些因素建立仓库和用户之间的匹配度指标。

例二:用户和造型师的匹配
当用户发出请求,依据用户和造型师之间的交易历史,用户打分、以及资料匹配进行造型师匹配。

例三:用户画像
在 Stitch Fix 用户画像既服务于算法,也服务于造型师,故需要一些可解释、可以为人读懂的用户画像。


用户画像大部分来源于用户填写的个人问卷,其中包括基础的纬度画像,以及跟穿搭相关,如说用户的身材尺寸、颜色、价格偏好等。

在处理用户风格上,把穿搭的风格分成七个纬度:经典、浪漫、波希米亚风等,每个用户在每个纬度上有 1 到 4 的打分,基于用户打分可以大概看出来用户的穿搭风格。

例四:人货匹配
这里主要分享数据和模型两个层面,数据层面有:用户画像、商品 ID、商品泛化特征(图像、标签),以及多维度的反馈。推荐算法的数据存在挑战,如 item 的样本不均衡、数据回流带来的误差、特征和反馈数据缺失、折扣带来的偏差等。模型层面(2016 年)有混合效应模型、Factorization machine、DNN、word2vec,、LDA 等。


例五:库存管理
在库存管理上,需要解决的问题有很多,如有哪些货、要进哪些货、进多少、分配到哪个仓、及哪些库存需要清仓等。有哪些货看似是一个简单的问题,但在 Stitch Fix 比较特殊,因为库存商品其实仅占所有商品的 40%,有大量的商品存在用户寄回到仓库的路上,或是从仓库寄到用户的路上,这里就需要做仿真与库存快照来应对。

透过上述这些产品的环节发现可以用数据提升效率的机会,定义并解决问题,那么是通过哪些技术实现的呢?这里主要分享普遍关心的三大问题,度量指标的选择及分析,AB 测试和用户画像。

度量指标的选择及分析


在 Stitch Fix 专注转化率、GMV、留存这三大核心指标,对于选择度量指标可参考三点:数据源的可靠性、指标与结果的相关度以及信号质量和敏感度。

Stitch Fix 常用分析主要有漏斗、群组、多纬等,如下图以群组分析示例。


如可以把用户按照获客时间、首单时间分成等标签并分成群组,然后观测在一定时间范围内某些指标的变动,对于时间的跨度可以选择相对比较短的,也可以选择相对比较长的。

如下图,为不同的获客时间的用户留存对比。


综合看,从 1 月到 7 月,首月的留存在提升,这意味着在渠道获取上,获取的用户质量有待提升。另外也可以看到随着时间的推移,用户留存会有一个平台效应,头四个月,月到月的用户流失是比较显著的,后续的用户留存趋于稳态。

AB 测试
在 Stitch Fix,AB 测试主要面临两个挑战,分别是线下交易带来的延时和造型师人为因素。

当线上算法发生改变时,需要造型师针对每一个用户做出匹配,再加上物流,会产生七到十天的延时。

造型师的人为因素主要是由于造型师的惯性带来的,举一个比较极端的例子,如果算法想重推高单价产品,但造型师却希望给用户推荐一些价格适中的商品,这样就会对结果产生影响。

这里需要提醒的是 AB 测试需谨慎,如下四点要注意:

实验正交设计:实验 1: uid 尾号为奇数 vs 偶数 实验 2: uid 尾号 (0,1) vs 2

用户适应曲线

小流量实验与全流量上线的区别

实验效果叠加:季度上线了 6 个+1% 的实验,但整体提升只有 3%

用户画像
用户画像是在公司范围内基础数据的搭建,也就是大家现在经常提到的数据中台,画像对于推荐业务、用户运营、渠道画像都会有相当的指导意义。

这就意味着画像在公司是需要多部门协作的事情,也会因为多部门协作带来挑战,主要体现在数和应用脱节、多业务需求近似两种情况。实际在生成画像时需要三步走,依次是收集画像需求、构建标签框架和填充数据。

在实用过程中,如果希望破局,有下面三个建议:

放弃大而全的框架,业务场景倒推 (价值)

自动化生成标签 (手段):规则或算法

有效的标签管理机制 (可持续性)

数据与人的结合

第二个话题是数据与人的结合,在 Stitch Fix 是通过算法和造型师结合起来帮用户做推荐搭配,可以认为这是一个人机耦合的系统,那么,人机耦合系统会有哪些挑战呢?


在算法方面,Set.1要对大量的库存进行 SKU 筛选和排序,第二分从大规模数据中找到规律。第三是降噪,因为造型师会存在相当大的个体差异,需要制定一个相对一致的标准,使得最终筛选的结果不会产生很大的偏差。

在人机耦合的系统,造型师承担人的角色,对非结构化数据进行处理,进行 1v1 情感沟通、还具有创造性,这样算法开发时候就可以免于考虑边缘情况。


这种人机协同的方式,不是纯粹靠机器算法,也不是纯粹靠人工。机器可以承担更多的繁重的重复性的劳动工作,还拥有大量的工作记忆、长期记忆,而人可以更好的处理非结构化数据,可以进行美学评估,也可以跟客户建立良好的人机关系。

另外人对场景也会有比较强的敏感度,比如说秋天到了,在中西部的人适合穿什么样的衣服,造型师对这个会有比较强的敏感度,进而做比较好的推荐。

在人机耦合中,虽然 1+1 是大于 2 的,但人机耦合也面临如下问题:

人会成为速度和规模的瓶颈:订单分布跟造型师工作时间不匹配

衡量人和机器彼此的价值

对算法多反馈渠道:用户反馈与造型师挑选

算法的优化目标要慎重选择

数据与团队的结合

第三部分是数据和团队的结合,这部分主要介绍在整个数据团队里,包括分析、算法、数据开发是如何结合在一起,及整个数据团队在公司的架构体系下,又是如何和业务团队结合起来协作的。


数据和团队的结合,其实在聊大数据时,聊了很多方法论、思维框架,但最终实施起来,还是要靠数据团队的人来实现以及给公司提供价值。

Stitch Fix 数据团队主要分成四部分,底层数据开发团队,可以搭建数据平台、数据仓库,数据科学家提升效率或者做部署工具。

上面三个团队是跟业务一一对应的,客户团队、推荐团队,还有库存团队。

数据团队的搭建上,这里给出三个定位原则,供参考:

以业务与产品为核心。聚焦在产品和业务,使得数据产生实际价值

数据科学团队要结合基础设施部门与业务部门,尤其是业务跨度很大的公司

公司决策层的耐心支持,并与具体工程与产品团队成为有机的一体, 目标对齐一致

在实际操作中,请注意还将面临如下问题:

分析结果如何落地,如何做能够落地的分析

分析处理数据需求与数据驱动业务,处理数据相当于是一个被动的事情,数据团队经常会面临要为业务部门拉数据的任务,但同时数据团队也需要主动去驱动业务,可以认为是被动和主动之间如何做一个协调。

保障数据平台稳定性的同时,数据平台团队也尽可能开发,尽可能帮数据科学家更好的做数据流程,部署代码和线上化的工具。

数据 智能化
上一篇:【大咖来了 第2期】快狗打车智能化演进之路 下一篇:人工智能、5G应用不再停留在“纸上蓝图” 数字经济发展提速
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

你讲故事,它剪视频:AI视频剪辑自动化解放熊猫眼剪辑师

来自清华、北航、哈佛大学和以色列赫兹利亚跨学科研究中心的研究者开发了一种全新的视频剪辑方法,可以通过编辑视频对应的文本完成镜头选取和拼接,生成符合文字描述的连贯视频。

张倩、杜伟 ·  1天前
这个中国科学家的救命AI,登上了国外热门榜 精选

总是送别人上热搜的微博,今天它自己上热搜了。一个借助微博挽救自杀者的团体登上了“美国科技热搜榜”Techmeme。

郭一璞 ·  2天前
500万AI人才缺口!教育部新增高职人工智能专业

近日,教育部官网公布《普通高等学校高等职业教育(专科)专业设置管理办法》,在相关学校和行业提交增补专业建议的基础上,教育部组织研究确定了2019年度增补专业共9个,现予公布,自2020年起执行。新华社也对此进行了报道。

佚名 ·  2019-11-13 14:27:43
选择正确的人工智能用例的5个技巧

很多企业可能对采用人工智能还没有做好准备,因此从单个项目开始可能是一个很好的开始。首席信息官在早期人工智能项目中应该有什么收获?

David Petersson ·  2019-11-11 16:08:36
一份不可多得的数据科学与机器学习Python库

本文全面地介绍了当前市场上适合于数据科学和机器学习的优秀 Python 库。

陈峻 ·  2019-11-11 09:10:19
长相不讨AI喜欢面试就会挂?全球百万求职者经历AI“看脸”面试 精选

AI不仅会筛选你的简历,还会通过看脸决定你能否通过面试。这不是将来时。全球已有超过一百万求职者,经历过AI面试官的冷酷“凝视”。

鱼羊 ·  2019-11-11 08:43:50
模仿川普语气真假难分:从未如此逼真,超强编故事AI完全体来了 精选

还记得那个编故事能以假乱真的AI模型吗?它叫GPT-2,因为效果太好,OpenAI说不能放出全部——让坏人误用就不好了。

乾明 鱼羊 栗子 ·  2019-11-06 13:57:05
人工智能在企业中开始变得务实

两年之前,对人工智能(AI)的荒谬期望达到了顶峰,我会试图在这篇文章中对此进行讨论。现在呢?好吧,现实似乎已经悄然而至,从企业是如何接近人工智能的就可以看出,如今的人工智能已经开始专注于那些唾手可得的成果,而不是空想。

Matt Asay ·  2019-11-06 09:44:55
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载