机器人老王——有趣的机器人
一、人对机器人的想象三部曲
Robot机器人,到底是机器还是人呢,人对机器人的想象三部曲。
初级:工具的延伸
这个阶段的关注点在于,更强更快更准确的做人所不能。但是对机器人的认识,像棍棒、轮子是一样的,就是个工具。
升级:人自己的投射
这个阶段的机器人是有性格的,有自己处理问题的能力,有情感可以交流,可以给人类安慰。人类和机器人之间,形成了一种除生产过程的接触之外的心灵相通,也就是和机器人谈一场“恋爱”。
终极:生命体的终极追求
这个阶段,不管人类是什么,机器人是什么,我们都只是灵魂的存在,人类放弃肉身,机器人放弃机械,合而为一。听上去有点悬,暂时只有在科幻电影和小说里能看到。
现在我们正处于——初级到升级的中间。初级目标已经实现,有大量机器人在各种场景下辅助我们工作,但是现在更希望机器人懂我们,而并非帮我们,所以正往投射的方向前进。
二、机器人五大能力模型
链接能力
与外界有通讯能力,可以交互信息。如果不具备这个能力就不能和整个环境去交互有无,不具备生存能力
感知能力
通过光学、声学、力学一系列传感器,根据感知能力,进一步取得交互能力,通过语音屏幕甚至脑电波,与人之间产生互动
交互能力
学习能力
不是像软件一样的版本迭代,而是在新的场景下去应付更多模糊的场景,不是原先规定好的特定场景
执行能力
三、机器人常见分类
四、苦逼的产品经理
做机器人难在哪?
机器人是软硬件结合非常深的、大的一个系统。
但是软硬件的基础思考逻辑是不同的。软件用户获取成本低,硬件用户获取成本会比较高;软件的回报逻辑是后置回报,硬件的回报逻辑是前置回报;软件周期比较短,硬件的周期比较长;软件重迭代,硬件重规划;软件更多是内部开发,硬件更多是配合开发;软件发布后可控,而硬件发布后不可控。
产品经理难在哪?
不同的团队有不同的思路,要全都融合在一起。软件产品经理核心是一个设计师定位,逻辑是什么、是否好看、如何生成生态。硬件产品经理核心是一个生意人定位,每天考虑如何低买高卖。可以将硬件绑定一种服务,收取硬件增值服务费或为硬件承载的内容付费。
为什么很苦逼?
行业不成熟——没有人可抄
上游不给力——有锅没人背
东西做太贵——土豪才会买
应用太有限——买回去没用
怎么办?
做机器人,跨界才是唯一出路。要将把硬件和软件深度结合在一起,把学术和产品整合在一起。
赵帅——产品视角浅谈对话机器人
任何一款产品的出现,本质都是源自用户需求,而不是源于老板的脑袋,也不是源于头脑风暴。要么是已经存在的存量需求,如何能让产品做得更好;要么是正在规模化的增量需求,让需求成为新的机会点,对话机器人也不例外。
一、探索“对话”行为背后的需求
对话为什么能够开始?
第一层,是基础问答的需求,可以描述为:我有一个问题,请你回答我。
第二层,是任务流程协作的需求,以达成某种目的为止。
第三层,是共同的情感建立,无论喜怒哀乐。
对话为什么会持续?
第一个原因,是至少一方的需求没有得到满足。比如我去提问题,对方回答我不满意,我就会持续追问。
第二个原因,是双方相对平等。如果我提了个问题,或者请对方帮个忙,但是对方始终是一种高姿态不搭理我,那我就很容易放弃,不想聊了。反过来,如果对方对我过分尊敬,总在说一些没有营养的恭维拍马屁的话,时间久了,我也会变得更虚荣,而且会觉得很无聊。
对话会终止,最根本的原因是,双方都放弃了这轮对话。感性一些来描述对话终止的原因,可以认为是双方都觉得“疲惫”了,也就是这一轮对话的能耗消耗殆尽。所以,对话总会终止,能耗殆尽就会终止。
二、“对话机器人”产品场景:封闭域对话 VS 开放域对话
优秀的产品经理是很懂得如何控制自己的用户使用产品时的各种操作,从而提前把控用户的预期,进而达到体验的相对最优。许多优秀App的基本设计逻辑就是,页面之间的跳转有规则且有顺序,这样用户不会通过点击跳出预设流程,预期就相对可控。可是对话机器人该如何控制预期呢?
在对话聊天的场景中,用户的输入时而可控,时而不可控,我们做不到像App设计那样可以制造一个封闭的逻辑闭环来让用户遵守规则,对话聊天是一个天然的开放场景,用户平时怎么和朋友对话,和机器人也会怎么对话。
因此,我们人为地把对话分为两种场景,一种是“要求用户输入指定地话语才能继续对话”,这部分称之为“封闭域对话”,而其他那些“用户爱说什么就说什么都可以持续对话”的部分,称之为“开放域对话”。
封闭域对话有三个关键的特征
1.输入和输出是可枚举的
2.有明确的始与终
3.有明确的流程
封闭域对话的设计逻辑延续自“ifttt(if this then that)”,是workflow的进化交互形式。
封闭域聊天两个典型案例
(1)读心机器人
10年前微软必应推出过一个“读心机器人”,它会在20个问答中猜你心中所想。这个机器人曾经在几年前出过一个对话问答版本,用户只要在每一步时回答“是”或者“不是”,对话就会持续进行,直到猜出或者猜不出结果。这就是一个典型的封闭域多轮问答对话,用户的输入只有两个,而过程是一大堆背后的逻辑判断,且有相对固定的流程,而且有明确的开始和结束。
(2)Amazon Echo音箱
Amazon的Echo音箱,大家都很熟悉了,Echo之所以成为爆款产品,很关键的一个原因是,它的对话机器人Alexa在Echo音箱的场景设计中是一个封闭域对话。由于音箱是我们居家场景中,除了遥控器之外最常见的高频交互式Commander,我们很难再在家里找到一个这样的硬件,它除了可以轻易地输入指令,还可以快速且明显地反馈。
当我们面向Commander进行输入时,我们可以输入的话语就已经变得局限,可以想象到的是,在居家场景中我们可以发出的指令几乎就是“打开”、“关闭”之类的。更重要的是,在居家场景中可以控制的物品也是有限的,而且任何一个操作的流程都很短。
封闭域对话在产品设计中的特征
其一,封闭域对话其实是workflow的延伸
其二,封闭域对话场景单一可控
其三,封闭域的边界处理很重要
在封闭域对话的边界设计中,很难做到万无一失周密完全,因为用户输入可能会千奇百怪,所以最佳也是最讨巧的方式,就是用开放域对话来“兜底”。
开放域对话
开放域是相对于封闭域而言的。由于对话机器人的话题几乎都源自用户,而每个用户可能有任何输入,话题就会无法穷举,且在多个场景中跳来跳去,进而形成了所谓的开放域对话,也就是“啥都能聊”。
开放域对话最大的特点是,输入无法穷尽,导致输出无法穷尽,而且对话没有确切的结束点,无流程可言。我们一般情况下想去考验一个机器人是否智能,通常考验的就是开放域对话,大名鼎鼎的“图灵测试”通常所面向的也是开放域对话能力。
开放域对话产品设计的基本原理
对话需要的是双方的平等。和微软小冰聊天时,有时甚至感受不到她是真人还是假的机器。其实这并不重要,小冰正在解决开放域聊天中一个核心的问题,如果不断给用户制造话题,从而延续聊天的能量。
说到话题制造,几乎所有开放域对话语料都源自于网络上公开的对话,譬如百度知道、知乎、豆瓣、贴吧等等,这些对话都是人与人形成的,那么,当一个机器人把其中的某些话在当时的场景下再说一遍,我们是分辨不出来这个机器人是不是真人的。这便是开放域对话机器人制造的基本依据。
开放域对话机器人的两个产品陷阱
其一,面向用户的机器学习
很多人认为,对话机器人和人聊得越多,学习的语料就越多,就可以省去很多语料获取的问题,这是一个巨大的误区。由于用户的语料是海量且无规则特征,导致语料清洗非常苦难,无法使用。
其二,无人为引导的个性
由于开放域的语料完全来自于互联网,所以机器人回复的话语带有何种语气很难把控,如果不加以认为干预,机器人说的话会显得时而有趣,时而刁蛮,时而无知,时而夸张,时而智慧,在用户的心智中无法用一个或几个明确的形容词去形容它,这会带来一个很尴尬的结果,用户是抱着“调戏、戏谑”的态度去对话,长此下去,想建立用户的亲密感和信任感几乎不可能。
四、对话机器人的用户价值
我们知道,任何产品都能和用户产生亲密感和信任感的,这份亲密和信任是建立在产品体验之上的,我们因为问题解决而对一个产品产生依赖,因为惊喜而对产品形成感情。站在产品的视角来看,解决需求通过封闭域对话完成,而开放域对话来不断制造惊喜。
一个事实
瞎聊难为刚需,情感计算任重道远
一个问题
用户真的需要一个秘书机器人吗?
我们先来看两个例子。
(1)一个肯定:问答机器人是很有价值的
最常见的问答机器人是“客服机器人”,譬如京东的JIMI,阿里的小蜜机器人,还有一些银行的客服机器人,但它们更像FAQ过滤器。
问答机器人其实是在头部问题上实现了综合过滤,然后通过对话的形式反馈给用户,如果用户实在问的是长尾问题,问答机器人回答不了的,可以把问题再抛给人工客服。满足了用户九成以上问题的直接答复,是问答机器人的核心目标。而至于其他类似导购、协助订单管理等等,不过是附加在头部问题之上的增值体验优化。
五、对话机器人的产品价值
对待产品,一定要从其商业视角出发,不然没有聊的意义。站在商业视角,对话机器人拥有三个方面最核心的产品价值。
跨场景连接成为可能
由于对话机器人的交互方式原始而单一,使得机器人背后所有的计算逻辑都被隐藏,机器人可以成为一个独立的桥梁连接不同场景下的服务,让用户只在一个对话场景下都可以完成交互。
交互升级带来的流量深度沉淀
(1)指数级的流量增长
百度DuerOS和Amazon Alexa的逻辑是相似的,都是通过赋予所有智能硬件语音对话的能力,进而获取新流量,同时实现流量的深度交互和沉淀。
(2)高频次的端计算
我有一个猜测,由于对话机器人是一个高频次交互场景,带来的最直接影响可能是要求在设备端上拥有更加强大的计算能力,可能一些封闭域或者开放域的计算能力直接预加载到了客户端,可能是硬件也可能是软件。
流量沉淀带来的数据深耕
正是由于流量的深度沉淀,使得每个用户多维的数据沉淀成为可能。
莫瑜——基于对话交互的智能导购技术
郑俊成——AI产品经理成长之路
在人工智能时代,产品经理的合作者不再是开发人员,而是算法工程师。用户的需求也变成了利用语音识别、图像识别、自然语言处理等技术处理问题、提取特征,根据算法或知识图谱来为用户产生最终的返回结果。
除了以上这些普适性质的区别之外,智能一点科技在实际培养 AI 产品经理的过程中又进行了更深层次的划分,平台型产品经理与对话交互型产品经理应运而生。
我们发现传统行业和一线互联网行业对于AI的需求非常的强烈,产品经理是直接解决需求的那个人,需要有一定的用户思维,也要思考怎么去帮企业节约成本、提高效率,怎么节约用户的时间,产品经理一定要知道,AI的边界。
形态型产品经理
传统行业的需求抽象成一个产品,是一个非常难的过程,现在很多用户对AI的期望值非常高,产品人需要将这个期望控制在一定高度上,因为产品需要不断的迭代,没有办法一蹴而就。
对话交互型产品经理
产品人需要把很多人说的话,抽象成一种表述形式,所以这个产品人自身的语言表达能力、理解能力,就是很重要的一个判断标准。
除此之外,产品经理通过产品设计,给产品赋能。如果说沟通能力和理解能力是基础,那么语料的规划、语法句法的分析能力、数据统计的能力、持续学习的能力则是刚需。
许多互联网产品经理不淡定了,工程技术以及算法模型这不是研发人员需要的知识么,作为非技术人员是不是门槛有点高?所以产品经理和技术团队,究竟应该如何配合?
传统推荐是基于用户行为积累用户行为,然后给用户推荐用户某种程度喜欢的东西,而对话交互的方式来获取用户的信息更为直接。
为什么需要个性化推荐?
(1)对话交互有利于信息的获取,不利于信息的展现
(2)对话交互需要细粒度的个性化
个性化推荐如何解决对话式交互的独特问题?
传统的推荐系统一般多依赖于隐式反馈,如点击、购买、评论等用户行为。不考虑时间、地点、场景、情绪、活动状态等上下文。
上下文感知推荐系统考虑更多的上下文场景,能结合更丰富的信息(包括显式反馈),给用用户提供更准确、更有效的推荐。
一、问答导向的对话交互。
也就是用户提问题,我们给答案。技术框架为用户提问题,先语义理解模块,得到用户表达的内容,通过主体模块——问答库/文档库中找到候选,然后进一步去排序,找到最终给用户的答案或者回答用户问题的信息。
用户提问题总共分三种场景:
CBQA,找到一个问题和主问题是一样的,那就给这种答案。它是基于问答库回答的问题。所以工程师的难点在于,如何找到模型去表达这两个东西两句话是一样的。
DBQA,将一句话拆分成若干句话,找到一句话表达的是问题。
KBQA,核心问题在于,如何构建知识图谱、如何解析语义、如何查询和推理知识图谱。
智能一点的解决方案是,横轴是有多少是对的,纵轴是覆盖率,也就是表达用户问100个问题,有多少是正确的。里面涉及到文本相似度、次序/问题类型、归一化/停用词、一词多义、一义多词等五个方面的挑战。
任务导向的对话交互
语音识别到文本,经过理解开始分析语义到底是什么,然后进入对话管理模块,再由内容生成文本,不断的循环迭代。语义理解的目标,是抽取用户输入的领域分类、意图识别、槽值抽取(所需相关信息)三个信息。
传统序列标注方法最主要的问题在于,离散语义表示导致不能很好的捕捉两个词的语义差异。例如/;巴黎VS伦敦、巴黎VS纸尿裤,两队词语的语义差异是类似的。那么如何解决这个问题呢?
方案1.维护词表。维护City词表,存储类似巴黎、伦敦等词语,并构建词表相关特征。但此方案的缺点在于,需要维护,并且仍然没有解决其他词语之间语义相似度的问题。
方案2.利用词的连续语义表示。基于词向量聚类,计算每个词的Cluster ID
智能一点的解决方案是:
推荐导向的对话交互
数据收集
信息:通常重点为时间、地点、个性、关注点、情绪、用户行为等上下文信息。以电商导购客服为例,早中晚时间段含义不同,星期几也有差异。
方式:GUI以隐式获取为主,利用交互日志,获得包括浏览、点击、收藏、购买等行为。GUI还可以采取显示获取,交互询问。
2.用户偏好分析
信息:长期的静态信息和短期的动态信息,对偏好因素考虑的越细,推荐结果会越好
方式:基于规则或启发或统计模型的方式。
3.推荐结果生成
基于协同过滤的上下文感知推荐技术
Pro:可以利用群体智慧做推荐
Cons:数据稀疏和冷启动的问题
基于内容的上下文感知推荐技术
Pro:常用方法推荐效果不错,矩阵分解、张量分解、因子分解机
Cons:矩阵运算计算量大,对新用户的扩展性不够好
混合式上下文推荐技术
基于隐变量和考虑序列数据特点的推荐系统
智能一点的解决方案:
卓浩——AI时代的产品设计
一、AI发展之路
当大家还在惊叹于AIphaGo的胜利时,AIphaGo Zero又出现冲击大家的认知。但对于AIphaGo的情况需要辩证地去看。一方面需要正视事实,AI确实为我们带来不可思议的新面貌;另一方面确实没有大家想的那么夸张。
为什么在围棋领域,可以有如此大的突破?主是的原因在于,这是一个非常适合AI发挥的场景——规则清晰且不变的有一个闭环的系统。
AI不是普通百姓想的科幻。人工智能正在点点滴滴的融入生活,也在滴滴点点的变聪明改变生活。我们现在掏出手机,其实已经在使用AI了。
二、AI的四波浪潮
第一波:互联网智能化,1998年
今天行业内戏称人工智能七大黑洞——BAT、Google、微软、Facebook、Amazon,就是那个时候形成的。企业握着大量数据,有数据和人才得天独厚优势,想做什么都很容易。
第二波:商业智能化,2004年
互联网驱动下,传统行业IT系统的商业数据(如银行)被使用起来,陆续出现各种该类型的公司。
第三波:实体世界智能化,2011年
在移动互联网驱动下,诞生新一批硬件公司。最开始很多人认为,单纯就语音技术来讲,和1998年没什么区别,但是巨头很快醒悟过来,虽然技术没用,但是收集到的数据很厉害,谁掌握更多数据,就能做出更好的产品。
比如旷世科技,全球范围内面部识别做的最好的公司。当初创新工场投的时候,公司还跟AI无关,只是单纯的做技术,但是随着数据量积累起来的时候,自然而然走入AI领域。再比如语音识别翻译做的最好的是Google、科大讯飞、搜狗,因为掌握特别多的语料。
第四波:全自动智能化,2015年
汽车工业就是人工工业明珠之一,这一波是以自动驾驶为代表的。表面上只是汽车领域的应用,但实际上牵涉到其他产业链,也就是自动驾驶研究出来的技术,可以应用在其他领域内的,这一波推进至关重要。
三、技术与商业的关系
技术人往往因为技术发展能做更多事,非常激动,而企业心中关心的是,如何多赚钱、如何少花钱。例如我们会觉得刷脸、无人收款很酷,但是企业想知道怎么多赚钱、怎么少花钱,希望有完整的解决方案,商业逻辑是什么,哪些相关那些不相关。
其实今天的我们是吃老本。这一波AI主要依赖于,过去三十年积累的海量的、标注过的、可以供机器学习的大数据。技术进步,让过去无法利用的信息变成数据。例如监控的静态、动态识别,有突破进展,但是也没有天网那么厉害。
刷脸开门技术实现毕竟在同一场景下,总共没多少人,进行比对。但若是在火车站几百万人流情境下,摄像头再高清,也不能对每一个人都高清识别,即使能做到,带宽也受不了。
四、这一波AI获得机会的公司类型
第一种:互联网巨头、成熟创业公司
如滴滴,出行数据都在手上,可以动态调整付多少钱,这就是商业场景。
第二种:传统行业
手上有大量数据,基本自己不知道怎么用,但是潜力大,找不到合适的方式,很难建立一个有足够技术实力的团队搞定数据,产生价值。
第三种:AI领域创业公司
技术导向的AI创业公司&人工智能供应链。有的公司过去发展的好,有太多的包袱,例如奔驰传感器硬件要比特斯拉多50%,但是特斯拉自动驾驶比奔驰做的好,因为特斯拉是软件公司。
五、如何用AI思维方式去思考
跨越时间、空间的界限。
人类在做数据分析时,成本太高,会受到时间和空间的限制。但是机器可以不断的采集数据,承受不住了,大不了再换一个机器,不受到时间和空间束缚,只要想做就可以做。人类有一种思维定式,会恐惧扩大规模做测试。最典型的例子就是围棋,对于人来说,想那么多干嘛,能想出来这些步骤就已经很好了,但是机器会去穷举。
千人千面。
过去产品,一个给所有人用,推荐所有人关注的东西给每一个用户。后来开始学习个人行为偏好,但是依据个人偏好,太严谨会少了些惊喜,太松会难保质量。现在基于社交网络,相似类型的人会做交叉推荐,但依旧是不足的。但是AI可以针对不同人提供不同服务。
综上两点,还有一个典型案例——英语流利说。
AI英语老师,可以实现完全的针对性教学,36小时教学成果比真人100小时更好。人的精力是有限的,但是机器没有,可以跨越时间和空间的,去了解孩子的不同问题,给出相应指导。
六、一切回归商业
以前,画线框图交付开发就OK;现在,线框图画什么呢,都是语音交互的连界面都没有。
以前,研发老大做产品,销售去卖,卖不好是销售的责任;现在,和客户交流的人BD、销售、市场关系逆转,研发团队反而是在跟着跑,想要突破,就需要跑在市场最前面,接触真实需求,不然会变得非常的被动。
创造力、跨领域总和思考的领导人才最稀缺。谁能对商业做深刻解读,谁能最早将产品做最好的定义,超级重要。当一个领域内,技术快速发展的时候,先吃香的,一定是谁搞出来0-1尖端技术的人。但是随着时间推移,会不断有人填进来,市场有看不见的手,没有那么高的门槛。算法工程师最稀缺是因为真的少,但实际产品很重要,甚至更重要。