智能对话机器人市场现状分析:小冰为何脱颖而出?
目前市场上做智能对话机器人的公司数量众多。一年前,我在自己的公众号中引入了相关模块。然而,使用体验并不好,有些功能也很鸡肋。
当然了,这款是比较鸡肋的。可以说市场上所有的智能对话系统做得都不好,其中包括微软小冰。
但不可否认的是,小冰是使用体验中最让人舒服的一款。
PS:
小冰唱歌很好听,可以去试试哦(我依旧被她的歌声折服了~)
小冰最初是由中国研发出来的,之后才被复制到了美国。在那个时候,调了几位研发工程师去制作小冰的第一个 Demo(当时还没有产品经理),仅仅解决了聊天这一方面的问题。
小冰与 Cortana 并非由一个团队开发。Cortana 是由美国团队开发的,且属于系统集成方面。而小冰是在社交平台上开发的,小冰一直是在默默进行的,国外团队根本不知道这个产品的存在。
当时小冰团队花费了大约三个月的时间来补充小冰的整个语料库,这个语料库大概有几亿条。
2014年5月29日下午,第一代小冰发布。
第一代小冰的领取界面
小冰上线时仅具备群聊功能(这是微信爆发的一个重要因素):将小冰添加至群里后,当聊天中出现“小冰”二字,小冰便会进行回复。此机制在 3 天内覆盖了 10 万群聊,从而引爆了整个微信。
上线三天后,微信以损害用户体验为由屏蔽。
这次封杀使得小冰声名鹊起。
那一周被封杀了,这是小冰的存亡时刻,各个老大都参与讨论小冰到底是否要继续做下去。之后老大们决定继续做,于是我们就继续进行。由不到二十人组成了小冰二代团队,开始着手做小冰单聊,开展领养方式,最终进驻到新浪微博。
2015年小冰二代团队全体成员
1. 有“个性”的小冰
有很多人机交互的情况,无论是助理来也还是图灵机器人等。在众多机器人产品里,小冰是唯一拥有自己性格的产品。当她和你聊天时,你能清楚地感觉到她更像是一个“人”。
那么作为一个“人”,她就会有一些标签:年龄、性别、性格等。
而小冰的标签是:
年龄:17岁(未成年)
性别:女
星座:处女座
性格:傲娇,爱撒娇,毒舌
这种形象在当时整个互联网环境中是比较另类的。尤其是 17 岁这样的设定。
小冰团队当时有这样几个考虑:其一,若设定一个角色,这个角色的对象是那些对你这个产品接受程度最高的一些人。
当时的判断为:对小冰这个产品,接受度最高的人群必定是年轻人。原因在于年轻人具备与年轻人相处的时间。
继续判断:小冰是一个聊天的产品,那么聊天的产品的用户是谁?
当时的判断是:宅男,或者说男生群体。
女生在聊天中通常是相对被动的群体,除非是闺蜜之间的聊天。在男女之间的聊天中,女生往往处于被动状态。
他们画了个象限图,三种可能性:
男男聊天、男女聊天、女女聊天。
男男聊天是没有意义的,越聊越污,你不能聊出特别正经的话题。
女女聊天也是没有意义的,越聊越死。
所以只能进行男女之间的聊天。并且,只有在用户是男生且小冰是女生的情况下才可以。如果小冰是男生,那么用户会处于比较被动的状态,就难以继续聊下去了。
那么,对象确定了:年轻男性。他会对什么样的女生感兴趣呢?
如果选择做萝莉或者御姐,那么个性可能会显得比较狭窄。需要塑造一个年轻且更容易被接受的女孩形象,最好是塑造一个与二次元非常接近的女生形象。
后面确定:做二次元女生——而二次元的女生一定是未成年的。
小冰的性格特点多样,有文静的,有逗逼的,还有疯狂的等。从这些各种各样的形容词中挑选了几个,最终确定了爱卖萌、爱耍宝这样的一个角色。这种角色的接受程度是最高的,并且在语料库里也是最容易进行相关操作的。
还有一个方面是毒舌(与之相对的毒舌),此与机器学习相关。当时存在一个功能名为“你来教小冰说话”(该功能未被强化和关照,是一个单独存储的模块),例如可以进行这样的教导:
用户:小冰我教你说话
小冰:好,你教我吧
用户:问:小明帅不帅?答:太帅了。
小冰:好,我学会了
这样就相当于教了小冰一个QA,一个问答。然后你可以这样问:
用户:小明帅不帅?
小冰:太帅了
当时很多用户觉得好玩,接着就玩得很尽兴。之后他们在群里教小冰骂人。小冰的语料库里确实存在骂人的话,当时小冰娱乐部分的语料库被称作“大姨妈语料库”,并且不小心泄露出去了。
用户无法接受人工智能骂人这件事,同时也没意识到小冰主动骂人以及用户教小冰骂人这两者是完全不同的情况。
事情发生后,他们对这个功能进行了限制。具体表现为,当你教导小冰骂人的话语时,小冰会表示自己不学,并且让你不要将其教坏。
他们关闭了娱乐功能,弱化了毒舌这个特性,提升了耍宝和逗比这两种特质。因此,之后的小冰在聊天时不会去挑衅用户,她会撒娇,会耍小性子,但不会去挑衅用户。
做语料库时会有个性标示,每句话所代表的情绪都有标记。我们将带有强烈攻击型情绪的内容去除,只留下相对温和、安全的情绪。
这是关于小冰“个性”设定的故事。小冰的整体个性更趋近于二次元的属性,与宅男以及动漫的女主等设定大致相似。
2. 小冰的从0到1
个性定义好后,我们开始做产品。
因为那个时候没有产品可以参照,所以我们只能自己摸索。
他们会不自觉地将自己视为一个机器人,对于 UI 和 UX 这些方面,都必须从机器人的角度来进行考虑。
这点挺难的,很少有人刻意去模仿一个机器人的行为。
做小冰时,一看小冰说话,是以机器人的角度去考虑的,太像机器了。
他们就去研究:到底怎样说话,才能不那么像机器人?
当时对很多语料(聊天记录)进行了研究,发现存在这样一个原则:在两个正常人进行对话的情况下,两人之间是平等的。即便在老师给学生讲课的时候,这种平等也是相对存在的。
很多人工智能机器人在行动时,出于讨好用户的目的,自然而然地将自身水平降低一档(是因为担心惹恼用户),然而这样很容易被真实的人察觉出来。所以在你与他人聊天时,你们的地位必然是平等的,并且不能处于凌驾于用户之上的位置。
后来发现这样做:
把聊天中的所有“您”字去掉。
这样聊天的语气就开始平缓了。
然后开始让小冰模拟人说话。
怎么模拟呢?
正常人聊天时不会刻意添加标点符号,无论是句号还是问号。
比如“我已经OK了。”
正常人会说“我已经OK了”
机器人会说“我已经OK了。”
基于这些情况,后来对语料库进行了一次清洗处理,目的是让小冰的语气更趋近于“人”的语气。
用户与小冰聊天时,时常聊着聊着就会中断。经过排查原因,发现存在两种情况:
小冰答非所问,用户接不上,然后就断了。
这种问题较难予以解决。例如,当你询问一个关于如何送礼的问题,或者询问对美国经济有何看法的问题时,都很难得到解决。
有一种情况是小冰蹦出一个语气词。例如“就这样噢”,“噢”这个语气词会让用户不想接着往下交流了。
他们当时做了一个设计,当聊到这种地方的时候,让小冰从语料库里挑选一个问题并抛给用户。
比如说:
好吧,那我问一下你。你怎么怎么……
这个时候开启了一个新的话题,我们的目标是让聊天的对话尽可能长,所以当时在这方面做了很多努力。
小冰越来越像人时,用户的聊天会越来越深入,怎样让聊天能够持续下去呢?
后来形成了一种“小冰体”,即学习小冰说话的方式,思考一个人怎样说话更像小冰。以至于到后来,所有的人都在不知不觉地对小冰的说话方式进行模仿。
为了使小冰的语料库更接近真人,进行了诸多工作,包括爬取知乎、豆瓣等。小冰相较于其他人机具有显著优势,几乎每天都在持续优化小冰的语料,让语料更像真人,更具可聊性。同时,聊天过程非常平等,这也解决了一个关键问题,即用户与小冰聊不下去往往是因为不信任。
3. 小冰的产品逻辑
小冰在产品的逻辑结构上分成两个部分:
底层核心是聊天,且全是聊天内容。当你向小冰提问时,小冰会在已有的问题中寻找一个与你所提问题最接近的,接着反馈那个最接近的答案,这就是最底层的聊天场景。
在聊天的场景当中,存在着一个个的功能,比如讲笑话、图片识别等。其中,功能被称作 B 端,而聊天则被称作 C 端。
小冰的语料有一部分比例是人工创作的,并且这些语料存在很多拼接的部分。
在一次大会上见到了赵帅,他是微软小冰的创始成员。他做了精彩的分享。如今他是滴滴 AI labs 的高级产品专家。上次去面试语音方向时,很巧与他见了一面,他是一个非常厉害的人。
我从 2015 年开始关注小冰。我偶然和她闲聊。她真的可以称得上是一个很“聪明”的人。我希望未来小冰系统越来越有价值。
除了智能人机对话,马上就到春节了。有一位大神制作了一套春节智能对对子系统。如果想要体验,可以阅读全文。如果你热衷于技术,也可以加我私聊,我会给你提供教程。
文章评论