FACE++:让机器看懂世界

2015.01.22 00:00

在清科集团主办的第十四届中国股权投资年度论坛中,由我系系友印奇、唐文斌、杨沐联合创办的旷视科技入选中国最具投资价值企业50强,并在2014年12月17日新闻联播中被专门报道。

Face++是北京旷视科技有限公司旗下的新型视觉服务平台,该平台通过提供云端API、离线SDK、以及面向用户的自主研发产品形式,将人脸识别技术广泛应用到互联网及移动应用场景中,人脸识别云计算平台市场前景广阔。这个由三个“85后”清华学子创办的公司,已经和多个互联网公司达成了相关技术合作,包括奇虎360、美图秀秀、世纪佳缘等。Face++曾获黑马大赛的总冠军、联想之星天使投资,创新工场A轮百万美元融资。

旷视科技的三位联合创始人杨沐、印奇、唐文斌(从左至右)

印奇:清华姚期智实验班本科,从本科开始在微软亚洲研究院实习与全职工作共四年时间,研发了微软当时核心的人脸识别系统,被广泛应用在X-box和Bing等微软产品中。后赴美国哥伦比亚大学攻读3D相机方向博士学位,师从Computational Camera的行业泰斗,学习两年后回国正式创业。有多项国际专利和顶级论文发表。

唐文斌:清华姚期智实验班本科,从初中开始参加信息学编程比赛,先后多次获得ACM、Code Jam等各类编程比赛冠军。曾经担任国家信息学竞赛总教练7年之久,负责从高中选拔天才儿童参加国际信息编程奥林匹克比赛(IOI)。清华研究生阶段,专注社交挖掘和图像检索,曾获ECML best student paper runner-up和Google Topcoder Target。

杨沐:清华大学姚期智实验班本科,曾获国际信息编程奥林匹克比赛(IOI)金牌。曾参与多个开源项目,是一个超强的NB架构师,在团队中指导整个大规模并行系统的搭建。

贵系“给力”,集思广益

印奇首先提到了“清华大学计算机系”这个标签给创业带来的各方面便利。他认为“清华大学计算机系”这个标签是一个基本的证明,证明你足够聪明,在技术上足够有优势。因此,在争取投资和跟人谈业务的时候,这个标签都是一个重要的加分项。

唐文斌则表示很感谢清华计算机系、导师与系友在他们创业过程中给予的许多帮助。首先他提到,清华计算机系将一群聪明的人聚集在了一起,为学生的创新创业营造了一个良好的沟通交流的环境,在系友之间创造了一个非常好的感情纽带,也很支持大家创业,在资源与人脉上提供了许多的帮助与支持。他回忆道,当时有许多师兄师弟也都在创业,在他们创业过程中,会经常交流所遇到的问题,互帮互助一起应对困难。也正是因为计算机系提供的这一良好的创新创业的平台,孕育了他们创业的萌芽,使得他们这群立志创业的人最终走到了一起,一起去做一件有意义的事情。

当然,唐文斌认为他们创业的成功是离不开导师的大力支持的。在他看来,他和唐杰老师是一种亦师亦友的关系,唐杰老师不仅在专业技术能力上给予了他帮助,更在潜移默化中积极的影响着他做人处事的风格和态度。同时,唐杰老师不断鼓励、激励他的创业之心,在精神上和时间上都给予了他很多的支持。

在离开校园正真走上创业之路之后,清华计算机系的系友在许多方面提供了他们团队帮助与支持。唐文斌提到,“例如搜狗的王小川,在创业过程中,我们向他请教过了很多问题;再比如,林凡(麦麦的创始人),创业的现状和我们差不多,我们之间也讨论了很多问题;还包括点乐的创始人李慰,我们最早的投资人就是通过他的引荐认识的,并且在创业的各个方面我们也进行了交流。”

最后,印奇表示清华计算机系培养的人才在创业过程中起到了至关重要的作用,是创业的技术骨干,是创业过程中最核心的力量。现在,计算机系中创业的人越来越多了,计算机系也很支持学生创新创业,而且系友很团结,能够互相帮助,互相扶持,这也是他们成功的重要因素。

核心技术“三步走”

印奇提出,公司想要做一个大的生态体系,而每一个生态体系都应该有一个中心思想,这样才能围绕这个点去构建生态链。对旷视科技而言,该生态体系的核心就是他们的智能技术——机器之眼。让机器更智能,使之看得见、看得懂世界,在此基础上,才能实现机器与人的交流,即真正的人工智能。

为实现这一愿景,他们团队制定了阶段性“三步走”战略:第一步是Face++,目标是识人;第二步是Image++,目标是识别万物;最后是Video++,也就是真正的机器之眼,目标是所见即所得。机器之眼其实是一个数据概念。现在常见的数据主要来自互联网,无论是交易数据,还是用户数据,都是已经存在的虚拟数据。印奇表示他们团队想做的是来自现实的视觉数据,把真实的物理场景转化为数据。

印奇表示,在他们的计划里,上述每一阶段用时均为五年。历经三年发展,目前Face++误识率已降低到万分之一以下。基于对十多亿张人脸图片的学习,这一技术已经成年,可以商用了。现在,团队在继续完善Face++的同时,已开始了Image++的研发。

印奇解释道,生态的构建将是一个自然而然的过程。机器有了眼睛,和人有了眼睛一样,看到、看懂之后的行为并不是眼睛来做的。比如,你在超市看到了一支笔,想去买或者试一试,眼睛起到的作用仅仅是输入,而输出过程需要其他肢体完成。因此它必须形成一个生态,而眼睛必将是该生态重要组成部分。由于太多场景需要眼睛的输入,这项技术应用范围非常广,所以我们不可能做所有应用场景。于Megvii(Face++所属公司)而言,最核心的工作就是把眼睛做好,拿出应用范例,而更多应用场景,可由其他企业在生态圈里自行挖掘。

FACE++的优势所在

FACE++联合创始人印奇接收央视记者采访

首先,在技术上,Face++其实仿照的是人脑神经元的工作原理,在此基础上,Face++研发团队构建了一套与后者类似的复杂算法。对Face++来说,大脑的基础构架在2012年就已完成,但这就如同小孩,小孩生出来后,虽然有着成长的可能,但如果没人教他知识或他从不学习,最终就将是个废人。人脸识别技术,在上述架构完成后,需要不停地学习,这样才能演变、进化。为此,印奇表示,公司搭建了“技术—产品—数据”这样一个生态循环链,形成了一个基于技术的生态体系。最开始,做出的大脑可能是一个婴儿的大脑,但通过对几十亿个人脸数据的学习,它现在已经是一个18岁成年人的大脑了。

印奇表示,Face++发展的第一个阶段叫云平台服务,我们推出了一个面向开发者的应用,需要借助云平台服务这一形式,把技术和品牌先传播出去。研发团队用云平台做技术服务,把这些服务提供给开发者,在这一过程中,平台上的用户把照片上传到服务器,服务器反馈他一个结果,而这个数据最后都将成为团队提升技术水平的核心原材料。

经过第一阶段数据和技术的积累,就到了第二个阶段。Face++因为技术优越,开始提供产品和服务。像美图秀秀、360、联想、阿里等众多企业,在他们开发自己的手机相册或提升拍照功能时,就会想到我们。因为在第一个阶段,通过大量数据和技术的循环互动,Face++已成为国内人脸和图像识别技术水平最高的公司。而在第二个阶段,我们成为了中国最大的人脸识别技术提供商,完成了整个技术生态循环链的打造。

关于这一循环,最典型的例子是谷歌。谷歌先有一个搜索技术,然后它把搜索技术做成了开放服务,用户使用时,对信息的点击就成了它提升搜索精确度的最重要数据。Face++也是一样的,最初,识别十个人的脸或一千个人的脸,要几个月的时间,速度很慢,但后面就越来越快了。这是一个在技术上层层递进的过程,也是我们最重要的生态链。其中产品、数据、技术并不是独立的三个点,而是一个滚雪球的关系。

听起来似乎不难,但这是一个很有壁垒的行业:首先,构建一个大脑是很复杂的,涉及方方面面,有些是学术圈通用算法,但核心是我们自己内部的算法和专利。这是一个很新的技术,能借鉴的东西不多,需要在做的过程中逐步积累和创新。其次,教机器学习时,也涉及到很多经验。比如,就先后次序来说,应该是教好一类人脸后,再教下一类。另外,人脸学习应有优先级,需从易往难教:首先学习识别年轻人的脸,因为五官分明;之后是老人;最后才是小孩。这些操作细节对最终结果的影响很大。

Face++的后期展望

唐文斌表示:“人脸识别市场到底有多大,目前尚难确定,因为我们现在做的事情,可以让不可能也变为可能。如能成功,链条上的任何一环都将是千亿级市场,而就监控而言,这将是一个万亿美元级巨大市场。所以,我和我的团队一直都没担心过市场大小的问题,也没有担心过收入的问题。虽然2014年公司收入只是百万元级,但做到千万元级其实很容易。只是我们觉得,真正的收入还没来,现在更迫切的是收集更多数据提升我们的技术。所以,在产品和服务上,我们宁愿以一个较低价格去做推广,以便能够更快地搭建起我们的生态系统。”

而印奇认为,生态有两种,一种是“食物链”型生态,生态体系中的各个企业和板块,由于存在上下游等内生业务关系,为了各个环节能更好地运转,于是形成了一个紧密的统一体。“食物链”型属于闭环型生态,生态中所有的企业,都是在一个圈子里,如阿里电商体系。另一种叫“共生生态”。和前者不同,它并非封闭的生态圈,而是开放的生态圈。这些企业都是由于共同依赖某项核心资源而形成生态体系,而随着技术的不断发展,生态体系也将随之不断拓展。企业与企业之间,不像“食物链”型生态一样属于强联合关系,而是一种企业—技术—企业的循环生态,不同的企业共同运用同一种核心技术,运用技术的地方又有着一定联系,最后共同促进技术的升级,技术升级之后又反馈给企业,并不断地拓展生态的边界。如蓝光技术标准生态。Face++想要做的是第二种生态,希望围绕图像识别和人工智能技术,在未来建立一个以核心技术为轴的“共生生态”。

印奇认为,在未来世界,有两个关键词是必须重视的,一个是“数据”一个是“智能”。这两个关键词所组成的产业圈将成为一个庞大的生态体系。而智能的基础核心又来自数据极大量的积累,是根据算法得出来的结果。

Face++建立共生生态,既是基于这个两个关键词,又是在帮助它们快速成长。Face++的图像识别技术是一步一步,让最普通的拍摄装置都可以成为强大的数据积累工具。一段商场里的人流动向、停留、购买视频等,目前我们可以记录的商业数据,和之前技术所能达到的数据积累相比,是几何倍数的增长。这些大量的数据积累就会成为智能机器做判断的基础,也可以成为“机器之脑”;而另一方面,我们也为智能的主体——机器准备了可以认知世界的双眼,图像识别技术让机器可以把只有人能看懂的图片快速解构为机器可读取应用的数据流,相当于给它们装上“机器之眼”。

所以,实现这个生态理想的方法就是,抓住未来的重要关键点,为这些能够驱动未来的关键点提供技术支持。依靠图像识别技术,帮助企业拓展、加强现有的业务,从而吸引大量的应用和企业加入这个技术生态圈。而大量的来自不同领域但又存在内在联系的数据,让技术能得到质的提升。进化后的技术,一方面能再次循环反馈给已经在生态圈的企业,一方面又能让原来不可能的事情变得可能。在此基础上,能够吸引更多企业加入进来,最终形成一个更大的生态体系。

关闭