全球AI三强:微软、苹果,和这家中国小公司
苹果、微软、华捷艾米的新一代AR芯片同步量产,席卷全业的巨变即将到来。
北京北五环,占地2.9平方公里的中关村软件园区内,分布着国内外600家高科技公司的总部和研发中心。
2017年,这片园区贡献了超过2000亿的产值,每平方公里的产值高达805亿,单位密度产出依旧居全国首位。 智慧和财富在此交汇,行色匆匆的路人,思绪里或许正激荡着改变你我生活方式的新东西。 2月,我们在这片园区拜访了华捷艾米的团队。本次到访出于一则留言——稍早前,我们的一篇文章里提到了商汤科技、旷视等专攻“计算机视觉”的企业。这两家风头正劲的企业,分别于2017年拿下了4.1亿美元和4.6亿美元的新轮融资;即便放大到整个资本市场,他们的估值体量也位列第二集团,仅次于小米、滴滴、蚂蚁金服、美团等超级独角兽。 文章发布后,有业内人士留言提醒我们:在计算机视觉、乃至AI+AR领域,真正有望于芯片做出巨大突破的国内企业,或许并不在文章的名单之中,同时还提到了默默攻关技术的华捷艾米,并“提醒”我们不要“人云亦云”。 华捷艾米是谁?它凭什么被这样认可?获知信息后,我们认真查阅已公开资讯,得到两条比较关键的产业信息:2018年6月左右,3家企业的手机芯片即将实现量产,分别是微软、苹果和华捷艾米。而在全球范围内,也仅有这3家公司具备完整的智能AR技术体系(包括人物提取、骨架识别技术和动作跟踪技术等)。
这堪称惊人的信息背后,到底隐藏着一家怎样的至今不广为人知的公司,为了揭开它神秘的面纱,我们赶往了华捷艾米的北京总部,并在那里看到了“AI的眼睛”。
对于AI(人工智能),很多人早已审美疲劳。从没有哪项技术像AI一样,还未真正面世,便挑起轩然大波。舆论每天都面临AI新闻的密集轰炸,但深刻改变生活的AI技术从未到来。 从企业到市场,AI划过了一条泾渭分明的线。 几乎所有大型的科技企业,都在为之展开“军备”竞赛:上游产业链的英伟达,由GPU芯片更迭至AI芯片后,市值在2年内翻了10倍;中游的亚马逊,几乎将“深度学习”融入了产品的每个环节,成为AI市场的最大赢家;谷歌疯狂烧钱,隔三差五便爆出革命性的AI黑科技,但始终停留在新闻阶段;国内,百度正式转型为AI公司,阿里和腾讯为之持续并购;BAT之外,一众初创公司打着AI的理念,产品没成熟,便收获了天价估值…… 这些企业努力描绘着AI震撼人心的应用场景,但民众认知中的AI却是另一幅景象:几年来,除了吊打各路英杰的“阿尔法狗”,鲜有其他具象且具影响力的AI成果出现。基于这份落差,甚至有人将人工智能称为“人工智障”:吹起来比天大,学啥啥不行。 到底什么是AI?它什么时候才能改变我们的生活?这个宏观的问题,可以做如下总结: 从发展阶段看来,AI可简单分为三类:弱AI、强AI,以及超AI。 弱人工智能是擅长某个单方面的AI,比如阿尔法狗能把柯洁打到崩溃,但你要让它识别动物,它也得崩溃。弱AI的范畴相当广,只要涉及归纳、运算,并得到自动化结果的,都属其中。比如百度依托大数据,根据你的兴趣推了条新闻,这就算弱AI;亚马逊的无人机自动识路送货,算弱AI;波士顿动力的Atlas机器人一个炫酷到爆炸的后空翻,同样只算弱AI。
目前以及未来一段时间可见的,所有关于人工智能的研发与成果,都只能算是弱AI。普通民众想象中的人工智能,包括终结者、星球大战等虚构事物,都是强AI和超AI。强AI指的是人类级别的人工智能,超AI则指在几乎所有领域都比最聪明的人类还聪明,代表AI终极形态的人工智能。 即便是弱AI领域,成果的差别也堪称巨大,个性推送和无人驾驶显然无法类比,后者涉及的计算机视觉、深度学习以及数据统筹的难度是前者的几何倍数。 一言以蔽之,部分AI已经作用于我们的生活,但是效果不明显;而那些效果明显的,比如高智能机器人、无人驾驶等,离我们还很遥远。 现在的AI大环境,更像是一个“有机分裂”的整体,不同公司、细分行业,研究的是弱AI的某个点,而这些点最终、也必然会结合成为强AI,彻底颠覆人们的生活。 引用学术界的观点就是:现在的弱人工智能就是地球早期的氨基酸,它们会在某一天突然组合进化成为生命。至于这一天是什么时候,谁也说不准。 在弱AI“进化”的过程中,有一个经典的认知误区:那些你认为很难的,对于电脑而言巨简单,而那些你认为特“弱智”的,对于电脑而言巨TM难。
比如,解一套微积分题,电脑可以秒出结果;但识别放在面前的是一棵小树还是一株大草,对于电脑而言则极端困难;架构一套金融市场的策略模型,对它来说轻而易举;而读懂幼儿的图书、真正理解各种词意——谷歌为此花了几十亿美元,还没做出来。 人类觉得特别容易的事情——视觉、动态、移动,甚至直觉,对于电脑而言难于登天。伸手拿起一件东西,是人类在经过几亿年的进化后,不需要思考便能完成的事情。我们有着全宇宙已知的最复杂的东西——人脑,各处肌肉和关节、以及视觉,在人脑的指挥下瞬间配套完成各种物理工作,这是人类的本能。 这种本能,对于电脑而言恰恰是最难的——现在的电脑连网站的验证码都看不懂,能分辨猫狗的计算机,就能称得上“超级”AI。 看懂、听懂都做不到,怎么能进化成强AI?因此,弱AI的首要难点,便是解决包括计算机视觉在内的各类“基础”问题。 AI从看、思考到做出反应,是一个非常复杂的工程。业内反复强调的“深度学习”、“增强学习”、“大数据”等,在这个工程里是相辅相成的,真正有价值的研究均离不开其支撑。而在这些之下,最最关键的则是逻辑原理和核心算法。 世界的尽头是物理,物理的尽头是数学,这句话同样适用于AI。AI的突破基于逻辑的支撑和算法的突破,在这个基础上,“喂食”数据才有意义。比如,你教会了电脑如何对比、归纳总结一万条狗的特征,它才能识别出狗;反之,它就算看了十万条狗,也是白看。 “科普”结束,主角登场。华捷艾米之所以被称为“全球三强”,根基是它在核心算法的基础上,赋予计算机以立体视觉,进而研发出了拥有全套自主知识产权的3D-AR解决方案。
简而言之,它最强的地方,是在大批独角兽公司“钻研”二维视觉的背景下,通过AI技术,给了计算机一双类似人眼的“三维眼睛”。
在华捷艾米,我们看到了这些场景: 一位测试员正对着屏幕玩各种体感游戏,从保龄球、乒乓球到跳舞机,不同于微软的Kinect之于Xbox,他是“裸身”游戏,身上没有任何体感设备。唯一的“载体”,是电视机下方一个内置了华捷艾米AR芯片的白盒子。
华捷的市场负责人介绍说:“不同于以往的体感游戏,玩家在华捷的体验中需要拿出真实的力量。比如打乒乓球,芯片能读出你的每次速度和加速度,你必须用真实的力度获得足够的势能,才能克服重力,完成击打。” 另一位测试员,则通过Pad与一个虚拟形象互动。在他的指挥下,这个“小人”灵巧地翻跃着办公室间的桌椅,遇到墙壁时还不忘绕开。 看上去都是“游戏”,但其所象征的技术以及适用的场景,却远超游戏的范畴。 华捷艾米的创始人及CEO李骊,如此简述整个游戏的过程:
在技术层面,上述场景的实现经历这样的过程:
如果你听得云里雾里,那么只需要记住最关键的一点:在全球,能实现这一系统解决方案的仅有三家企业,分别是微软、苹果,以及华捷艾米。 这一结论或许和很多行业新闻大相径庭——在AI业内,尤其是国内AI界,计算机视觉是最火的细分领域,平均每10家公司中,就有五六家有“独到”的视觉技术;而根植计算机视觉的创业型企业里,已经诞生了四五家独角兽级别的企业。 上述的每一家,都有能力做出极端精美的PPT和宏大的未来畅想,但PPT做得再漂亮,也改变不了一个基础事实:大部分业内企业,都建立在2D视觉的基础上。 不同的出发点,造就了不同层次的“眼睛”。“2D眼睛”的技术更多基于颜色,和相机、手机摄像头异曲同工,它只能捕捉二维信息,对于三维空间的判断容易产生错误,这是该技术的天然缺陷。 一个典型的例子是:作为全球首款搭载3D深度摄像头的智能手机,iPhone X可以实现“支付级别”的人脸识别、设备解锁和面部表情管理。而同一时间,大量鼓吹人脸识别的业内企业,却只能小打小闹,如果真要刷脸付款,他人用一张照片就能搞定。
不论是专攻计算机视觉的各大“独角兽”,还是机场、高铁、安防等领域广泛投入使用的人脸识别,核心都是基于2D视觉,国内目前基于立体视觉、推出广泛应用的,有且只有华捷艾米一家。 出于计算机视觉在弱AI领域的重要性,作为中国立体视觉的领航者,这家企业的每一步,都是将国内行业往更纵深的方向推进。
“三强”之中,苹果是目前全球AI结合AR产业的领先者。2017年9月,苹果推出了包括手机、平板电脑、Apple TV等在内的一系列AR产品,并且向供应商下单1.2亿套AR相关组件。 虽然鲜以AI企业自居,但苹果全面AR化的背后,包含了大量AI技术与知识产权。有统计称,为了拿下这些技术,苹果掏出了接近200亿美元的并购资金。结合AI技术,苹果在自己的强势领域找到了合适的应用场景,在“落地”上为一众企业指明了方向。 “三强”中的另一家微软,则堪称企业界AR乃至AI的鼻祖。早在1992年,比尔?盖茨就对人工智能做出规划,要“创造能看、能听并且能理解人类的计算机”。以此为指引,微软建立了人工智能研究所,招募了大批语音识别和计算机视觉的顶尖研究者,一“养”就是20多年。 很多AI实践领域,微软都是先行者。早在1998年,他们就展示过数字地图技术,远远早于谷歌;其3D体感设备Kinect,被称为革命性的交互产品……
微软之于AI,就像美国科技之于全球。他们像灯塔一样探索未知,为后来者提供可见的路径。不过,在成果转化上,微软的AI始终不尽如人意,有业内人士称:微软养了20年科学家,投入的资金早就以百亿美金计,至今没有收回成本。 在苹果、微软百亿美金级别的投资背景下,华捷艾米的成功显得不可思议:一家创业型的中国企业,如何实现了同样的技术壁垒? 有意思的是,造访华捷艾米期间,正值马斯克引爆全球。他的SpaceX成功发射了人类现役运力最强的重型火箭——重型猎鹰。舆论称赞马斯克比NASA还强,但实际上,SpaceX本身就是NASA的延伸与进化,其成功离不开美国“国家队”的技术支持。 和SpaceX类似,李骊与华捷艾米的背后,同样站着中国“国家队”。
创立华捷之前,李骊曾供职于联想和中兴,期间完成了原始积累。2010年前后,计算机视觉大热,国内几乎所有上规模的科技和互联网公司都投身其中。浪潮之下,李骊认定这个技术能“改变世界”,于是辞职创业。
不过彼时,他的出发点只是“山寨”一把微软,和“改变世界”没有任何关系。但一圈转下来后,他发现:山寨的可能性完全没有,而此前大举进军的企业们,也正成批撤退。 撤退和无法山寨基于同样的原因:基础学科和逻辑原理的难度太大。 企业经营不同于纯粹的科学研究,新的项目一般周期是2到3年,如果2年没有实质性进展,大概率会被叫停。 对于企业而言,过分执着于基础科学并非好事,财大气粗如微软、谷歌,才能承受“疯狂烧钱”没商业回报的工程;而强如亚马逊,也更多是在应用场景上变出花样。 大企业撤军,李骊和他的“山寨团队”却钻进了牛角尖。思前想后,他们琢磨出了一条明路:找专家教授,而且必须是有深厚专业背景的那种。 创业合伙人中,有一位是3D计算机视觉出身,他按照门类,总结划分了13个关键的逻辑原理,团队藉此罗列了一张专家学者的表格,拿着名单挨个敲门。 从中科院、清华,到北理工、北航,团队几乎找遍了相关领域所有权威。“那时候中科院还没门禁,我们算是钻了‘后门’。”李骊回忆说。 “求学”的过程很顺利,因为“难度很大,教授们一听都很感兴趣”,不仅全力配合,有的还专门给华捷的技术团队开课授业。 虽然团结了大批专业力量,但整体的突破依旧无比艰难。李骊从未想过,光是理顺逻辑原理,就需要数以年计的时间。整整4年时间里,他和团队四处奔波,挂靠在各类学校的下属公司里,打一枪换一个地方。 “从没想过要那么多时间,但专家们是越难越想研究,我甚至巴不得他们说做不出来,我好彻底解脱。”李骊说。
千难万阻化为一句话:坚持就是胜利。 在想尽各种办法死撑后,团队最终迎来了曙光:2014年8月,各方专家教授最终理顺了逻辑原理,同一时间,华捷艾米正式成立。 虽然只是个不名一文的初创企业,但李骊隐约感觉到,自己抓住了时代的脉搏。因为出发点就是3D计算机视觉,所以华捷艾米的起点比同行都高,干的是只有巨头才能做的事情。 回忆这段峥嵘史,李骊自认是享受了时代背景的成果,因为除了中美,换到世界上任何一个国家,怎么熬,都熬不出这家公司。华捷艾米的“背景”,根基在于中国核心技术的突飞猛进。 成立公司后,李骊在第一时间见了投资人。在清华的一家咖啡馆里,他自带可乐畅谈半天,投资人听完项目,立马拍板了天使轮投资。 天使轮时,华捷艾米的估值是1.3亿,1年后,其估值便暴涨至12亿,并被工信部列为AR和人工智能核心企业。 虽然身价暴涨,但很长时间内,华捷艾米都是一家隐于水下的公司。掌握基础原理后,他们还有大量算法、数据的问题要克服,除此之外,更关键点在于准确的定位和“变现”方向。 AI领域,企业的市场应用是出了名的“尴尬”。过去几年,大批AI公司尝试了各行各业,“小”到市场零售,“大”到航空航天,AI概念无处不在,但探索、试点期从未结束。 “雷声大、雨点小”,是造成舆论对于AI认知混乱的原因之一,而之所以难“亲民”,归根结底是相关AI的技术和服务不能满足行业的需求,客户企业付出的成本高,效果却不尽如人意。 手中的立体计算机视觉如何变现?华捷艾米做了两个定位,其一便是结合AR技术,先做强“增强现实”。
AR和VR几乎是同时期火起来的热词,但VR已经经历了“疯狂投钱、挨个倒闭”的狂潮,AR的发展却方兴未艾。 究其原因,这两者虽然听起来像,本质却截然不同。VR所谓的虚拟现实,本质是显示方式的革新,其入门难度相对较低,因此初创公司如雨后春笋。而AR则涉及与真实场景、动态物体的交互,对AI相关技术提出了很高的要求。 几年前,业内便有观念认为:在弱AI时代,AR是AI技术变现的最好方式之一,它能恰到好处地变革多个行业的用户体验,拥有非常广阔的应用场景。 比如,与电商结合后,消费者可以随意穿试鞋品乃至内衣的大小与款式,电商鞋类居高不下的退换货率将得以迅速降低; 与游戏结合,AR能创造各式各样的游戏场景与虚拟形象,让真实与虚拟无缝衔接,游戏体验数倍提升;与教育相结合,教师能创造各种适时的场景与物品,比如虚拟的器官将代替真实器官,让学生们随意剖析…… 市场负责人介绍称:诸多场景中,华捷艾米的技术已经做到了“无中生有”和“无处不在”,让使用者得以身临其境,虚拟与真实皆触手可及。
和AI一样,AR的应用同样没有主战场,完全在考验业界思想的极限。而所有的这一切,都必须建立在更精确的计算机视觉、更完善的人机交互的基础之上。
如业界所料,相较大AI时代的不可预知性,AR+AI的时代已经迅猛来袭。 2015年开始,微软发布了Hololens,谷歌投资Magic Leap,苹果收购Metaio,百度发布Baidu Eye……巨头加速的两年后,业内的第一波大地震正式到来。 今年6月,苹果和微软的新一代芯片即将实现量产。业内消息称,继发布全套AR产品后,未来,苹果所有的产品都将进入AR时代。 为了契合AR的需求,2019年,苹果将推出彻底革新的iOS系统,与此同时,微软的Windows也将基于AR进行全面变革。
全新的起点,为消费类电子行业划出了一条命运的转折口。巨变中的落后者们,不得不展开千方百计的追赶。 去年底,华捷艾米先后接待了一众国际巨头厂商,后者希望将华捷的IP纳入自己的体系。 华捷艾米的第二代小型化芯片,第一批产出已经被下游包括手机厂商在内的各类商家索取一空,有消息称,其AR芯片,在工艺、性能等方面都足以睥睨苹果的A11芯片。 对于一众厂商而言,华捷艾米的芯片就像是雪中送炭。苹果动手后,其他厂商通过自主研发迎头赶上的可能性几乎为零,即便不算技术壁垒,光是从原理研发、数据采集、人工标注,到计算机运算、IC设计、供应链整合等一套流程走下来,都至少需要3年的时间。如此时间落差,落后者早就凉透了。 这样的大背景下,深耕技术的华捷艾米被“强行”抬出了水面。2017年,他们的合作伙伴突增至数百家,行业遍及3C、电信、互联网、智能家居、安防等各主流领域。 “眼睛”是AR的基础,也是一众弱AI变现的关键,无人驾驶、适用性机器人等理念,都极端考验立体视觉。1年间的爆发,源于华捷艾米的领先技术,也与其定位息息相关。如前所述,方向上,华捷做了两个定位,其一是结合AR技术,另一便是基于先行者与领导者的优势,做一家赋能的基础企业。 李骊很清楚,虽然看似和微软、苹果同步,但当下的华捷艾米不可能和对方做同等体量的事情,他们需要的,是和更多强者联手。 他举了一个简单的例子:芯片的IC设计和投产是一件大把烧钱的事情,它包含了各种模块,光是购买USB的IP、DDR的IP等资金,都是一笔巨大的投入。华捷艾米的最佳应用场景,是将完全自主的IP和ISK写入手机等主芯片,以最小的功耗,实现最佳的效果。 立足赋能的定位,华捷艾米的芯片技术得以流向多个领域,比如液晶电视中的面板,智能机器人,以及手机芯片。 经过9年漫长的独立研发后,他们将立体视觉、手势体感、人物抠像、AR技术等完美融合,缔造了当下几乎“无所不能”的芯片。其技术能与各行各业紧密结合,让各大企业加快进入AI时代,并且迅速走上“立体”的正途。
不过,饱受追捧的态势下,李骊也动起了“小心思”:华捷艾米脱胎于“国家队”,这轮变局里,他也更希望和民族产业挂钩,互利互裨。在他看来,AR浪潮是一批中国企业重新定位、弯道超车的好机会,比如展讯等芯片公司,有能力大大缩小与高通的差距,成为中高端手机芯片市场的奇兵。
对于AR市场,业内有着趋于一致的预估:到2020年,全球AR市场规模将达1200亿美元,硬件是主要的盈利方式。 而对AI产业,因为划分标准、前景预估的差异,各家给出的数据大相径庭:艾瑞咨询估计,2020年,全球AI产业规模约为180亿美元;但普华永道认为,到2030年,AI将给全球经济带来15.7万亿美元(约100万亿人民币)的增长,仅中国经济的总量增值就将突破7.1万亿美元(约47万亿人民币)。 无论是眼下的AR还是未来的AI,全球行业里只有两个大玩家:中国和美国。在这个被资本裹挟的领域里,中美对于AI的投资理念存在明显差别:美国资本更看重技术上的突破创新,中国资本则更关心应用场景和商业回报。这样的对比下,华捷艾米这类公司的出现,显得异常振奋人心。 李骊对华捷艾米抱有十足的信心,按照他的规划,未来凡是需要用到计算机视觉的领域,都可以是华捷艾米的应用范畴——这个领域,几乎包揽了AI应用的大半壁江山。而他和团队要做的,就是让这双眼睛更精准、让它背后的大脑更快。 人类的科技进步正以持续加速伴随着爆炸式突破的方式迅猛向前。过去100年,人类的科技成果超越此前千万年的总和,有学者预测:21世纪的100年,人类的科技成果将是20世纪的1000倍。
在这个急速巨变的时代里,一个新技术,很有可能从根本上改变人类的生活方式,而一家小公司,也完全有机会在短时间内成长为巨头企业。 身处其中,即便只是一个见证者,也着实刺激。
文章来源:点击这里 该文章在 2018/4/10 15:50:46 编辑过 |
关键字查询
相关文章
正在查询... |