商汤IPO指日可待,分析能力是AI的关键

作者: 财经新闻  发布:2019-06-21

中新网11月21日电 日前,商汤科技联合创始人、副总裁杨帆应邀出席了由财视传媒与未来图灵联合主办的“2018未来发布峰会”并发表演讲。

采访 & 撰稿 | Natalie

AI前线出品| ID:ai-front

杨帆表示,信息产业所有环节中最核心的就是“分析”,只有完成闭环,所有信息技术才能最终给用户带来更大的价值。人工智能可以通过海量数据不断实现自我进化、自我成长,而这个过程中人工干预很少,这就是人工智能巨大的潜在价值。商汤希望能联合整个行业,让视觉分析以及基于此产生的应用,真正以开放平台的形式去改变所有线下产业和行业,构建整个城市的感知的视觉网络,能够为城市发展提供更好的保障和决策服务。

AI 前线导语:“在这篇文章整理完发布的前一天,很多人的朋友圈都被《商汤科技计划IPO并将在美设立研发中心》的消息刷屏了。AI前线向商汤科技官方求证关于IPO的时间问题,得到的答复是“公司有未来上市计划,但是并无具体时间表。”同为以计算机视觉起家的创业公司,商汤和旷视一直在不断刷新AI公司的融资记录,如今商汤似乎在C轮和IPO上又先走了一步。很多人对于商汤的印象更多是横扫CVPR和ICCV的数十篇学术论文,以及拥有120位博士带来的技术底气(实际上最新数字已经上升到了140位),但副总裁杨帆却告诉我们:“只有技术壁垒,长期来看还是在给他人做嫁衣。”

以下为杨帆演讲实录:

人脸识别技术,曾经是反乌托邦的科幻小说中出现的想法,现在可能正在成为中国日常生活的一个特色。

很荣幸今天有机会参加“2018未来发布峰会”,跟大家聊一聊商汤,以及我们看到的未来,我们认为应该前进的方向。回顾整个人类的工业革命发展史,大约每过50年就有一个重大的,被称之为突破性的技术革命,带动人类生产力的提高,进而带来整个生产关系的改变、人类生活关系的改变,以及种种改变,对我们产生巨大的影响。

奥门永利总站网址 ,广东深圳已经有了人脸识别抓拍行人闯红灯的示范路口,如果你闯红灯的时候被摄像头拍了下来,下次你再试图闯红灯时,你的脸就会出现在街道旁边的显示屏上,显示屏上还会出现一行字:“人脸识别智能抓拍行人闯红灯”。

根据普华永道去年做的调研预测显示,2030年人工智能将促使全球总值增长14%,给全球经济带来的贡献将达到15.7万亿美元,这等于2017年中国和印度的GDP总和。它表明了我们从经济方面应该如何看待人工智能带来的价值。

人脸识别技术已经成为监视领域最有力的新工具之一,地铁站、机场、海关都在使用这项技术。刷脸取款、刷脸支付、刷脸登机等新应用更是层出不穷,刷手机的时代仿佛也才到来没多久,刷脸时代已经来势汹汹。

我们看整个信息产业或者计算机科学,我20年前上学的时候,计算机教材上对计算机科学科学有一个非常简单的定义:计算机是一门对于信息的采集、传输、存储、分析、计算和反馈的科学。我当时把这句话记下来,但是如今回过头发现,过去30年、50年整个信息产业所有的技术进步,带动的所有行业发展,都离不开这其中任何一个环节。

今年 9 月下旬,一段被称为“中国天网”监控视频的视频片段在新浪微博和朋友圈里疯传,视频展示了我国最新实时行人检测识别系统,该系统可以实时监测区分出机动车、非机动车和行人,并能准确识别出机动车和非机动车的种类,以及行人的年龄、性别、穿着。而这个系统的背后,其实是商汤科技的 Sense Video 技术。

采集很简单,我们讲IoT、智能设备,各种各样的智能手表和眼镜,它给我们带来的价值是什么?我们可以用越来越低的成本和简单的方式快速获取各种各样的信息。传输,大家知道的电信运营商,它在全世界都是非常重要的力量。存储、分析、计算,你得到了处理结果之后,怎么把处理价值反馈?我们可以等同一个更加通俗的词,就是应用,所以这五个构成信息产业,以及其渗透进的所有行业的环节。这五个环节中最核心、最有价值的就是分析能力。随着行业发展,你会发现信息的变化越来越大,其实整个信息产业的发展你可以理解为一个螺旋式上升过程,过去30年所有的都在这个螺旋上升的过程中。

奥门永利总站网址 1

这两年视频直播很火,各种各样的短视频应用。因为这两年,视频信息采集的成本下降到了可以接受的阶段;对于视频这样的数据形态的传输成本,随着4G的商用到达可以被所有人负担的状态;整个存储设备的成本下降,云计算中心的应用,导致今天可以对海量数据进行存储和二次分发,它们最终促成了视频应用这样一个生态。

主打人脸识别技术的商汤科技成立于 2014 年 10 月,其核心创始人汤晓鸥,同时也是香港中文大学教授,领导着计算机视觉实验室,这一特殊的跨界身份似乎也预示了为何商汤科技未来能够横跨学术和商业两界并取得亮眼成绩。商汤科技目前拥有 140 位博士,2016 年 ImageNet 大规模视觉识别挑战赛中,商汤科技联合香港中文大学一举揽下三项冠军;近日,商汤科技与香港中大

商汤做什么?为什么过去几年间AI的发展这么快?因为AI掌握了最核心的力量,就是对于未来应用空间最大的载体形态,最关键的分析能力。如果我们专注到视频这个场景里,可以看到每个环节的情况。视频采集有海康、大华等厂商,采集环节对今天非常重要的厂商提供了支撑。传输行业是运营商,是华为这样优秀的巨无霸级别的企业。存储包括今天的云平台,大数据的底层设施IaaS,他们具备核心大规模的海量数据或者海量信息的存储建设能力。分析的厂商则包括今天大的行业巨头、新型AI公司,大家都试图建设以分析为核心的基础能力。

  • 商汤科技联合实验室,继以 23 篇论文横扫 CVPR 后,又以 20 篇论文力压群雄称霸 ICCV,在全球顶级视觉学术会议上刮起了一阵中国旋风。而在业界落地方面,商汤科技的产品遍布金融、安防、互联网娱乐、AR、智能手机等多个行业场景,与华为、Qualcomm、中国移动、小米等众多公司都达成了合作。2017 年 7 月,商汤科技获得 4.1 亿美元 B 轮融资,成为史上人工智能最高单笔投资,直到 11 月 2 日旷视科技获得 4.6 亿美元 C 轮融资再度刷新这项纪录。

最后,你要回到一个闭环,因为最终你要给用户带来更大的价值,在你所处的行业,给用户带来服务化的能力。在我看来互联网是整个信息产业的前置的分支,这个基础上是刚才讲的信息产业化的环节,更多在个人消费侧的快速渗透和落地。未来所有产业和行业都将逐步升级,走向是完整的产业信息化。

人脸识别大行其道,不免让人对这项技术及其背后的公司产生了许多好奇。人脸识别技术到底有何门道?它经历了怎样的技术演进历程?各家公司宣传的识别正确率百分之 99 点几后面的小数点真的有区别吗?人脸识别技术在商汤是如何落地的?它带来的安全性问题如何应对?带着这些问题,InfoQ 记者来到了商汤科技(下文统称商汤)在深圳的办公室,对商汤科技联合创始人、副总裁杨帆进行了专访。

AI能够改变一切,AI对于海量数据具备这样的分析能力,这样的能力最终激发蓬勃、广大的用户生态来完成产业的信息化。

商汤到底是一家什么样的公司?

视频是人类能够接触的所有信息形态中,信息含量最丰富,有效信息占比最低的核心的信息形态,我们今天已经具备了采集、传输、存储的能力。商汤基于这样一个理念和对于未来的判断,在未来智慧城市的梳理中,我们觉得能够做的四件事情是,感知、认知、应用、衍进。我们对于海量数据进行大规模分析,所有的分析能力如果不能转换为对于最终用户真正有价值的应用,它一文不值。对于持续的技术创新型企业而言,真正的价值是人工智能所具备真正的核心能力所在。它是什么?是今天智能化的系统,它在客户那里伴随数据的增加,能够自我进化和自我成长。这个过程中人工干预很少甚至没有,当数据量增大的时候,这是人工智能带给我们的巨大的潜在价值。

提到商汤,大部分人第一反应就是人脸识别,但人脸识别并不足以定义商汤。

就在前不久,科技部把智能视觉国家新一代人工智能开放创新平台授予商汤科技,这既是信任,同时也是责任。商汤需要联合整个行业,让视觉分析以及基于此产生的应用,真正以开放平台的形式去改变所有线下产业和行业。我们希望在未来能够通过这样的视频采集、传输、存储,特别是分析、应用能力,构建整个城市的感知的视觉网络,能够为城市发展提供更好的保障和更好的决策服务。

在杨帆看来,商汤是一个坚持人工智能原创技术的平台服务提供商,它利用原创的 AI 技术给不同的行业提供平台化服务、赋能各个行业,让 AI 技术真正地去改变每个行业。“当然目前来说,我们的工作主要集中在人工智能的计算机视觉,也就是图像和视频分析的这个领域。毫无疑问,人脸作为一种非常特殊且具有极高价值的影象标识,会是整个图像视频分析领域中占比重非常大的一部分。但同时商汤还经常给不同行业提供其他解决方案,涵盖范围会远远超过人脸识别。”

计算机视觉技术的发展和突破

深度学习使 CV 真正从学术界走向工业应用

杨帆在计算机视觉技术领域沉浸多年,在微软任职期间,他主要从事计算机视觉、计算机图形学等领域的新技术孵化工作,包括人脸识别、图像物体识别、人像三维重建等;目前商汤的核心技术也是以人脸识别、智能监控、图像识别等为主。作为主导技术落地的负责人,杨帆笑称自己是给公司的研究员们打下手的,但回忆起计算机视觉技术的发展历程,他表示还是有很大的感触。

上世纪 90 年代末期,有一波所谓的人工智能,或至少是人脸识别的热潮。当时在实验室环境下,人脸识别已经能够达到一个相当不错的结果,但离实际应用还是有比较大的差距。从 2004 年杨帆进入微软实习开始,到 2010、2011 年这段时间内,计算机视觉领域的技术进步一直在持续,但主要还是积累期,整个行业的技术进步相对比较缓慢,基本没有太多新的应用和机会。到了 2011-2012 年,随着硬件设备计算能力的进步,以及各大公司开始具备收集海量数据的能力,深度学习变得越来越实用,给行业带来了巨大的改变,从那之后计算机视觉技术就进入了一个特别高速的快车道。计算机视觉技术从学术界蔓延到了工业界,在各行各业都有了越来越多广泛的应用,这是外因。

从内因角度来讲,这一轮以深度学习为核心的视觉技术,对数据的依赖更强了,核心技术研发能力提高了,而且最终得到的成果普适性也变好了。杨帆回忆道,“我以前在微软做过一些人脸识别的工作,在深度学习出现之前,你做一个算法能够把肤色的问题解决得很好,但它可能对光线的问题就很难适应。假如你想要一个对光线适应很好的算法,它可能对肤色问题又解决不好,它的技术突破是单点性的突破。”

而今天,伴随着海量数据的应用,很多识别技术会变成一种相对通用的方法论,可以以更低的成本、更短的时间,快速迁移到不同的领域上,这其中的价值非常巨大。随着人工智能技术的发展,虽然它难度依然很高,但是它的不可知性和风险已经大大降低,在这种情况下,就会有越来越多的企业愿意投入力量到这些技术的研发中,从而带来更大的价值。

以前只有世界顶尖级别的公司才会成立研究院,去做核心技术研究,比如贝尔实验室、微软等。但是今天你会发现完全不一样,我相信未来整个技术在不同行业的落地,对于整个业界生态会有比较大的改变。

基础研究和应用科研,二者不可偏废

业界曾出现一种批评的声音,称现在很多公司和开发者其实对于深度学习的运作原理并不清楚,只知道应用,却不知其所以然。对此,杨帆也有自己的看法。

杨帆表示,学术界有两套观念,一套观念说知其然不知其所以然是离经叛道、是不对的。对于这个观念,杨帆表示认可,其实现在已经有很多团队,包括商汤也投入力量在进行更加前沿、更加基础性的科研,“这样的基础科研能够指导我们将来在正确的方向上走得更远。”但杨帆认为,基础研究与应用科研,二者不可偏废,完整的科学体系和持续的方向性指引非常重要,但是实证科学也非常重要,企业最终还是要以技术落地的结果说话。

脱离场景谈识别正确率毫无意义

近几年,很多公司在人脸识别技术上投入了大量的研发并取得了亮眼的成绩,其中识别率一直是各家宣传的重点,今年我们能在各类报道中频繁看到各种 99%、99.4%、99.8%,如何理解这些识别率中小数点后面数字的差距?

技术指标是没法一概而论的,任何一个技术指标背后都隐藏了一大堆的假设条件。

杨帆列举了几个例子,比如在金融场景做 1:1 的人脸识别,用于互联网金融的注册,这与在家用相册中做人脸识别,也就是把照片集中同一个人的照片找出来,以及在安防场景中,根据模糊的照片在一个海量的逃犯库中找到特定的人,这些场景都是人脸识别,准确率可能都差不多 99%、或者 99% 点几。虽然企业这么宣称,但实际背后蕴含的差异是非常大的,它会有非常多影响因素,所以准确率跟行业背景以及前置假设会是一个强相关的关系。而不同的场景下取得的识别准确率很难做类比。

相比不知前提的识别正确率,更为重要的是,在不同的场景下,企业是不是能够使用原创技术真正地取得突破。在互联网相册的应用场景下,商汤可以说是全世界第一个让计算机的人脸识别超越了人类,而后续很多智能相册的业务和服务都脱胎于这项突破。在杨帆看来,当公司面临一个新的行业场景,和过去的场景不一样且遇到新的挑战的时候,是不是能够率先去形成量变的突破,这才是最重要的。当技术沉淀、数据积累和对业务场景的理解,三者融合在一起的时候,才能帮助公司完成一个真正有价值的、有意义的技术突破。

当识别率达到 99% 以后,人脸识别技术面临的难点主要在于,如何在不同行业场景中深化这项技术。虽然看上去 99% 的识别率已经很高了,但不同行业场景对于识别率的要求不同,99% 可能只是该技术得以使用的入门条件,比如银行身份认证服务,如今商汤人脸识别的误识别率已经可以做到 10 的负 7 次方,相当于 7 位银行密码,但在这个场景下也才刚刚得以使用;而安防场景下,照片模糊、有遮挡、角度不佳都给人脸识别带来了更现实的挑战。

奥门永利总站网址 2

“看似同质化很强、很简单的人脸识别,细分的技术场景其实非常复杂,所以脱离场景去谈技术是没有太大意义的,今天能看得到的,包括以安防、手机这样的一些重点行业为代表,对于真正的人脸识别技术的全面深化存在着非常多的挑战,值得我们去攻克。”

图像和视频分析比你想像的更复杂

图像和视频分析其实是一个从功能或者从能力角度来看都比较复杂的技术体系,当我们将一项技术落地或深化的时候,它可能需要几个团队合作完成。

商汤在计算机视觉技术领域的探索工作大致可以分为图像增强、物体检测和分类、算法模型、训练引擎等几个方面。

图像智能化增强是图像和视频分析的第一步,虽然今天照片和视频的采集设备已经非常好了,但图像和视频的采集还是经常面临困难,比如用红外摄像头以及结构光摄像头,拿到的深度图信息里面的噪音非常大,或者用安防设备拍摄高速运动的物体时会因为运动而导致模糊,因此分析前需要现对这些图像和视频进行智能化的增强和恢复,又叫做 Low Level Vision,这在商汤是一项独立的的工作,目的在于提升采集到的图像和视频的质量。

而图像和视频的识别及分析又可以细分成多个部分,包括物体检测,知道一个东西在哪里;物体的关键点定位,知道物体的关键轮廓和形状;物体的分类,就是对于找到的物体,能够知道它是什么东西;整个区域的分割,对整个物体的边缘或轮廓有非常清晰的描述。实际上,整个识别体系可能需要分成若干个不同的子领域,在真正的行业应用中,它往往是一些子领域叠加组合的应用

商汤有专门的团队进行基础研究,比如如何将算法小型化,使之能够在资源受限的移动终端上运行;如何优化算法使之运行得更快;AI 核心的训练引擎或操作系统的持续升级和演进;弱监督或无监督学习的研究,包括增强学习、迁移学习等前沿技术。

杨帆强调,从计算引擎到数据流程架构,更重要的意义其实不在于数据量,而在于让算法形成一个稳定的闭环。

计算机视觉技术如何落地实际产品

计算机视觉技术在商汤的落地场景

商汤一直非常关注计算机视觉技术的落地,杨帆在早前的一些分享和演讲中也多次提及技术进步需要与产业需求相结合。据杨帆介绍,计算机视觉技术在商汤的产品和业务中主要包含以下应用场景:

1、安防

过去对安防的理解主要是公安,其实真正意义上的安防还包括交通、线下的商业场景、小区、学校等,可以涵盖的场景非常大。

2、智能终端

本文由奥门永利官网误乐域发布于财经新闻,转载请注明出处:商汤IPO指日可待,分析能力是AI的关键

关键词: