田丰:新一代AR+AI基础设施将是元宇宙的基础

2021-09-14 14:09:23
网易科技报道
文章摘要: 当网络带宽特别低的时候,我们记得2016年用VR做全景直播的时候惨不忍睹,卡顿非常严重。那现在其实大家再去用VR、AR做一些直播,或者做一些全景沟通的时候是非常容易的。

由网易科技频道、网易游戏频道主办的“元宇宙·互联网终极形态的机会与挑战”沙龙今天线上线下同期举行。

作为下一个科技时代的主要发展方向,商汤智能产业研究院院长田丰提出,将AI与AR相结合,AR引擎与新一代AI超算中心,将共同构成元宇宙基础设施。

田丰表示希望能够通过AI+AR去打通元宇宙和现实世界的次元壁,将世界通过次元化展现,以现实世界的科技发展为基础,让人与空间突破现实世界的限制,打造一种更高层次的交互形式。

同时田丰认为支持元宇宙发展的,是其背后的“摩尔定律”,元宇宙作为科技发展的更高的表现形式,其所包含的科技与智能,能够更方便的服务于社会的发展。

田丰提到,“元宇宙是人所处的赛博社会,它一样是有伦理倾向的。所以那么我们在元宇宙里面也需要去向善,去做更多的善事,而且要互相尊重,我们用这句话也希望我们尊重很多现代社会中非常辛苦的劳动者,在元宇宙里面也是可以共同富裕的。”

以下为商汤智能产业研究院院长田丰演讲内容:

各位线上和现场的各位朋友们,其实我跟各位是一样的,首先我是一个科技的重度电子产品的消费者和粉丝,而且也是HTC第一代的种子用户,这个VR眼镜的,同时也是PS5等等很多娱乐平台的会员。

那么其实我想说,各位已经或多或少接触到很多之前类似于元宇宙碎片型的产品,那么对于我们来说,什么是元宇宙在国内经常会说全真互联网,那么今天大家其实看到了,《黑客帝国4》的预告片,包括《盗梦空间》等等。

在这个之后,其实我们也会去看,元宇宙刚开始的时候大家经常会去区分他和现实世界之间的边界,就像互联网刚出现时一样,大家会说有网瘾,那现在全球50亿人都是网民,那是不是都是有网瘾,其实没有关系,十年以后出生的人就是元宇宙的原生住民这样的一代,那么他们是不会区分我今天用元宇宙多长时间,在现实时间有多长时间,其实没有关系的。

那对于我们来说如何去打穿元宇宙和现实世界的次元壁,这个很重要,这个在赵国栋老师的《元宇宙》这本书里管它叫虫洞,那我们今天其实就在探讨说我用一个什么样的技术,可以会打通元宇宙,那么商汤,包括我们研发同学就正在成为元宇宙这样的一个破壁人。

这个我们希望是能够通过AR来去打通,其实我们也知道在全球各位会去线下体验很多沉浸式体验馆,不管是最新开业的北京的环球影城,还是之前各种各样的展等等很多IP浓缩在一起这种AR技术,投影技术这种光学来去渲染出沉浸式的体验。

那么这种其实会带来很多线上IP走入线下,B站的虚拟偶像其实也都进入粉丝见面会、广告等等线下的一些活动。

那么其实对于商汤来说,我们也联手了三体的版权方,正在打造三体沉浸方面的体验,这个我们正在努力工作的过程中,希望在不久的将来能和各位有一个更好体验方面的沟通和见面。那么第三点其实我们知道元宇宙的破壁通过AR技术加上AI的技术可以去做。为什么说除了AR还有AI?就是把二次元的内容带入到我们现实世界之中,而且它有一个物理定位,那为什么叫AI技术,大家可能最近看过这个《失控玩家》,它里面的NPC,如果让你觉得他是一个真人或者有情感,甚至教导你去分辨善恶时,那他其实背后是一个AI,这些背后其实就是AI+AR,帮我们去成为把万物做一个次元化。

我们认为元宇宙有三个方面,第一个是人物的次元化,比如说我们人和人之间,人和机器之间这样的一些比较好的一些社交的模型,好的NPC是可以让你觉得对方是有感情的,或者是说跟你有个性化的沟通和互动。

那么形象呢,为什么我们说数字人和虚拟人,大家想想,数字人实际上纯AI这样的角色,这是一个NPC的角色。那么虚拟人实际上是你自己在虚拟世界中的化身,那这两点是不一样的,一个背后有真人一个背后没有真人。

从空间的角度来讲,我们想一想,上一代的2016年,我写过一本书叫《互联网3·0》,我们预测说VR会有一个小爆发,那为什么VR当时那个爆发进入后面的一个低谷期,然后再进入新的一个上升周期?

其实当时,我们可以看到当时的建模成本非常高,可以看看比如《双子杀手》或者其他的一个好莱坞大片里面,要花很多钱做工业级影视的数字人的制作,大家根本就没有办法去承受这样的一个建模的成本,对于每一个企业、每一个商家、每一个个人。

但是现在大家做看,去年韩国非常火的ZEPETO等等,背后实际上是一些二次元的Avatar的形象。你可以快速地去做建模,当然商汤也有类似的技术,把你变成一个虚拟的仿真人,或者是一个虚拟的二次元的形象,比较像环境一样,环境也需要建模。

比如我们现在在的这个演播厅,能不能快速地用一个全景相机把它去做一个点云,然后再转化成一些渲染的虚拟的演播厅,其实也OK的,这个成本已经进入到一个产业级的应用了。

第三点就是交互,其实我们都知道为什么元宇宙都起源于视觉,因为视觉的传输量是非常大的,按照热媒体的麦克卢汉的这个理论来去说,热媒体其实更多地让你有一种感官的冲击。所以除了视觉还会有听觉,现在听觉很多公司都开始股价在上涨,还会有后面的触觉,这个我们可以真正地Touch虚拟的一些物体,包括虚拟的宠物等等。后面会不会有嗅觉的数字化和味觉的数字化,其实这些技术都在研发过程中,人类是永远不会放弃去打造一个新的元宇宙。而且每个人都希望成为一个创世主,每个人都希望创造一个小星球,就像《头号玩家》里面一样。从这些角度上来去看,环境方面有大量的现实场景,不管是教学场景、生产场景都可以做数字化和次元化。

我们用一张图来看,元宇宙为什么在这个点出现了?其实在之前我们可以有很贵的一些游戏引擎去做各种各样的众多的渲染,但是只是有少数专家编程才能实现。后来到了现在这个阶段,低代码的UGC,就像乐高一样,可以去拼装出一个小型的游戏空间或者是数字空间。再到未来,会不会说人工智能会产生相应的内容,就是用AI去创造元宇宙各种各样的场景,我相信最后它的生产成本就非常低了。

相反的一条曲线就在于你创造的这些内容它的量是一个指数级的爆发的,从一个早期的游戏,我们可以把它理解成碎片元宇宙,到了现在这个阶段我们可以理解成是平行的元宇宙,有很多厂家,每个厂家在做自己的元宇宙。再到后面,会不会有一种融合元宇宙?这个融合不只是虚拟世界元宇宙的融合,而是元宇宙和我们现实世界中无处不在的融合。每个人戴上AR眼镜以后,就像《失控玩家》里面一样,我们可以看到各种各样现实世界中有锚点的一些主题。比如说我们今天可以做一些教师节的主题等等,其实这都是有很多的机会在里边。

同时,元宇宙这个市场也会从一个利基市场进入一个大众市场,对于商汤来说,其实我们AR技术开发了很多年了,开发了SenseME、SenseMARS等面向智慧生活的平台,赋能了超过4.5亿部手机,200多款手机应用程序,还有大量的智慧屏、AR、VR的设备,还有无人机等等这些装备。这背后有大量的人工智能的模型。比如在AR这个领域超过3500多个人工智能的模型在支撑我们各种各样的建模、展现和交互等等。

元宇宙的背后是什么呢?我们可以想一想,元宇宙的背后其实有一个摩尔定律。简单讲从互联网创造的一切到现在的元宇宙,到未来新一代的脑机接口等等,其实背后都是摩尔定律。摩尔定律先去改变的是计算的性能,把计算逐渐提升到特别快。计算的提升带来了网络带宽高速的发展,网络设备其实背后也是芯片嘛,所以也符合摩尔定律。

当网络带宽特别低的时候,我们记得2016年用VR做全景直播的时候惨不忍睹,卡顿非常严重。那现在其实大家再去用VR、AR做一些直播,或者做一些全景沟通的时候是非常容易的。

再往上是什么?就是人机的交互界面在变化。网络带宽越大,你的交互方式就不一样了。原来我们可能只能是拍照片,一开始只有文字,后来照片的互联网,后来出现了短视频的互联网,现在出现了一个全景的互联网。后面会不会在视频上面再叠加更多全景的音频,全景的各种各样其他的数据的捕捉和数字化?

那么它背后是什么?摩尔定律。摩尔定律其实带来的是计算快速的增长,对于我们来说,商汤是做元宇宙的基础设施服务,下层我们打造的是AI的超算中心,我们叫AI的大装置,可以处理大量模型方面的计算。

所以从这个角度来看,我们可以看到既然说到算力,后面就有模型。这个模型其实在最近我们经常会去探讨一个大模型的趋势,就是在人工智能快速发展的这几年,每3.4个月,这个模型的算力会增长1倍。所以最近几年,从2012年到现在,大模型的算力已经增长了30万倍,所以我们管这方面的现象叫算力饥饿。

那元宇宙其实也是算力,因为它有不断地大模型,它要不断地消耗算力,它也是对算力非常饥饿的一种状态。对于我们来说,有大量的训练的场景,可以更好地去演进,可以把这个虚拟世界或者是虚拟叠加到现实世界做的更逼真,所以这就是一个飞轮的效应。

从技术上来看,其实我们是分三类:

第一类,进行环境3D建模、感知事件。我们刚才说过环境的3D建模以前都是影视业的工业级的,那现在我们可不可以用手持设备,全景的相机来去做建模是没有问题的。现在已经走入到很多博物馆,比如说可以合作一些AR方面好玩的小的场景去做交互。

其实在我们上海的总部新洲大厦上有很多AR方面的场景来去支撑,比如说我建模之后,我们这边有一些视频可以看一下,这个就是基于无人机去对场景进行建模。如果你建模的是游乐场,它就是一个虚拟的游乐场,上面可以做各种各样AR的互动和IP的植入。

第二类,如果我们用是高精度的地图,是右边的这个建模,这些建模之后上面都会有各种各样的渲染,可以实现一个更好的你的产品、你的公司虚拟形象的代入。

在感知智能这个层面除了可以建模环境,还可以建模商品。以前的商品我们都知道电商时代是基于短视频和图片的,那能不能把商品做成一个次元化?左边这个是我们这一周刚和故宫发布的故宫2022年的日历,利用商汤SenseMARS,我们可以把云纹飞虎用一个AR的形象展示出来,通过手机或者是AR眼镜来交互,包括孔雀绿的伽蓝的幼猫。当然还有其他建模,比如说我们把中国的文物做一个二次元、三次元的建模,并且可以把这个虚拟文物放到你的案头,可以去把玩,这是商品方面一些AR的建模,当然也可以交互。

第三类,我们除了可以给人做建模之外,还可以让数字人具有一定的智能和交互性。比如说我们这样的一个展馆的数字人讲解员是可以跟你做交互的,你说我对这个文物有什么问题,它可以给你做讲解。当然,这样的数字人也用于像银行等这样的服务领域,服务领域本身是一种决策智能,甚至于用于汽车车载屏的车机上。大家可以看到这就是一个一人高的全息屏,你往前走这个全息屏就往前走,数字人不断给你做讲解。

还有一种是虚拟人,刚才我们说的虚拟的化身。你背后实际上是一个人去跳舞、直播或者去做一些互动的游戏,实际上它反映出来的是一个Avatar的形象,在这个次元空间里面去跟你的朋友做社交或者各种各样的交互。其实我们可以看到Facebook最新的元宇宙里面,其实它会识别你的微表情,会识别你目光的方向,甚至声音也是有一个仿真,这样可以有一个眼神的交流,所以这些其实都是数字化的人带来的一些机会。

当然,还有很多元宇宙的场景,比如说我们给西湖做的这样的一个场景,还有就是电商,电商大家知道很多女生会涂指甲油,在线上可以让指甲油的颜色可以无缝去贴合你手部的动作,贴合在指甲上,展示颜色效果。

那眼镜、鞋其实都可以做相应的应用,那么直播领域里面我们说4.5亿部手机上面,大量的贴纸特效其实都是商汤的算法在背后。

这个就是西湖的场景,我们可以把西湖古代的传说,历史上的这种场景用AR的方式带到你的身边,这样会有更好的导览。

当然还有很多现实中感觉自己的身材需要变化,颜值想要有变化,其实都可以算法帮你去做到,在直播的过程中后面有强大的算力在发挥作用,帮你去改变体态或者增加更多的特效。

所以大家可能每一天手机中的日常生活,都跟商汤的算法分不开的,这是鞋,我们可以在线上用一个手机来去拍自己的脚,然后不同款式的鞋的样式可以贴合上去,可以看自己自身的这些衣服的搭配等等。

当然我们还去做了一些户外旅游有关的产品,比如说自动驾驶的小巴上面放一个智慧屏,那这个智慧屏是可以帮我们去讲解我们沿途的风光和一些知识。

比如这是我们上海的临港地区这样的一个试点,路过一个芯片的工厂,我们可以用AR的方式来给大家去讲,国产芯片现在我们进展到第几代了,有什么样的一些技术,然后路过比如说一些其它工厂也会有相应的应用。或者是直接连线无人机,通过无人机的视角来去看上海港口方面的情况。

这个是我们在上海的超算中心,当时演示时还没有建成,但我可以用AR的效果,把它全部的变成一个已经正式运营的数字沙盘。

所以未来我们相信其实是没有次元壁的,也是一定是元宇宙会到我们身边的,这个就是小巴里面的场景,最后呢其实我想说一句我们还是致敬一下《雪崩》元宇宙的这本书,里面有一句话,叫‘快递员属于精英阶层…’,后面我就不念了,

所以元宇宙一样是人所处的社会,它一样是有伦理问题。所以那么我们在元宇宙里面也需要去向善,去做更多的善事,而且要互相尊重,我们用这句话也希望我们尊重很多现代社会中非常辛苦的劳动者,在元宇宙里面也是可以共同富裕的。

信息化软件服务网 - 助力数字中国建设 | 责编:夏丽
文明上网,理性发言!请遵守新闻评论服务协议
评论