注意,虚拟数字人已经开始“入侵”我们的生活了!massimo dutti

不知道你有没有发现,我们的生活中出现了不少虚拟数字人的身影。9月22日,小红书推出了“潮流数字时代”计划,推广一批虚拟数字人作为博主发布笔记;B站专门为虚拟主播开设了分区;湖南卫视的小漾将作为首个虚拟主持人出现在电视屏幕上,这些信息都透露着虚拟数字人市场正在升温。

▲虚拟数字人CELIX走秀现场

不仅如此,近一个月在科技圈内不但有OPPO发布了自己的首个虚拟数字人小布,而且腾讯也推出了3D超写实等五种数智人,国外英伟达甚至还“偷偷”造了个迷你版的黄世勋——虚拟数字人Toy-Me。

▲从左到右分别为英伟达Toy-Me;OPPO虚拟数字人小布;腾讯五款数智人;乐华娱乐旗下的虚拟偶像女团A-SOUL

这些形态各异的虚拟形象都属于虚拟数字人吗?事实上目前行业内关于虚拟人、数字人又或者是虚拟数字人这些概念,还处于一个各自为战的状态。

目前,比较官方的定义来自中国人工智能产业发展联盟首次发布的《2020年虚拟数字人发展白皮书》报告。报告提到,虚拟数字人指具有数字化外形的虚拟人物,将依赖显示设备存在,并且拥有人的外貌(长的像人)、人的行为(能说话、能举手、能做鬼脸)以及人的思想(能与人交流)。massimo dutti

有行业报告显示,2020年中国虚拟数字人行业市场规模约2000亿元,未来随着市场接受度拓宽,2030年中国虚拟数字人市场规模将达2700亿元。

虚拟数字人不但成为科技公司角逐的蓝海市场,而且也成为文娱行业“接轨”元宇宙的新方向。虚拟数字人到底指什么?它的背后有哪些技术成为支撑?虚拟数字人真的会是元宇宙赛道的新风口吗?

带着这些问题,智东西与国内动捕巨头公司诺亦腾CTO戴若犁、虚拟数字人公司创幻科技CEO陈坚等相关的行业人士进行了深入交流,看到了虚拟数字人背后的技术支撑和落地情况。

一、真假虚拟数字人,你分得清吗?

谈起虚拟数字人,你的脑海里会呈现出谁的样子,是出现在春晚上的虚拟歌姬洛天依,还是清华的虚拟学生华智冰,又或者是你手机里软萌可爱的虚拟语音助手,甚至还有可能是B站上唱跳俱佳的虚拟主播们。

▲不同类型的虚拟数字人代表

虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互5个模块构成,其中,人物形象分为卡通、拟人、写实、超写实等风格,像虚拟网红翎Ling这类就属于超写实虚拟人,而交互模块中可以分成交互型虚拟数字人和非交互型虚拟数字人。

▲智东西整理 来源:《2020年虚拟数字人发展白皮书》

根据虚拟数字人不同的核心交互方式,虚拟数字人分为智能驱动型虚拟数字人和真人驱动型虚拟数字人。

智能驱动型虚拟数字人是以深度学习技术为主,本质上还是某种算法,但会拥有一个定制化的虚拟外表。他们主要以“数字化”为核心,像是初音未来、小布以及华智冰分别在文娱、语音助手、教学领域应用的成果。massimo dutti

▲英伟达CEO黄世勋的虚拟形象Toy-Me正在与人交流

真人驱动型虚拟数字人是以真人为核心,用户可以通过3D建模、动作捕捉技术、渲染等技术,在网络上形成一个自己的虚拟化身。比如说,B站里的部分虚拟主播们通过动作捕捉平台,建立自己的虚拟形象,并以虚拟形象的方式与其他用户互动或者表演。

▲B站虚拟主播超次元次元酱表演秀

在创幻科技CEO陈坚看来,只有能完成实时互动的才能称的上是虚拟数字人。“现在一些虚拟数字人的概念还是通过视频和照片为主,这种不能算作真正的虚拟数字人。”massimo dutti

他同时还说道,只要具有实时互动功能的数字人都有价值空间,也会成为元宇宙的重要组成部分。从短期来看,智能驱动型虚拟数字人,像虚拟客服、虚拟主持人、虚拟导游都在企业市场拥有广泛的应用空间,但是从长远的爆发力来说,以真人驱动的虚拟数字人才是元宇宙的核心入口。

他举了个例子,日本Virtual Market用了三年的时间举办了六届虚拟漫展,参与人数远高于国内的China Joy动漫展。“未来每个人都会在3D互联网中拥有自己的虚拟身份,当大家可以开始虚拟逛街、虚拟逛展时,就会拥有(比智能驱动型数字人)更大的应用空间”。

▲日本虚拟漫展Virtual Market6展会现场

讲完了虚拟数字人的基本概念,我们来看看虚拟数字人究竟是什么样子?

在虚拟数字人刚起步的阶段,由于渲染技术、网速等原因常常会出现虚拟数字人突然“死机”,又或者呈现表情生硬、肢体不协调等情况,导致虚拟数字人往往都走在各类“翻车”的路上。

比如说,在天气预报的直播现场虚拟主持人突然360度来了个失败的“托马斯全旋”。

又或者是这样,在虚拟偶像综艺现场,由于计算能力和渲染能力的不足,几个虚拟偶像突然开始表演“千手观音”,场面一度很鬼畜。massimo dutti

▲国内虚拟偶像综艺直播现场

从这些事故画面中能看到,尽管虚拟数字人已经在不同领域拥有了自己的应用场景,但是在技术上还仍未成熟。

后来,随着研发人员不断尝试新的技术,尤其是在动作捕捉技术上的突破,现在的虚拟数字人可以借助VR设备,与用户实时互动交流,不但能唱歌聊天,还能跳舞,在互动上呈现了多样的方式。

▲虚拟偶像远程互动

比如说,用户可以通过佩戴VR设备(左上角),直接与虚拟偶像泠鸢yousa实时互动。而上面这个二次元人物的背后,正是虚拟泠鸢yousa佩戴者相应的动捕设备,做出相应的举动。

我们可以看到,虚拟数字人目前可以简单分为以真人驱动和以数字驱动的两种形式。其中,以真人驱动的虚拟数字人逐步克服了此前的肢体语言单一,面部表情单一等特点,开始拥有更加活灵活现的数字形象。

据目前落地的结果来看,打造一个虚拟数字人,不仅在创建准备环节有所难度,而且如何在多个虚拟人演出的时候实现实时渲染、以及及时调整人物渲染的细节等方面同样面临着一定的挑战。massimo dutti

二、打破两大技术壁垒,虚拟数字人如何更像“人”?

倒退十年,你如果想给自己打造一个虚拟形象,可能需要花费数十万元去买专门的设备,聘请专门的拍摄团队才能拥有一个活灵活现的虚拟形象,但现在你可能通过一台电脑就能为自己打造一个简易的虚拟化身。

B站CEO陈睿在哔哩哔哩周年演讲时提到,在过去的一年里共有超过32000名虚拟主播在B站开播,同比增长40%,虚拟主播已经成为B站直播领域增长最快的品类。

这一切都要归功于研发人员在制造虚拟数字人的两大重要环节——动作捕捉技术和渲染技术上做出的突破。

▲B站虚拟主播分区

1、解构四大动作捕捉方案,最高可实现毫米级误差

如何让虚拟数字人更加生动?动作捕捉方案是其中的关键要点。动作捕捉是指通过数字手段记录现实人们的运动过程。过去的一些科幻电影和游戏中,人们常常通过基于摄像机的动作捕捉系统完成对于一些科幻角色的塑造。同时,动作捕捉系统根据实现原理的不同,可以分成光学动作捕捉、惯性动作捕捉、Track设备+IK算法的动作捕捉、以人工智能为主的动作捕捉方案。

光学动作捕捉方案是当动捕演员在特定的部位粘上特殊材料,摄像机通过反光来捕捉这些特殊材料的位置变化,从而完成对演员的动作捕捉。massimo dutti

目前,光学动作捕捉方案能通过高帧率的捕捉,实现毫米级误差精度,能对人物动作还原最为精细,但这类捕捉方案对于背景环境的要求较高,技术门槛也同样较高。

▲光学动作捕捉技术

在光学动作捕捉设备和方案上,国内外都涌现出一些较为优秀的公司代表,比如说影视动捕巨头VICON公司以及国内利亚德集团下的北京虚拟动点科技有限公司。

北京虚拟动点科技有限公司的成立与美国光学巨头公司NaturalPoint离不开关系。利亚德集团在2016年11月4日宣布,计划通过旗下的子公司平达公司,以8.44亿元人民币全资收购了美国光学巨头公司NaturalPoint,同时也收下了其旗下OptiTrack产品系列,随后成立了北京虚拟动点科技有限公司。

OptiTrack的光学动作捕捉方案可以通过两个以上的高速智能摄像头对于移动目标进行定位,并记录相应数据,从而“复现”人物的动作和表情。

据利亚德集团COO、虚拟动点董事长姜毅介绍,当两个人戴上VR眼镜进行传球动作,OptiTrack运动捕捉系统可以及时抓取一人动作,并传送到另一个人的VR眼中,整个传输过程中,OptiTrack实现了高精度、低延迟、以及稳定可靠的传输过程。

惯性动作捕捉方案,主要是通过人物在各个关键佩戴的惯性传感器,并且对一些主要的部分进行实时测量,是比较主流的动作捕捉方案之一。massimo dutti

我们常见的动作捕捉服、手套等设备都是属于这类惯性动作捕捉范围内。

▲《指环王》动作捕捉演员Andy Serkis

甚至现在也出现了人们通过惯性动作捕捉技术打造一个虚拟数字人来直播带货。

▲卡通形象的虚拟数字人直播带货现场

在惯性动作捕捉的赛道里,国内厂商诺亦腾、国外厂商XSens都拥有比较成熟的产品。其中,诺亦腾通过全身17节点惯性传感器、全身绑带、传感器充电盒以及EVA便携箱等组成部分打造了入门级无线动作捕捉系统Perception Neuron 3。massimo dutti

第三种则是以Track设备+IK算法的动作捕捉方案,主要通过Track设备以及IK算法相结合,模拟出一定的动作姿态。这种动作捕捉方案在一些消费级的产品上运用较多,也颇受硬核技术流玩家们的喜爱,他们可以搭建自己的动作捕捉设备方案。