您的位置 首页 科技

5秒生成3D模型,SIGGRAPH“最佳论文”揭秘图形领域最新技术

SIGGRAPH(Special Interest Group for Computer GRAPHICS)是一个成立于1976年的计算机图形和交互技术特别兴趣小组。自1974年起,美国计算机协会计算机图形专业组(ACM SIGGRAPH)每年都会组织一次SIGGRAPH会议。后来,这个会议逐渐成为计算机图形领域最具权威和影响力的国际会议。

5秒生成3D模型,SIGGRAPH“最佳论文”揭秘图形领域最新技术

SIGGRAPH(Special Interest Group for Computer GRAPHICS)是一个成立于1976年的计算机图形和交互技术特别兴趣小组。自1974年起,美国计算机协会计算机图形专业组(ACM SIGGRAPH)每年都会组织一次SIGGRAPH会议。后来,这个会议逐渐成为计算机图形领域最具权威和影响力的国际会议。

在SIGGRAPH会议上,各领域的研究人员们将分享大量学术研究报告,为公众展示丰富的研究成果,并不断给艺术、科学和自适应技术等领域带来新的研究方向和发展驱动力。

在今年的SIGGRAPH 2022上,NVIDIA Research团队共有32篇论文被会议接收,其中有2篇获得了“最佳论文奖”。这两篇论文分别是《基于多分辨率哈希编码的即时神经图形基元》(《Instant Neural Graphics Primitives with a Multiresolution Hash Encoding》)和《图像特征对反应时间的影响:扫视潜伏期的学习概率知觉模型》(《Image Features Influence Reaction Time: A Learned Probabilistic Perceptual Model for Saccade Latency》)。

一、3D建模速度提高60倍,最快只需5秒

NVIDIA第一篇获得“最佳论文奖”的是《基于多分辨率哈希编码的即时神经图形基元》(《Instant Neural Graphics Primitives with a Multiresolution Hash Encoding》),该论文介绍了NVIDIA在使用Instant-NGP训练神经图元模型(如NeRF)方面的重大技术突破。

5秒生成3D模型,SIGGRAPH“最佳论文”揭秘图形领域最新技术

解读论文前,先给大家介绍两个概念:NeRF和MLP。

NeRF(Neural Radiance Fields)最早是在2020年ECCV会议上的最佳论文(Best Paper),它将隐式表达推上了一个新的高度。NeRF模型可以用多张2D图像隐式重建3D场景,它可以用来展示任何复杂的空间信息,目前已被应用于图像压缩、三维形状高精度展示和超高分辨率图像等领域,可以进行物体重建、城市大场景重建等。

MLP(Multi-Layer Perceptron,多层感知器)是一种前馈人工神经网络模型,它可以将输入的多个数据集映射到单一的输出的数据集上。这是一个深度学习模型,其计算过程如图所示,这个网络模型在数据中间加了一个隐藏层,受到很多参数权重的影响。

5秒生成3D模型,SIGGRAPH“最佳论文”揭秘图形领域最新技术

该论文的研究思路是:渲染时间=采样数×每次MLP计算时间。那么在采样数量不改变的情况下,减少MLP计算时间,就能提高计算速度。而减少MLP计算时间的直接方法是减少网络的深度和宽度,但这会让MLP的表达能力减弱,从而无法有效拟合场景;于是研究团队找到了新的解决方法,他们把空间划分为若干个小块(即网格),然后在每个局部空间放置可学习的embedding feature(将客观世界中的物体或对象离散地映射到特征空间中)。同时,论文中也利用了多分辨率网格,每个网格的顶点就是一个embedding feature,通过插值获得空间中任意点的feature,这样就可以分担浅层MLP的压力。又由于浅层MLP和线性插值速度很快,这种方法就可以实现实时渲染的目的。

通过这种方法,该论文解决了NeRF模型中建模和训练速度慢的问题,将NeRF模型训练速度提高了60倍。实验结果显示,在最快的情况下,NeRF模型的建模速度只需要5秒。

谷歌科学家乔恩·巴伦(Jon Barron)特地发Twitter感慨这一研究进展:“18个月前,训练NeRF要5小时;2个月前,训练NeRF仍要5分钟;而现在,NVIDIA的最新技术竟将训练NeRF的时间缩减到5秒!”

二、预测人眼扫视延迟,提升VR/AR游戏体验

NVIDIA的第二篇获奖论文是《图像特征对反应时间的影响:扫视潜伏期的学习概率知觉模型》(《Image Features Influence Reaction Time: A Learned Probabilistic Perceptual Model for Saccade Latency》)。

该论文的研究团队受神经学启发,提出了一种新的概率模型,该模型可以预测人类在扫视潜伏期的反应时间。人的眼球在不同的点之间快速跳跃运动,这就叫做扫视。扫视代表人类的注意力频繁转移,此时他们正在观察周围的环境并寻找让他们感兴趣的对象。研究人类的扫视行为能够更好地了解人类在视觉环境中的表现,这是计算机图形领域里的一个重要研究领域。

5秒生成3D模型,SIGGRAPH“最佳论文”揭秘图形领域最新技术

该模型可以模拟人类遇到视觉刺激时的决策和行动。研究人员在测试该模型的过程中加入了物理和心理的变量参数,以此观察参数与测量图像特征之间的相关性。为了研究该模型对视觉刺激反应的“速度”,研究人员用VR眼镜采集了10000多项实验数据。研究结果表明,该模型的预测结果与真实人类的反应速度一致。

对于交互式计算机图像应用的用户而言,该模型可以预测用户的视觉反应时间,也可以作为发出警告的指标。此外,该模型还有助于改善VR应用的体验,衡量电子竞技玩家之间的竞争公平性,让玩家知道如何在精确到毫秒的反应时间内最大限度地提高自己的竞技表现。除了游戏和VR领域,该模型还可以用于医疗保健和汽车等领域,可以帮助医生或司机快速应对突发紧急情况。

三、Omniverse全面升级,NVIDIA蓄力元宇宙

NVIDIA一直致力于帮助图形学专业人士、研究人员、开发者利用图形学技术推动人工智能发展。NVIDIA在全球有300多名研究人员,他们专注于研究AI、计算机图形学、计算机视觉、自动驾驶汽车、机器人技术等领域。除了这两篇在SIGGRAPH大会上获得的最佳论文外,NVIDIA Research团队在大会上还宣布了更多研究成果。

1. NVIDIA发布Omniverse ACE,降低虚拟人开发门槛

8月9日,英伟达正式发布了一个用于高效创建和部署3D虚拟形象的云原生AI模型和服务——Omniverse Avatar Cloud Engine(ACE)。

ACE建立在英伟达的统一计算框架基础之上,内置有许多复杂的AI技术,为用户提供丰富的软件工具和API。它基本覆盖了虚拟人所需的各种核心功能,如实现理解多种语言、响应语音提示、智能视频分析、高性能推荐系统、与环境互动并提供智能建议等等。这些工具使开发者足以解锁交互式虚拟人所需的大部分技能,并做到先进水平。

5秒生成3D模型,SIGGRAPH“最佳论文”揭秘图形领域最新技术

比如ACE内置的AI工具Audio2Face,可以用音频文件直接创建面部动画,并提供有推理和生成逼真情绪的新功能;Audio2Gesture能用能用音频文件生成逼真的身体姿势动作;Project Tokkio则能提供视觉、感知和智能对话能力,让虚拟形象提供建议、提高餐厅等场所的客户服务水平。

借助此类工具,虚拟人可以具备像真实人类一样复杂的面部信息、流畅自然的表情和动作,以及与说话内容契合的口型。ACE的模型和服务都在云端,因此企业不用担心算力问题,任何规模的企业都可以立即获得构建部署虚拟形象所需的大规模算力。

2.多项AI工具升级,Omniverse发布新版本

在SIGGRAPH 2022上,黄仁勋公布了Omniverse的新版本。

Omniverse是一个用于构建虚拟世界的多GPU可扩展计算平台,已被全球约700家领先的公司用于改进建筑和产品设计、简化视觉效果工作流程以及构建工厂、城市和地球的数字孪生。黄仁勋将其描述为“一个USD平台,一个构建元宇宙应用的工具包,一个运行虚拟世界的计算引擎”。

5秒生成3D模型,SIGGRAPH“最佳论文”揭秘图形领域最新技术

此次针对Omniverse的扩展包括多项AI工具和功能,其中Omniverse Kit是用于构建本地Omniverse扩展和应用程序的工具包,里面用于优化物理仿真的PhysX和提高3D工作流程协作效率的OmniLive Workflows均得到更新;Omniverse Machinima则用于轻松构建3D电影和动画电影,里面有来自数百个游戏的全新免费3D资产。

此外,英伟达与合作伙伴一同发布了11个新的Omniverse连接器(Connector)。Omniverse USD生态系统中的连接器总数现已达到112个。这些连接器将进一步解锁元宇宙工作流程。

其他新发布还有下一代OpenVDB(存储体积数据开源库)NeuralVDB,它能为稀疏体积数据集带来了AI和GPU优化,并将这些海量数据集的内存占用率降低了多达100倍。

四、结语:计算机图形技术又有新突破,推动人工智能产业向前发展

计算机图形是和人工智能交叉融合的重要方向,元宇宙、XR游戏、自动驾驶、图像修复、艺术重建等行业都需要用到计算机图形技术。此次NVIDIA在SIGGRAPH大会上获奖的两篇论文分别成功预测了人眼的扫视延迟速度、提高了NeRF模型的训练速度,这说明NVIDIA在计算机图形领域的技术又取得了新突破。

NVIDIA的研究团队除了研究前沿技术、发表论文外,也希望更多的人能够参与体验这些前沿技术,于是他们创建了AI Demo,希望把他们的研究成果分享给更多的人。

此前,算法邦介绍了NVIDIA的对话式AI工具Riva,今后我们还将推出一系列NVIDIA研究团队的交互式Demo,将会涉及AI绘画和音频生成等多个领域,如想提前体验更多人工智能和深度学习互动Demo,请点击【https://www.nvidia.cn/research/ai-playground/?ncid=pa-so-wech-186658-vt16#cid=_pa-so-wech_zh-cn】打开“NVIDIA AI广场”一起互动吧。

本文来自网络,不代表睿景网立场,转载请注明出处:http://www.luijing.com/keji/113430.html

为您推荐

发表评论

邮箱地址不会被公开。 必填项已用*标注

联系我们

联系我们

在线咨询: QQ交谈

邮箱: 78799268@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部