浅析影视级数字资产在精品节目中的视觉应用

随着科技的飞速发展和社会的不断进步，我们发现数字资产在超高清纪录片特效制作中的应用正变得愈发关键和深入^[1,2,3]。特别是在将各领域的科学数据转化为数字资产的过程中，这种转化在项目的执行中起到了决定性和关键作用。我们发现数字资产不仅展现了科研数据可视化和信息传递的巨大潜力，还凸显了其对未来科技进步和社会发展的重要性。在视效制作过程中，我们发现，通过将复杂的科研数据转化为直观、生动且具有感染力的数字资产，观众对信息的理解和接受度得到了显著提升。这种转化在电视媒体和短视频媒体等新兴媒体平台尤为重要，能够以引人入胜的方式展示科研成果，从而提高传播效率和影响力。此外，数字资产的重复使用和共享能力进一步提升了信息传播的效率，节省了大量资源，满足了快速、广泛传播的需求。因此，科研数据向数字资产的转化将在媒体内容创新和传播效率提升中发挥重要作用。

然而，当前生成用于影视制作的数字资产仍面临诸多挑战。已有研究虽然尝试利用数据清洗、格式转换和三维建模等方法生成图像、视频与音频资产，但在实际影视生产中，其应用效果仍存在较大局限^[4,5,6,7]。首先，生成数字资产时未充分考虑影视制作的特定流程和需求，导致生成的资产难以直接应用于特效制作、剪辑等环节；其次，数字资产的精度不足，难以满足影视制作对高清晰度和高质量的要求，影响了最终观感。因此，在生成数字资产时，如何兼顾影视制作的需求流程和精度要求，已成为我们的研究重点。

针对上述挑战，我们在对现有超高清视觉制作流程进行深入分析的基础上，设计了一种新型的将科学数据转化为数字资产的工艺流程。该流程涵盖了关键技术的研究与核心模块的实现，然后我们构建出一套具有高度适配性与通用性的数字资产生成方案。在此基础上，我们对生成的数字资产在电视媒体与新媒体业务中的应用模式进行了实践验证，特别是在科学纪录片和政论类内容中的视觉表现方面取得了显著成效。

一聚焦节目表达特性，精细打磨工艺流程

近年来，在完成总台大型纪录片和专题片的视觉制作过程中，我们发现数字资产的需求已呈现井喷式增长趋势。这些数字资产主要由跨行业的外部科学数据转换获取。当前，尽管各行业对科学数据转化为影视制作所需的数字资产的需求巨大，但针对这一转化过程的研究仍相对匮乏，尤其是在涉及视觉特效制作的纪录片中，这一问题尤为突出。例如，在航天题材的科学纪录片中，如何将探测器数据和地形数据转化为规范化的数字资产包，以便直观展示地貌和气候信息，是一个重大挑战。在将科学数据转化为数字资产并用于可视化呈现的过程中，核心问题在于如何设计一个高效、精确的工艺流程，确保科学数据能够被准确解析、处理并转化为适用于影视制作的数字资产。

以《飞向月球》为例，在这部科学纪录片制作伊始，我们拿到月球地形的科学数据，分析后发现科学数据转化为数字资产的过程涉及多个复杂步骤，每一步都是工程问题的重要组成部分。首先，我们梳理每个阶段的功能模块及其对应的研究领域，明确核心技术类型和实现方法，制定相应的参考指标；之后，我们对每个步骤进行规划，从数据收集、处理到最终转化为数字资产，确保每个环节的严谨性和高效性。

为提升工艺流程的转化效率和质量，我们采用人工智能技术作为核心功能，人工智能的高级处理能力和自我学习能力使其在处理复杂任务时表现出色。通过机器学习和深度学习技术，能够从大量数据中提取有用信息，进而大幅优化工艺流程，预测和监控生产过程，提高数字资产的转化效率和质量。人工智能的智能和自适应特性也使工艺流程更加灵活和可持续，能够应对不断变化的业务需求和环境挑战。

在完成对科学数据的分析并且确认基础技术支撑后。我们开始构建工艺流程。流程主要分为三个主要环节：数据收集、数据处理和资产重建（如图1 所示）。

图1 科学数据转化为数字资产流程

数据收集从行业科学数据和现场采集数据两个来源获取完整的原始信息。行业科学数据主要来自遥感勘测、工业制造、生物医疗等领域，包含丰富的行业关键信息。这些数据转化为通用场景描述的数据，确保数据的权威性和准确性；现场采集数据则通过光学相机和激光扫描仪获取多角度图像和点云数据，为后续处理提供重要基础。我们采用摄影测量技术和点云采样技术实现现场数据的采集，确保采集数据的质量和完整性。

数据处理阶段通过特征工程提取有价值的信息和特征，确保数据的完整性和精确性。我们采用特征工程作为数据处理的基础策略，从原始数据中提取信息特征，以提高机器学习算法的性能。特征工程包括两个关键步骤：特征对齐和特征增强。特征对齐确保不同数据集或单个数据集内的不同部分的特征保持一致性和兼容性，采用得分规范化和均值、中位数处理等方法。特征增强则通过多项式特征处理和交互项创建新特征，丰富数据集并提高模型性能。最终，我们获取涵盖点云和多角度图块的多模态特征，用于后续的重建任务。

资产重建阶段则利用提取的特征重建数字资产，生成精确的影视可用的数字资产。在获取处理后的数据后，我们依托人工智能技术将数据特征重建为用于特效制作的数字资产格式，采用四面体多边形作为基本单元。我们研究了物体信息的显式表达模型和隐式表达模型，最终采用隐式表达模型，通过基于深度学习的反向渲染技术生成层级化的资产信息，并将其转换为显式表达进行存储。

二多模态人工智能技术，助力数字资产高质量生成

基于数据收集、处理和重建的全链路工艺流程，我们构建一套新型的数字资产生成系统。系统包括确定数据的输入与输出方式、数据处理和分析的步骤与方法，以及数据结构的分析与存储管理方式。我们确立数据处理机制，包括数据清洗、整合、分析和可视化等步骤，并搭建系统的各个模块：数据收集模块、数据处理模块、数据分析模块和数据可视化模块。通过这些模块，我们利用系统生成用于影视视觉呈现的数字资产。

整体系统框架基于扩散Transformer模型作为人工智能底座、辅以逆向渲染技术，从多模态数据中重建三维几何模型和材质特性。逆向渲染的主要挑战包括不确定性、计算复杂性和噪声遮挡。我们设计的目标是采用深度学习方法进行优化算法和物理建模，提高逆向渲染的准确性和效率。整体系统框架如图2所示。

图2 数字资产生成系统框架图

我们采用基于扩散Transformer的骨干网络模型^[8]，构建出一款新型几何扩散Transformer网络，用于实现将科学数据转换为高质量的数字资产，如图3所示。整体网络由多模态自编码器、扩散Transformer 模型和渲染验证器组成。多模态自编码器通过编码器—解码器结构将科学数据转换为潜在向量，扩散Transformer模型利用序列处理能力生成数字资产的多模态表达分布，渲染验证器则通过成熟的商业渲染器对重建结果进行验证和优化。

图3 几何扩散Transformer网络

具体来说，首先多模态自编码器由多模态到潜在向量编码器、潜在向量到三平面解码器和几何映射网络组成。编码器通过Transformer将科学数据转换为潜在向量，解码器则通过渲染验证器实现三维重构。我们实现多种维度的数据表达对齐融合机制，即从特征中提取出高级语义信息，进而构建一个引导的联合嵌入空间，实现多种模态间的对齐。

然后，我们利用扩散Transformer模型中Transformer网络特性，提取视窗映射到二维视窗渲染图像的显著信息。再通过前向扩散过程和逆向生成过程，从噪声中构建出所需的数据样本。这部分我们设计了像素级对齐模块、多尺度特征级对齐模块和语义级对齐模块，确保生成的数字资产与条件多模态内容一致。

最后，我们选取商业渲染器作为渲染验证器实现的基础，对生成的数字资产结果进行验证和优化。采用多角度图像作为整体拟合体积神经表达，取代将多视图图像视为单独的训练样本。解码器通过傅里叶嵌入算子和卷积网络逐步采样显式潜在表达，生成高质量的数字资产。

三高质量数字资产生成，赋能超高清视觉呈现

我们在《飞向月球》超高清科学纪录片中应用多模态生成系统，将地理信息科学数据转换为纪录片可用的三维数字资产。首先，我们从国家天文台获取了GeoTIFF格式的地理信息科学数据，包含三种文件类型：*.tif、*.prj和*.tfw。其中，*.tif文件存储影像数据，*.tfw文件定义了影像像素坐标与实际地理坐标的仿射关系，*.prj文件则存储了坐标参考系统（CRS）信息。通过解析*.tfw文件，我们获取到影像的像素分辨率、旋转系数以及左上角像素中心的地理坐标。

其次，我们在系统中将整体地理数据分割成分辨率为24000×16000的图块单元，每个图块的X方向和Y方向地理距离均为20米。通过*.prj文件中的EPSG坐标系信息，对地理数据进行了投影分带、椭球调整和经纬基准校准，确保影像在地理空间中的准确定位。随后，在系统中使用地理空间抽象库读取GeoTIFF文件，提取地理坐标、坐标参考系统和栅格数据，构建了地形信息数据集。

最后，通过将地理信息数据送入整体系统生成高质量细节模型，并结合人工编辑，生成了8K PBR高质量数字资产。图4展示了在《飞向月球》第三季超高清纪录片中月球表面数字资产的结果。

图4 地理信息数据转换的数字资产

此外，我们在《你好！火星》超高清科学纪录片中应用多模态生成系统将DXF格式的工业信息数据转换为STL格式。通过FREECAD和KAOLIN类库，确认线性和角度分辨率设置，用于实现DXF到STL 的转换。

我们使用数字资产表达库读取STL文件，提取顶点数据和法线向量等信息，生成RGB图像、深度图像、法线向量和点云数据。通过设置不同的采样分辨率，生成从稀疏到稠密的阶梯点云数据。通过随机摄像机设置，我们生成了多角度的表达信息，构建了工业信息数据集。最终，我们通过扩散模型生成高质量细节模型，并结合人工编辑，生成了用于《你好！火星》科学纪录片的火星探测器和着陆器的8K PBR高质量数字资产。图5展示了工业信息数据转换后的“祝融号火星车”数字资产在纪录片中的视觉呈现。

图5 工业信息数据转换数字资产的视觉呈现

我们在《重庆谈判》超高清政论类纪录片中应用多模态生成系统，将现场采集数据转换为纪录片可用的三维数字资产。通过激光扫描仪和光学相机对建筑的内景和外景进行了现场采集。激光扫描仪采集的彩色点云数据密度≥40线，频率≥20万点/秒，测量精度≤±1.2厘米，测量距离≥40米。光学相机采集的多角度图像色彩深度≥14bit，分辨率≥100 线对/毫米，贴图采集频率≤0.01秒/次，解析拼接误差≤0.01毫米。通过激光扫描，我们获取稠密点云数据，为几何模型的生成提供了丰富的信息输入。之后，我们通过测量摄影获取了多角度图像数据，用于生成材质信息。通过对稠密点云进行采样，生成了不同密度的分段点云数据，并通过边界盒方法构建了点云的体素表达。

在生成数字资产时，我们设置了网络的几何信息和材质信息参数。几何信息的倒角距离（CD）≥3.35，地球移动距离（EMD）≥1.37，F1距离（F1）≥0.754。材质信息包括漫反射、法线、粗糙度、金属度、置换、环境遮蔽、高光、光泽度和凹缝的层级贴图，分辨率为8192×8192，位深为16bit，色彩空间为HDR。

最终，通过人工整理，将生成的数字资产应用于超高清纪录片中，验证了基于现场采集数据的数字资产生成方案的可行性。图6和图7分别展示了《重庆谈判》中谈判会址的室外和室内数字资产的视觉呈现效果。

图6 现场采集的科学数据转为室外数字资产

图7 现场采集的科学数据转为室内数字资产

四结语

我们设计了一种新型的科学数据转化为数字资产的工艺流程。基于工艺流程，重点验证工业绘制和地理信息数据的可行性。通过测量摄影和激光扫描获取光场图像和点云数据，转化为特征并对齐，进行三维重建，生成高质量数字内容原型。同时，利用深度学习神经网络技术建立标准化数字资产包，应用于科学纪录片和政论纪录片的超高清视觉呈现。在未来工作中，我们将会对数据解析和结构化、大规模数据处理、跨模态数据融合等方向进行研究。

本文受中央广播电视总台超高清视音频制播呈现国家重点实验室科研项目计划资助：“基于科学数据的数字资产可视化应用研究”项目，项目编号：CMGSKL2021ZZ024。