虚拟数字化制作平台的系统设计及应用

原创 《现代电视技术》编辑部

作者:上海东方传媒技术有限公司 王捷

摘要

本文阐述了上海广播电视台虚拟数字化制作平台的架构设计和应用实践。该平台通过整合动作捕捉、实时渲染与CG 技术,实现低成本高效动画制作,并依托自研系统推动IP 孵化与技术壁垒构建,进一步提升CG动画的制作效率。

关键词



动作捕捉技术|VAS系统|虚拟数字化制作

虚拟技术的持续革新有效驱动了相关软硬件产业的协同发展,促使众多行业领先企业加速布局这一新兴领域。相关企业在精进硬件操作技术的同时,亦积极投入配套软件的研发。此类技术实践正逐步构筑虚拟技术的核心竞争壁垒。我们确信,具备系统性开发能力的技术服务商将成为未来虚拟技术产业的核心力量。

伴随市场用户偏好及运营平台的转变,各类短视频内容在各大平台广泛传播并占据显著位置。虚拟人物与虚拟场景凭借沉浸式与交互式特性,其商业定位既展现出类似明星产业的扩张与渗透潜力,又能有效衍生多元化关联产业,进而催生大量创新技术。在此背景下,整合动作捕捉技术与引擎技术的虚拟数字化制作平台的应用,提供了一种全新的内容生产模式。

一  总体架构

虚拟数字化制作平台是一个整合虚拟动作捕捉技术、系统开发、数据管理及制作输出功能的综合性技术平台。随着数据采集系统的开发应用与IP孵化能力的持续提升,融合动作捕捉技术与实时渲染引擎的虚拟拍摄制作工艺已日趋成熟,可显著降低计算机图形(CG)动画的制作成本。通过将动作捕捉技术、实时渲染引擎技术与计算机图形技术相结合,并依托自主研发的基于虚拟数字人系统,上海东方传媒技术有限公司成功构建了虚拟数字化制作平台,如图1所示。该平台应用于自主孵化虚拟偶像IP,并实现动画类视频的高效生成,已在行业内确立品牌影响力并逐步实现推广。虚拟数字化制作平台的部署应用将进一步提升CG动画的制作能力,优化内容品质,并构筑新型技术壁垒。

图片图1 虚拟数字化制作平台总架构示意图

二  方案分析

虚拟数字化制作平台由约150平方米的功能性空间构成,集成多项先进技术模块,主要包括实时动作捕捉直播系统、虚实融合节目摄制系统及高精度光学动作采集系统。该空间配置28套领先的光学运动追踪设备,支持8名表演者同步进行全身运动数据的实时采集与直播传输,其卓越的捕捉精度可精确还原面部微表情及手指关节运动,满足多虚拟角色协同呈现的复杂制作需求。

平台核心搭载自主研发的虚拟数字人系统(VAS),该系统基于人工智能算法构建生成模型,通过多模态输入(包括专业面部捕捉设备与语音信号)实现情境自适应的实时表情驱动。配合智能导播控制系统,平台可实现对摄像机参数的精准调控,并具备实时渲染引擎功能,能够输出广播级画质。

该技术架构为虚拟数字人直播、计算机生成动画等领域提供全流程解决方案,其创新性体现在:

◆显著优化动画内容生产管线效率;

◆促进虚实融合内容在表现形式与个性化维度上的创新突破;

◆全面提升平台在数字内容创作领域的技术竞争力。

1.VAS系统

VAS(Virtual Actor System)系统是一套专为虚拟数字化制作平台自主研发的综合性技术解决方案。该系统旨在实现动作捕捉设备的前端数据采集,并支持实时虚拟数字人直播及计算机生成(CG)动画制作。其模块化架构兼容异地可移动动作捕捉设备的接入,同时整合网络传输、视频流处理及音频同步功能,构建完整的虚拟数字化制作生态。

该系统的核心优势在于提供从前期数据采集到后期成片/直播的全流程一体化制作能力。用户可通过数据下载或基于数字资产流通平台的交易机制,实现内容的高效利用与多维度传播,从而最大化虚拟数字内容的商业与创意价值。

(1)VAS音频子系统

VAS音频子系统作为虚拟数字化制作平台的核心音频处理模块,可与动作捕捉系统协同工作,在满负荷运行状态下(即启用最大数量动捕演员时),仍能保障多主播场景的音频需求。该系统支持多模式音频输入配置,例如:将表演者划分为舞蹈直播组与演唱直播组,分别配置可移动头戴式麦克风与专业级电容话筒,以实现差异化拾音;同步接入现场乐队音源,构建具备舞台级音效品质的混合音频流。

在虚拟直播应用中,该系统通过多轨音频实时合成技术,实现不同虚拟角色与异构音源的无缝融合,确保声画同步与音质一致性,从而呈现专业级的虚实结合演出效果,如图2所示。

图片图2 VAS音频节点连接图

(2)VAS视频子系统

VAS视频子系统作为演播室视频架构的核心组成部分,需同时满足以下双重技术需求:

◆保障导演与表演者之间的实时交互通信;

◆实现物理摄像机画面与计算机生成图像的动态融合。

本系统采用多通道虚拟视频输入切换矩阵,通过实时合成引擎将实拍画面与虚拟元素进行空间匹配与时间同步,最终输出具有多机位切换效果的复合视频流。该系统具备以下技术特征:

◆集成动作捕捉数据实时监测功能,支持导演在演播环境中直接完成节目主输出(PGM)的直播制作;

◆配备高性能输出服务器,采用AJA视频采集卡实现4K UHD/60fps视频流的低延迟传输;

◆终端部署多协议直播编码器,支持异构网络平台同步推流。

在技术实现层面,VAS视频子系统通过时空同步校正算法有效解决了虚实画面融合过程中的视觉偏差问题,实现了从个性化虚拟形象(“千人千面”)到无缝虚实融合(“虚实合一”)的技术突破。该系统提升了虚拟制作中视觉呈现的真实感与沉浸感,如图3所示。

图片图3 VAS视频节点连接图

(3)VAS 网络子系统

VAS 网络子系统作为虚拟角色制作体系的核心基础设施,主要由以下技术模块构成:

a. 光学动作捕捉网络架构

集成28台光学动作捕捉摄像机通过高性能交换机阵列接入,构建可扩展的局域网系统(当前部署10台主机设备),采用分布式网络传输技术实现多节点数据并行处理。

b.虚拟角色控制机制

基于C/S架构,实现单节点控制单一虚拟角色的管理模式,通过服务器集群与视频采集卡的协同工作,完成动作数据与实时画面的时空同步;降低多角色场景下的服务器负载压力,提升直播画面流畅度(帧率优化≥30%)。

c.面部捕捉无线传输系统

部署IEEE802.11ax(Wifi6)无线网络子系统,支持5台iPhone设备同步传输高精度面部捕捉数据,建立服务器与客户端的双向数据分发通道,确保面部动画数据的实时同步。

本系统通过分层网络架构设计,有效解决了大规模虚拟角色制作中的带宽分配与数据传输延迟问题。具体表现为:有线网络模块保障基础动作数据的稳定传输;无线子系统专注于高频率面部数据的实时同步;分布式处理技术优化了系统整体资源利用率。

该网络架构不仅实现了制作效率与质量的同步提升,更通过模块化设计为系统后续扩展提供了技术可行性。

2.光学动捕空间

虚拟数字化制作平台选用的场地为一处面积为150平方米、层高4米的光学动态捕捉专用演播棚。该场地经专业设计与设备配置,可充分满足虚拟动画制作、影视角色动作捕捉以及虚拟形象实时直播等多元化应用场景的技术需求。

在硬件配置方面,该场地配备了28台高性能光学动作捕捉摄像机,并集成专业级实时骨骼动作捕捉系统软件。配套设备包括:专业动作捕捉服装、高精度光学标记点阵列,以及完整的动作捕捉技术相关硬件支持系统。此配置可确保动作数据采集的精确性与实时性,为各类动捕应用提供可靠的技术保障。

图片图4 VAS系统网络图

3.导播间

我们采用符合专业演播室标准的系统架构,为动作捕捉演播棚配置了多功能导播控制室,以实现高规格全流程集成的视听监控与制作需求。该控制室整合了以下核心功能模块:

◆多机位视频切换系统;

◆动作捕捉技术后台控制终端;

◆虚拟角色实时渲染引擎操作界面;

◆专业级音频混控系统;

◆广播级实时流媒体传输系统。

技术团队可通过虚拟数字化制作平台实现多源数据导入,并基于制作需求执行虚拟摄像机位多画面监看,系统支持同步显示多达16个独立机位。结合演播室级视听反馈系统,该配置可为导演及核心创作团队提供高精度场景调度与画面切换支持,满足复杂虚拟制作流程的实时监看与决策需求。

4.引擎子系统

作为虚拟数字化制作平台的核心组件之一,VAS 引擎子系统是基于Unreal Engine 4(UE4)平台自主研发的实时渲染与数据处理系统,适用于多平台直播、录播及动画制作等应用场景。该系统的技术架构与功能实现如下:

(1)实时数据处理与角色驱动

系统通过集成高精度动作捕捉数据流,依据预设参数进行虚拟场景构建与数据融合,具备骨骼重定向功能,可适配不同规格的角色骨架体系,实现虚拟角色的运动数据映射与实时驱动。

(2)高级实时渲染功能

支持虚拟环境动态生成与实时渲染;集成物理模拟引擎,实现布料动力学与毛发实时渲染,搭载面部表情捕捉与切换系统。

(3)多机位监看与导播集成

通过虚拟多机位切换平台与导播控制室无缝对接,构建完整的演播室级监看体系,实现制作信号的实时调度与多画面监看。

本系统通过模块化设计满足不同层级的虚拟角色制作需求,为数字内容生产提供全流程技术支持。

5.数据管理系统

作为虚拟数字化制作平台的核心数据交换中枢,本系统采用分布式数据管理架构,实现全流程制作协同。其数据处理流程可分为以下关键环节:

(1)多源异构数据采集与预处理

通过动作捕捉数据采集系统实现多模态数据同步采集,涵盖演员肢体运动数据、精细手势数据及面部微表情数据,采用数据标准化协议确保不同采集设备(包括光学/惯性动捕系统)的数据兼容性。

(2)智能化数据管理与存储

基于元数据的数据分类存储系统,支持多维索引策略(时间戳/项目标签/数据类型等多维度分类),实现制作数据的版本控制与快速检索。

(3)实时交互数据处理

集成基于Python的数据分析引擎,实时处理直播数据流(包括观众行为数据、弹幕互动数据及社交平台反馈),支持双向数据通道:数据可视化分析看板,实时互动反馈系统。

该架构通过统一数据总线实现制作全流程的数据协同,既保障了制作数据的规范性存储与调用,又实现了观众互动数据的实时处理与反馈,提升了虚拟制作的数据流转效率与交互体验。

6.直播推流系统

作为虚拟数字化制作平台的终端输出模块,本系统具备双重功能输出能力:既可作为动画生产系统的最终渲染输出节点,亦可作为实时流媒体内容的分发终端。系统采用高性能数据传输架构实现多源媒体数据的同步处理与分发,具体技术实现如下: (1)高帧率数据同步传输

动作捕捉空间数据以120fps的高帧率进行同步传输,采用时间码同步技术确保多系统数据对齐,实现亚毫秒级的传输延迟控制。

(2)多轨媒体数据融合

◆视频数据:导控系统输出的多路视频信号;

◆音频数据:数字调音台处理后的多轨音频;

◆元数据:包含场景描述信息与交互指令。

(3)自适应流媒体编码与分发

实时转码引擎支持H.264/HEVC编码格式,动态帧率调节(60fps上限)适应不同平台传输需求,集成CDN分发接口,兼容主流直播平台API协议。

本系统通过建立端到端的低延迟传输管道,确保从数据采集到终端分发的全链路传输时延控制在行业标准范围内(< 500ms),为实时虚拟制作提供可靠的播出保障。系统可根据应用场景需求,灵活切换于离线渲染输出与实时流媒体分发两种工作模式。

三  应用优势分析

1.提高制作效率

传统动画制作方法依赖于人工逐帧绘制或关键帧调整来实现角色动作模拟。这种制作范式存在显著的效率瓶颈,表现为:时间成本高昂,工艺流程繁琐,动作表现受制于动画师主观经验;相较而言,虚拟数字化制作平台采用的动作捕捉技术,实现了制作流程的范式转移:通过高精度运动数据采集直接获取演员的表演数据,运用实时数据映射技术将捕捉数据直接驱动数字角色,显著优化了制作流程,提升制作效率达300%以上,不仅缩短了制作周期,更确保了动作表现的生物力学准确性,为动画制作提供了新的工业化标准。

2.增强动作真实感

虚拟数字化制作平台采用的高精度动作捕捉系统实现了对表演者细微动作特征及面部微表情的精确采集。这些精细运动数据具有以下技术特征:

(1)超出现有手工动画的技术边界

突破了传统关键帧动画的表现力局限,实现了手工难以复现的生理性运动细节,部分高复杂度表情变化在手工动画中属于不可实现的范畴。

(2)显著提升动画表现质量

角色运动呈现符合生物力学规律的流畅性,面部表情变化具有心理学层面的真实感,运动数据保留了表演者的个性化特征。

(3)优化终端用户体验

增强视觉呈现的沉浸感,提升角色表演的情感传达效率,实现观众认知层面的真实感认同。

该技术通过保留人类表演的微观运动特征,在动画领域建立了新的真实感标准。

3.提高导演现场可视化

传统动画制作流程存在视觉化滞后问题,其局限性主要体现在:

◆依赖阶段性可视化手段:手绘故事板、三维预演;

◆最终画面效果呈现滞后;

◆艺术调整周期冗长。

相较而言,虚拟数字化制作平台通过自主研发的实时虚拟拍摄系统展现了新的技术手段:

◆实时可视化技术架构:多元素同步渲染,摄像机运动轨迹、角色动画数据、动态场景元素、实时画面合成引擎;

◆导演工作流程优化:所见即所得的创作体验,即时艺术效果调整,实时节奏把控;

◆制作效率提升:最终画面效果前置可视化,创作决策迭代周期缩短,制作风险可控性增强。

虚拟数字化制作平台通过将传统后期制作环节前置到拍摄阶段,实现了导演创作意图与最终画面效果的实时映射,提升了动画制作的确定性与工作效率,为影视动画创作提供了全新的工作流程。

四  实用案例

虚拟数字化制作平台完成系统设计与实际部署后,成功应用于《创世之音》系列虚拟偶像演唱会的制作,取得了良好的成效:完成时长超过60分钟的全虚拟演唱会制作《创世之音1》《创世之音2》,在哔哩哔哩平台实现虚拟偶像全明星演唱会的商业化播出。

在《创世之音》项目取得成功之后,我们在东方卫视《朤月东方》中秋晚会中,依托虚拟数字化制作平台,推出由虚拟主播申䒕雅演绎的《贵妃醉酒》节目。在此次制作中,通过采集固定范围内的多光源照明数据,并结合高精度光学动作捕捉系统获取的运动跟踪信息,我们在人脸建模、材质贴图、骨骼绑定及发型适配等关键技术环节实现了全面升级,显著提升了申䒕雅的形象质感与动态表现力。

图片图5 《创世之音》动捕实时效果图

随后,在东方卫视跨年晚会中,依托虚拟数字化制作平台,超写实虚拟数字人“东方嫒”首次亮相。从概念创意、原画设计、三维建模、动作捕捉,到最终的灯光与渲染,全流程均采用高规格数字内容制作技术,实现了其在舞台表演中的高度自然融合。该项目的成功标志着虚拟数字化制作平台实现了从二次元虚拟主播向三维超写实数字人的技术迭代升级。

图片图6 《跨年晚会》东方媛成片截图

五  结语

上海广播电视台虚拟数字化制作平台经过严谨的架构设计与工程建设,已完全实现既定技术指标,并在虚拟综艺节目制作领域取得应用成效。在实现虚拟角色实时表演、多模态数据融合技术、高精度动作捕捉、面部微表情捕捉等核心技术上取得提升;优化算法与计算机图形学技术,提升虚拟角色;实现实时角色换装、动态造型变换、场景道具实时加载;通过双模输出支持实时直播和后期制作,通过实时预览系统提升创作效率,制作周期缩短98%以上(数周/天缩减至小时级),为文化数字转型提供了关键技术支撑与产业化实践范例。