探索AI数字人在业务场景的落地，数字内容及互动解决方案的形成

来源：广州资讯网 2020-02-28

自疫情爆发以来，从省市级媒体到地方县级融媒体平台，都纷纷启用相芯科技的AI虚拟主播投入到疫情报道的实战中来。虚拟主播是相芯科技对AI数字人的探索以及应用的一部分，正在不断改变智能媒体的时代。那么什么是AI数字人？这项技术是如何实现的？它还有哪些可拓展的实际落地场景？大家可以通过相芯科技CTO秦昊在达摩院AI Inside同行者大会中对AI数字人的技术分享，了解一下。

演讲嘉宾简介：秦昊，相芯科技CTO

摘要：在人工智能高速发展的今天，越来越多的AI技术开始与计算机图形技术结合解决实际应用问题。AI数字人技术由人工智能与CG技术结合而成，用于提供仿真的人机问答服务，并在视觉通道上优化人机交互体验。相芯科技CTO秦昊在达摩院AI Inside同行者大会中通过企业在AI数字人方面的探索及相关应用的案例分享展现AI数字人技术的进展及应用。

以下内容根据演讲视频以及PPT整理而成。

本文将站在应用角度为大家展示相芯科技联合阿里云TTS开发的AI数字人应用案例。

AI数字人

AI数字人的概念起源于2017年SIGGRAPH大会上，众多学术机构合作推出了一款AI数字人Virtual Mike。通过融合当时尖端的渲染技术与动作捕捉技术大会打造了一个惟妙惟肖的实时虚拟角色。经过两三年的发展，互联网行业中开始出现数字人技术应用的案例，如百度公司与浦发银行共同打造的AI数字人“小浦”可以作为银行的数字员工为相关用户提供业务咨询及简单业务办理的服务。

AI数字人技术为用户提供了全新基于视觉通道的人机交互界面。该界面通过融合CG技术、语音技术及自然语言处理等多种技术，为使用者打造出类似人与人交互的操作体验。企业通过切换数字人背后的知识库或AI模块使其可以支撑不同的业务场景，如在媒体播报领域、个人助理领域及业务咨询等领域数字人技术均有不俗的表现。

虚拟主播云平台

相芯科技公司基于与阿里云的合作在很多领域开始进行AI数字人技术的应用落地。相芯科技的AI数字人技术，只需要输入一段文字，就可以全自动地合成整个人的说话，包含动作、形态、情绪的视频。公司搭建的虚拟主播云平台如下图所示。在平台编辑界面中，用户可以对虚拟人物的角色、对话内容脚本及相关人物动作进行选择，并通过阿里云的云服务器进行渲染和视频合成，就能快速生成数字人的视频，用户可以自行将视频下载，并进行分发。

虚拟主播及虚拟机器人

下图所示为公司虚拟主持人模块的架构。公司将相关脚本输入，通过TTS语音技术完成人物语音的合成，在STA（Speech-to-Animation）模块中进行动画及视频合成，最后生成相关的虚拟视频。企业同时对互动助手、虚拟机器人技术架构进行了开发。在数据输入部分，系统通过接入自然语言处理等模块完成了机器人问答系统的搭建，以此支持数字人与用户的实时交互功能。

语音技术合作伙伴—阿里云TTS

STA业务打造的虚拟主播与虚拟客服，都离不开语音合成技术TTS的支持。企业对市面上提供TTS服务的公司进行调研对比后，选择了阿里云TTS作为合作伙伴。企业通过与阿里云TTS的合作，为数字人角色搭建了真实自然的语音模型，并陆续在进行更深层次的技术合作。

STA算法流程

下图所示为STA（Speech-to-Animation）算法流程示意图。企业将文本数据与语音数据共同作为算法数据导入算法模块中，算法将会对语音数据中的情绪及语速等因素进行分析，以此合成出数字人说话的口型、发音及与用户的对话情景等数据，通过分析出的数据驱动数字人表现出自然生动的画面。

图形合成模块

企业经过一系列探索，目前已拥有了完备的数字人表现及部署方案。从3D卡通形象到高精度虚拟人形象企业均可提供良好的塑造技术支持。企业可以使用不同的虚拟人物完成不同业务场景下对虚拟人物的需求，包括且不限于支持智能手机、终端及大屏上数字人的问答业务、支持云渲染实现高质量视频合成等业务场景。

照片级人像合成技术

企业由SIGGRAPH大会论文成果设计实现的照片级人像合成技术效果如下图所示。使用者在左侧输入表情时，右侧的目标照片上的人物可以实时做出惟妙惟肖的表情。该技术能非常细腻地合成人物脸上每处细节（如法令纹、牙齿等），使观看者感受到照片像现实人物一样在做动作。

该技术背后为企业基于生成对抗网络所开发的技术架构。由于生成对抗网络技术最大的难点在于它生成的结果的不可控性，考虑到数字人场景需要极其精准掌控人物的发音状态表现，开发团队创新性的构建了两个阶段的人像合成算法架构。算法首先通过三维的数据重建与数据理解将图像变形到开发团队预设的表情上，之后算法通过生成对抗网络技术对虚拟人物在细节上进行修补与还原。在这种方案下，生成对抗网络本身可以专注于人物细节的修补，免去了其处理图片形变与位移所需的精力，使算法可以良好的控制虚拟人物表情变化，真实的还原人物细节。

下图为企业照片级人像合成技术的效果。左上方在人在做一些表情，来控制其他照片，使这五张照片也可以合成出非常真实的表情，包括牙齿、嘴巴内部、法令纹等细节都能合成得非常真实，很难判别出真假。

虚拟主播案例

目前AI数字人技术不仅可以在高精度虚拟人物合成场景中进行应用，同时也多样型的数字人解决方案开始在各行各业的业务场景中落地提供相应服务。下图所示为企业基于AI数字人技术设计开发的虚拟主播应用案例。对于报社、电视台及媒体等业务方而言，虚拟主播技术很好的满足了业务方在自动化视频生成、媒体内容生成方面的业务需求，成为了融媒体时代新闻媒体的传媒利器。同时虚拟主播技术也被应用于新媒体之中，业务方通过打造公司专属的虚拟主播形象既可以实现与观众的情感互动也保证了公司本身的传媒影响力，避免了出现以往公众影响力集中在新闻主播身上的情况。

虚拟机器人案例

企业在具有将强的互动性虚拟机器人和互动助手在技术上也在进行相关探索。通过STA技术，企业将虚拟人物与问答系统整合。在用户使用系统进行交互时，系统将展现出更为具象的虚拟人物进行交流互动。比如公司通过与汽车企业合作研制的车机虚拟助手目前已实现量产车上的部署。公司同时积极探索数字人技术在线下场景中的应用，通过在银行大厅、地铁售票处、医院、法庭及企业展厅中部署AI数字人系统。同时公司可以实现让智能音箱升级为具有具像化形象的智能系统。公司为不同业务的用户群体提供了更为高效便利的咨询服务及良好的交互体验。