AI生产力拉满！言犀公布最新语音合成及数字人大模型进展

在新一波的技术浪潮中，大语言模型风头正劲，但还有一种AI技术，正在配音、直播、客服等多个行业正发挥出越来越广泛的应用。2月18日，京东言犀公布了两项最新技术成果——语音合成大模型LiveTTS及通用数字人大模型2.0，支持zero-shot音色复刻和精品音色微调，并支持更精准的数字人声唇对齐，将大幅提升人机自然交互体验，目前已针对直播、外呼、客服、营销等超10种特定商业化场景完成调优适配。技术降本带来用户体验跃升，预计也将带动更多AI营销服务增量市场。

语音合成大模型全新升级支持zero-shot音色复刻和精品音色微调

LiveTTS，是京东言犀最新发布的高仿真、多语言、情感丰富的语音合成（TTS）大模型，通过AI 技术生成自然、具备韵律且富有情感的语音。现在，只需喂给LiveTTS模型最短3秒音频素材，就能支持zero-shot音色复刻以及精品音色微调，近乎完美的对声音进行复刻。

这得益于基于Diffusion架构完成的20万小时数据"熔炼"。在SeedTTS test-hard测试中，其CER指标（字符错误率）较其他头部厂商模型降低了0.2%-5.12%不等，相当于每万字最多能减少512处发音失误。在主观评价上，通过盲评的MOS评测，该模型尤其在音色相似度、自然清晰度、情感表达一致性方面表现出色，音色相似度较其他头部厂商模型高出1.3倍。

从语音准确性上，言犀结合中文拼音与英文音素双输入系统，提升了发音准确性，让技术更可用。从仿真度上，采用高质量的HiFt声码器，实现超98%的声纹还原精度。

大量的实时、多样性语音数据加入训练，也进一步提升了模型的泛化能力，让模型能够在不同音频提示词（prompt）的条件下合成韵律丰富、自然的音频，更加易用。LiveTTS已经能适配从儿童俏皮声到老年人沉稳语调的多样化需求，还支持中/英/日等多语种及方言的语音合成。

极低门槛、极致拟真、极多场景，是言犀LiveTTS语音合成大模型的优势。基于LiveTTS打造的言犀数字人，支持近百个不同风格音色，形成围绕直播场景需求的声音供应链。2024年京东11.11期间，言犀TTS单日调用超1000万次，成本直降90%，大大提升直播、配音、外呼等行业的工作效率。

数字人大模型实现精准声唇同步造就AI生产力

言犀数字人已广泛应用在电商直播、客服接待、短视频等场景中，光是使用数字人日常开播的商家就有超过7500家。但数字人向更大范围的规模化应用始终存在三个难点：形象数据采集成本高、模型训练周期长和推理效果难泛化。

为了解决这些问题，言犀团队提出了新一代声唇同步数字人基座模型，通过创新的多阶段基模型训练方法、多图参考的多层注意力机制等方法。这一亿级参数量的声唇同步基座模型，进一步拓展了数字人在遮挡、大角度、多语速、跨音色和多语言等场景的应用。目前，在动态背景、多人直播等真实应用场景里，言犀数字人的唇形匹配度仍达到95%，具备较好的泛化能力，在各种场景中更可用，更易用。

在新一代数字人基座大模型支持下，仅需一张带人像的图片或短视频、一份商品链接，言犀就可以自动生成流畅丰富的带货脚本，结合LiveTTS生成情绪化口播，数字人便栩栩如生“活”起来。这种模式，告别了传统、冗长的数字人模型训练流程，实现直接推理，既省去了训练成本，还进一步扩展了数字人在视频翻译等低数据量场景的应用边界。

除了直播外，平台还能支持输出数十条不同风格的数字人种草短视频。整个过程从过往的至少72小时压缩至分钟级，成本仅为传统数字人制作的十分之一，进一步实现技术降本。

言犀最新发布的两项技术成果，并非单纯的技术跑分竞赛，而是旨在进一步降低AI应用的成本，新一代的语音合成LiveTTS模型及数字人大模型2.0，正在短视频合成、数字人直播、视频翻译、数字人唱歌跳舞等多个商业化场景中应用，让大模型变成商家人手必备的普惠工具。

作为品牌的AI营销搭子，言犀将不断开发出更多支持营销场景的技术与产品，进一步降低中小商家应用门槛，加速AI生产力走进营销场景。