AI领域再获国际赛事冠军 京东云以自研技术扎实布局产业AI

  •   2022-11-14/15:32
  • 近日,京东云旗下言犀在国际上影响力最广泛的任务型对话数据集MultiWOZ上以103.4的分数斩获端到端任务型对话生成排行榜第一。

    MultiWOZ数据集端到端任务型对话回复生成榜单(榜单自下而上)

    超大规模客户服务实践锤炼 言犀算法挑战高难度任务型对话

    MultiWOZ数据集是国际上影响力最广泛的任务型对话数据集,由剑桥大学提出,聚焦大规模多领域多轮次的任务型对话,数据集包含从旅游城市信息中心获取的游客和职员之间高度自然的对话,并考虑了多种可能的对话场景,从询问有关景点的基本信息到预订餐馆旅店等丰富情景。其中,70%的对话是包括2-5个领域的多领域对话,是自然语言处理领域最经典,挑战性最高的数据集之一。

    由于其具有挑战性的设置,MultiWOZ任务型对话数据集一经发布吸引了全球众多高校和科研机构的参与,包括来自清华大学,香港科技大学,微软研究院,亚马逊,DeepMind以及Salesforce等多个研究小组。

    言犀本次参与的是端到端任务型对话生成任务。该任务需要首先通过用户对话识别用户意图,生成对话状态;基于生成的对话状态查询数据库,实现实体匹配;根据查询数据库结果生成相应的系统对话策略,最后提供满足用户目标的自然语言回复。例如下图中,对话系统首先需要理解用户的对话意图,包括列车领域的出发地、目的地、到达时间以及餐馆领域的菜系、餐馆区域等信息,最后提供给用户满足条件的列车车次以及餐馆名称并完成餐馆预订。

    本次言犀团队提出的Mars模型,创新性地利用语义感知的对比学习方法来增强对话上下文表征与对话状态和对话策略之间的关系建模,从而使对话系统更好地完成任务。除了总评分,Mars模型在三个分项评价指标Inform, Success和BLEU也分别以89.9、78.0、19.9排名第一。

    这一成果是基于京东言犀在任务型对话生成方面的丰富实践。作为业内首个大规模商用的智能客服系统,言犀已支撑了京东客户服务全链条和全生命周期,日均生成1000万对话,服务京东5.8亿用户和17.8万商家。

    扎实推进产业AI 基于数智供应链广泛布局AIGC赛道

    2022年被称为AIGC(AI Generated Content)元年,生成内容也从单一的文本、对话生成扩展到了语音、代码、图像、视频、数字人、数字孪生等领域。作为一家新型实体企业,京东云旗下言犀坚持产业AI的推进路线,旨在将前沿的AI技术与数智供应链上广阔的产业相结合,进行融合创新,带来真正意义上的产业价值。

    在文本生成领域,言犀目前可以实现短文、长文的生成,依靠领域性大模型K-PLUG,可以实现短文本和长文本的自动生成。目前言犀商品文案生成模型已经覆盖了京东的3000多个三级品类,累计生成文案30亿字,应用于京东发现好货频道、搭配购、AI直播带货等,累计带来超过3亿元GMV。

    在语音生成领域,言犀使用基于端到端网络结构的声学模型,对于音调,音量,时长等信息进行了显式建模,同时使用了基于对抗神经网络的神经网络声码器,可以合成非常自然的并且高质量的语音。言犀语音合成技术大幅降低了语音合成模型对于训练数据的依赖,只需要30分钟训练数据可以生成定制化精品音色,同时只需要10句话就可以实现高质量的小样本音色克隆。

    除外,言犀语音团队还推出了“语音编辑”的功能,让用户可以直接通过编辑文本进行音频内容的编辑操作,支持音频内容的删除、修改和插入三种常见操作,编辑区域的韵律保持和上下文一致,并且编辑边界过度平滑,编辑之后的音频可达到原音频音质。目前言犀语音合成API日均调用量超过20亿次,支持中文、英文、泰语,广东话、成都话等各类方言、音色。

    在数字人生成领域,言犀面部动作方面通过自研的3DNeuralRender神经渲染器,可以高保真地合成主播面部细节。动作上,言犀研发的动作合成方案,基于RIFE插帧多插入点的快速动作过渡,可以让数字人的动作更加流畅自然;互动中,2D及超写实、高精度3D数字员工驱动方案,可以实现音唇精准同步。作为AIGC的集大成者,言犀目前拥有100+数字人形象,广泛的应用于政务、金融、零售直播等领域。

    在数字孪生领域,京东云利用数字孪生技术对产线和制造工艺进行仿真优化,缩减现实世界中的调优试错环节,进而降低产业成本,提升产业效率。

    未来,京东云将秉承开放共生的理念,将“更懂产业”践行到底,将“产业AI”扎根到底,激发更多的新模式、新业态,为各行业的高质量发展注入新动能。

    参考文献

    Haipeng Sun, Junwei Bao, Youzheng Wu, and Xiaodong He.Mars: Semantic-aware Contrastive Learning for End-to-End Task-Oriented Dialog


    评论 {{userinfo.comments}}

    {{money}}

    {{question.question}}

    A {{question.A}}
    B {{question.B}}
    C {{question.C}}
    D {{question.D}}
    提交

    驱动号 更多