破解零售“不可能三角”，京东给出了技术新解法

零售的本质，围绕成本、效率和体验展开。当以大模型为代表的人工智能时代来临，并从狂飙的“百模大战”走向理性的“落地为王”，原本存在于零售行业难以平衡“不可能三角”，便有了新的解法。

九数算法中台，这一锤炼于京东内部高并发、高复杂协同零售场景的MaaS工具，支持传统模型和大模型训练。现已对接京东言犀大模型等多个开源模型，秉承“多云多模、端云协同”理念，持续深耕技术，旨在推动零售电商场景降低成本、提升效率、优化体验。

2023年京东11.11，九数算法中台及其上的一批模型应用获得大规模实操机会，算力方面实现千卡级别分布式调度，为800+电商业务提供核心算法服务，实现亿级用户及商品理解建模。

高效算力智能调度：实现资源分配“最优解” 降低算力成本

算力，是大模型实现价值跃升的重要“赛点”。但大模型落地过程中，仍面临算力需求指数级增长、算力成本高、异构复杂度高、跨域多维调度等挑战。因此，实现算力统一高效、低成本调度，尤为关键。

淬炼于京东零售业务的九数算法中台，在底层算力层面，建设新一代异构跨域智能算力调度系统，进行算力资源调度的精细化管控，实现算力资源分配的近似“最优解”，助力零售算法算力降低成本。

这一技术架构，从算法任务全周期的五个阶段进行优化，覆盖动态队列、多维感知、调度决策、高效执行、智能归因，不仅将最远相距2千公里的多个机房算力统一为算力集群，实现跨域调度和资源高效匹配，还通过GPU算子化、算子融合、IO优化、RDMA等技术，系统优化计算任务，极致压榨硬件性能，使GPU利用率提升1倍，大幅缩减算力成本。

多模：高效微调“开箱即用” 提升业务效率

经历了技术爬坡的大模型，如今正走向应用落地，表现出推动产业数智升级的巨大潜力。但应用之路并非想象中顺利，大模型时常出现“幻觉”、时效性差、专业知识不足、数据安全等问题还有待攻克。

针对上述问题，九数算法中台着力构建一整套完善的大模型应用能力框架，支持高性能高速微调和RAG知识检索技术，大幅提升模型训练效率，解决复杂程度各异的业务问题，致力于提供更好的服务体验。

以SFT（高效微调）技术解决单步简单业务问题。比如当用户询问“苹果手机有哪些基础功能”时， SFT技术可基于预训练基座模型，使用零售电商垂直领域的数据对大模型进行微调，得到具有该特定业务领域知识的垂直大模型，进而回答用户咨询。

目前，九数算法中台集成包括言犀大模型在内的多个主流LLM模型，自研9N-SFT框架，统一模型的样本标准、训练模式等，实现一份样本和配置可以在多个模型间随意切换。通俗地说，多个主流LLM模型经过算法工程师一一配置，可在九数的环境下实现“开箱即用”，让大模型在调用时“试得更快”，较纯开源代码性能提升约40%。这一自研框架现已应用于京东内部多个业务，实现SFT技术的低成本应用。

以RAG（检索增强生成）技术处理相对固定流程复杂业务问题。具体到零售场景中，无论是来自C端用户的商品咨询，还是来自B端商家的平台入驻咨询，对时效性、专业度、准确性要求都更高，还需要大模型具备多轮对话的理解能力。RAG+LLM技术可以充分发挥人工智能结合上下文语义理解的能力，为用户提供更优质的体验。

具体来说，RAG技术由索引、检索、生成三大组件构成，通过LangChain实现大语言模型和外部知识库的连接。比如当用户询问“某两款不同品牌手机有什么不同时”时，RAG技术通过索引，为大模型“外挂”两款手机不同参数、不同属性数据、最新热门趋势等知识库，通过检索技术在商品知识库中找到准确的商品参数等信息，通过大模型生成能力对比两款手机在哪些重要维度有所不同，高效、精准地向用户输出两款手机差异性。

面向未来，九数算法中台致力于实现“基于意图的结果指定”这一全新的产品交互方式，通过AI Agent（智能体）为用户提供服务，以更高智能化的方式解决更复杂的业务问题。

端云协同：大模型“轻量部署” 优化用户体验

无疑，大模型应用落地对本地计算呈现出指数级增长需求，如果将全部计算交由云计算进行集中式处理，并不现实。更合理的路径是，既要充分发挥云计算优势，又要调动端计算的敏捷性，激活“端云协同”。在这一背景下，大小模型的端云协同变得更具现实意义。

京东判断，大小模型协同将是未来大模型技术落地的重要路径。一方面，大模型负责输出通用能力，小模型负责实际推理执行，不仅提升系统的覆盖度和准确率，亦可降低推理延时、保证隐私数据安全；另一方面，小模型可为大模型反馈数据，进一步促进大模型的优化和提升，实现大小模型协同进阶。

九数算法中台打造端云协同的AI技术体系，将AI模型放置于手机端，在交互全链路中提供AI能力，更加实时快捷地理解用户诉求，并且进行实时的计算，提升全链路用户交互体验，优化业务目标预测。技术实现方面，通过pythonVM兼容主流操作系统及95%以上机型；基于自研高效推理引擎与多种压缩编译技术并行，推动大模型轻量化发展；更通过大小模型协同训练达到一次训练即可云端通用，实现全链路智能化效果提升。

目前，九数算法中台正探索端智能技术的两个核心应用场景：一是搜推场景中，搜索推荐业务对时延性要求极高，且使用越实时的数据对模型效果提升越大。利用端云协同，可以基于端上用户最实时的数据，向用户推荐更加准确的商品。二是数据安全中，端智能计算结构天然具备数据隔离的作用，确保敏感数据不上传，保障数据安全性。

这一端智能技术还将应用于更多场景。例如，优化快递小哥体验将快递员装车检查从云端检测迁移至手机端检测，即便在弱网环境下，也可保证系统响应速度，提升操作体验。

未来，京东还将持续深耕技术，结合零售电商领域的数智化经验，持续推动大模型走向行业深处。

延伸阅读：关于京东云vGPU池化方案

面向大模型时代的数智算力需求，京东云依托自研混合多云多集群调度操作系统云舰，推出了vGPU池化方案，通过GPU异构资源池化，提高了AI运行效率，降低了成本，具有非常显著的优势和实际应用价值。vGPU池化方案能够提供一站式GPU算力池化能力，将分散的GPU资源集中管理和调度，使得GPU利用率最高可提升70%。