Loading...

通过多模态人工智能增强“自助结账”技术 机器学习博客

2026-01-27 14:59:24

优化 Just Walk Out 技术与多模态 AI

关键要点

在这篇文章中,我们将探讨 Amazon 在 2018 年推出的 Just Walk Out 技术,以及其如何通过引入多模态基础模型来提升购物体验。该技术使顾客可以在无需排队的情况下进入商店、选择商品并离开。目前,这项结账免排队的技术在全球 180 多个第三方地点得到了广泛应用。

新一代的 Just Walk Out 技术借助于多模态 AI,不仅提高了销售收据的准确性,还降低了成本。同时,系统的持续学习能力使其能够适应不断变化的购物环境。

自 2018 年推出以来,Just Walk Out 技术改变了购物体验,顾客可以直接进入商店,挑选商品,然后不用排队就能离开。目前,这种免结账排队的技术已在全球 180 多个第三方场所广泛应用,包括旅行零售商、体育场馆、娱乐场所、会议中心、主题公园、便利店、医院和大学校园。Just Walk Out 技术的端到端系统能够自动识别顾客在商店选择的商品,并提供电子收据,从而消除了结账排队的需要。

在本文中,我们展示了 Amazon 最新一代的 Just Walk Out 技术,该技术由一个多模态基础模型FM提供支持。我们为实体商店设计的这个多模态 FM 采用了类似于许多生成性人工智能AI应用的变换器架构。该模型将帮助零售商利用来自多个输入的数据显示高度准确的购物收据,包括悬挂视频监控摄像头网络、货架上的专业重量传感器、数字平面图以及商品目录图像。简单来说,多模态模型意味着使用来自多种输入的数据。

我们在最先进的多模态 FMs 上的研发投资,使 Just Walk Out 系统能够以更高的准确性和更低的成本在各种购物场景中部署。新系统与大型语言模型 (LLMs) 类似,旨在为每位访问商店的顾客生成准确的销售收据。

挑战:应对复杂的长尾购物场景

由于其创新的免结账环境,Just Walk Out 商店给我们带来了独特的技术挑战。零售商、顾客以及 Amazon 都几乎要求 100 的结账准确性,甚至在最复杂的购物情况下。这些情况包括非同寻常的购物行为,可能导致需要额外分析的漫长复杂行为序列。

以往的 Just Walk Out 系统采用模块化架构;它通过将顾客的访问过程分解为离散任务来应对复杂的购物情境,比如检测顾客交互、跟踪商品、识别产品,以及统计选购的商品。这些单独组件被集成到顺序流水线中,以实现整体系统功能。尽管这种方法产生了高度准确的收据,但在面对新出现的情况和复杂的购物场景时需要大量的工程努力。这一局限性限制了该方法的可扩展性。

解决方案:Just Walk Out 多模态 AI

为了解决这些挑战,我们推出了专门为零售商店环境设计的新多模态 FM,使 Just Walk Out 技术能够处理复杂的现实购物场景。新的多模态 FM 进一步增强了 Just Walk Out 系统的能力,更有效地推广至新商店格式、产品和顾客行为,这对扩展 Just Walk Out 技术至关重要。

免费海外加速器推荐

持续学习的引入使得模型在遇到新的困难场景时能够自动适应并学习。这一自我改善的能力有助于确保系统在购物环境不断演变的情况下维持高性能。

通过这种端到端学习与增强泛化能力的结合,Just Walk Out 系统能够应对更广泛的动态和复杂的零售环境。零售商可以放心地部署这一技术,因为它能够为顾客提供无缝的免排队结账体验。

以下视频展示了我们系统架构的运行情况。

Just Walk Out 多模态 AI 模型的关键要素包括:

关键要素说明灵活的数据输入系统追踪用户如何与商品和设备如货架或冰箱互动。它主要依赖于多视角视频信号作为输入,使用重量传感器仅跟踪小型商品。模型维护商店的数字三维表示,并能通过目录图像识别商品,即使顾客将商品错误放回货架。多模态 AI 令牌表示顾客旅程多模态数据输入由编码器处理,将其压缩为变换器令牌,作为收据模型的基本输入单元。这使得模型能够快速、准确地解释手的运动、区分商品及统计拿起或放回货架的商品数量。持续更新收据系统使用令牌为每位顾客生成电子收据。它能够区分不同的顾客会话,并在顾客拿起或放回商品时动态更新每一张收据。

培训 Just Walk Out FM

通过向 Just Walk Out FM 输入大量的多模态数据,我们发现它能够稳定生成或准确地“预测”客户的收据。为了提高准确性,我们设计了 10 多个辅助任务,例如检测、跟踪、图像分割、定位将抽象概念与现实世界中的物体关联和活动识别。所有这些任务都在一个模型内学习,增强了模型处理新、前所未见的商店格式、产品和顾客行为的能力。这对将 Just Walk Out 技术推广至新地点至关重要。

AI 模型训练,即将精选数据输入到选定算法中,帮助系统自我优化以产生准确结果。我们快速发现,可以通过使用 数据飞轮 加速模型的训练,该飞轮持续挖掘和标记高质量数据,形成自我强化的循环。系统设计用于以最小的人工干预集成这些逐步改进。下图说明了这个过程。

为了有效地训练 FM,我们投资于一个强大的基础设施,可以高效处理训练高容量神经网络所需的大量数据。我们利用多种 Amazon Web Services (AWS) 服务构建了 Just Walk Out 模型基础设施,包括用于数据存储的 Amazon Simple Storage Service (Amazon S3) 和用于训练的 Amazon SageMaker。

以下是培训我们的 FM 中的一些关键步骤:

步骤描述选择具有挑战性的数据源为我们的 Just Walk Out 技术训练 AI 模型,我们专注于来自特别困难购物场景的训练数据,这些情形考验模型的极限。尽管这些复杂案例仅占购物数据的一小部分,但它们对帮助模型从错误中学习最为重要。利用自动标记为了提高运营效率,我们开发了可以自动为数据附加有意义标签的算法和模型。除了收据预测外,我们的自动标记算法还涵盖了辅助任务,确保模型获得全面的多模态理解和推理能力。预训练模型我们的 FM 在跨越多种任务的广泛多模态数据集上进行预训练,这增强了模型对从未遭遇的新商店环境的泛化能力。微调模型最后,我们进一步精细化模型,并使用量化技术创建一个更小、更高效的模型,以便利用 边缘计算。

随着数据飞轮的持续运转,它会逐步识别并整合更多高质量的挑战性案例,以检测模型的鲁棒性。这些额外的困难样本随后被输入到训练集中,进一步提升模型在新实体商店环境中的准确性和适用性。

结论

在这篇文章中,我们展示了我们的多模态 AI 系统为 Just Walk Out 技术带来的显著新可能。通过我们创新的方法,我们正在摆脱依赖人工定义的子组件和接口的模块化 AI 系统。相反,我们正在构建更简单、更具可扩展性的 AI 系统,能够进行端到端训练。尽管我们仅仅触及了表面,但多模态 AI 已将我们已经高度准确的收据系统提升到一个新高度,并将使我们能够改善更多 Just Walk Out 技术商店的购物体验。

访问 关于 Amazon 阅读有关新多模态 AI 系统的官方公告,并了解 Just Walk Out 技术的最新改进。

通过多模态人工智能增强“自助结账”技术 机器学习博客

要找到 Just Walk Out 技术的位置,请访问 您附近的 Just Walk Out 技术位置。要了解如何使用 Amazon 的 Just Walk Out 技术为您的商店或场所提供服务,请查看 Just Walk Out 技术 产品页面。

访问 在 AWS 上构建和扩展下一波 AI 创新 以了解更多关于 AWS 如何通过最全面的 AI 和 ML 服务重新定义客户体验的信息。

关于作者

Tian Lan 是 AWS 的首席科学家,负责推进下一代 Just Walk Out 20 技术的研究工作,将其转变为一个以商店为中心的端到端学习的多模态基础模型。

Chris Broaddus 是 AWS 的高级经理,目前管理所有 Just Walk Out 技术的研究工作,包括多模态 AI 模型及其他项目,如人类姿态估计和射频识别 (RFID) 收据预测。

评论加载中

让我们来设计架构吧!软件架构中的安全性 架构博客
让我们来设计架构吧!软件架构中的安全性 架构博客

软件架构中的安全性关键要点在构建软件产品和服务时,安全性至关重要。无论您是在后端还是数据与机器学习组件上工作,解决方案都应该以安全的方式构建。本文深入探讨了云工作负载的安全实践,介绍了“零信任”原则,...