YOLO-NAS姿态简介:姿态估计技术的飞跃

news/2024/7/11 0:59:57 标签: YOLO

文 | BFT机器人 

图片

YOLO-NAS姿态模型是对姿态估计领域的最新贡献。今年早些时候,Deci凭借其开创性的物体检测基础模型YOLO-NAS获得了广泛认可。在YOLO-NAS成功的基础上,该公司现在推出了YOLO-NAS Pose作为其姿态估计的对应产品,这种姿势模型在延迟和准确性之间提供了很好的平衡。

图片

YOLO-NAS姿势

姿态估计在计算机视觉中起着至关重要的作用,涵盖了广泛的重要应用。这些应用包括监测医疗保健中的患者运动、分析运动员在运动中的表现、创建无缝的人机界面以及改进机器人系统。

01

YOLO-NAS姿态模型架构

2.1 基于规划空间的分类及特点

传统的姿态估计模型遵循以下两种方法之一:

  1. 检测场景中的所有人物,然后估计其关键点并创建姿势,自上而下的两阶段过程;

  2. 检测场景中的所有关键点,然后生成姿势,自下而上的两阶段过程。

YOLO-NAS Pose与传统的Pose Estimation模型相比,其工作方式有所不同。它不是先检测人,然后估计他们的姿势,而是可以在一个步骤中同时检测和估计人及其姿势。

图片

YOLO-NASPose架构–骨干和颈部设计

姿势模型建立在YOLO-NAS目标检测架构之上,目标检测模型和姿态估计模型具有相同的脊柱和颈部设计,但头部不同。YOLO-NAS Pose的头部专为其多任务目标而设计,即检测单个类别的物体(如人或动物)并估计物体的姿势。

图片

YOLO-NAS Pose架构–头部设计

这种令人印象深刻的组合是Deci专有的神经架构搜索(NAS)引擎AutoNAC的结果,它在广阔的架构搜索空间中导航并返回最佳架构设计。以下是搜索的超参数:

  • 姿势和框回归路径的Conv-BN-Relu块数;

  • 两条路径的中间通道数;

  • 在姿势/框回归的共享词干或不同词干之间做出决定。

YOLO-NASPose模型在COCOVal2017数据集上进行评估,该模型的准确性和延迟是最先进的。nano模型速度最快,在T4GPU上达到高达425fps的推理速度,同时大模型可以达到113fps。

图片

COCOVal2017数据集上的YOLO-NAS姿态评估

02

YOLO-NAS与YOLOv8姿势

2.1 基于规划空间的分类及特点

下图是YOLO-NAS Pose和YOLOv8Pose模型的精度延迟权衡。这个空间也被称为效率前沿。所有模型均在COCOVal2017数据集和英特尔至强第四代CPU上进行评估,具有1个批处理大小和16位浮点运算。

图片

YOLO-NAS姿势与YOLOv8姿势高效前沿图

所有YOLO-NAS Pose模型的精度都高于YOLOv8 Pose模型,这可以被认可到AutoNAC的头部设计中,具体的细节是:

  • 较小的YOLO-NAS Pose模型,即nano和small,虽然精度更高,但比YOLOv8Pose模型慢。

  • 较大的YOLO-NAS Pose型号,如中型和大型,在准确性和延迟方面都更好。

03

姿势模型是如何训练的?

2.1 基于规划空间的分类及特点

YOLO-NAS姿态损失功能

为了确保模型有效地学习这两个任务,Deci改进了训练中使用的损失函数。我们不仅考虑了分配框的IoU(交集与并集)分数,还合并了对象关键点相似性(OKS)分数,该分数将预测的关键点与实际的关键点进行比较,此更改鼓励模型对边界框和姿态估计进行准确预测。

此外,还采用了直接OKS回归技术,超越了传统的L1/L2损失方法,这种方法具有以下几个优点:

  • 它在0到1的范围内运行,类似于框IoU,表示姿势的相似程度。

  • 它考虑了注释特定关键点的不同难度,每个关键点都与唯一的sigma分数相关联,该分数反映了注释和数据集细节的准确性,分数决定了模型因做出不准确的预测而受到的惩罚程度。

  • 使用与验证指标一致的损失函数,这反过来又允许对指标进行定位和优化。

图片

YOLO-NAS姿态估计

训练超参数

由于YOLO-NAS Pose采用了与YOLO-NAS模型类似的基础结构,因此在进行最终训练之前,使用YOLO-NAS的预训练权重来初始化模型的骨架和颈部。以下是训练超参数:

  • 训练硬件:使用了8个NVIDIAGeForceRTX3090GPU和PyTorch2.0。

  • 培训计划:培训进行了长达1000个epoch,如果在过去100个epoch中表现没有改善,则提前停止。

  • 优化器:采用具有余弦LR(学习率)衰减的AdamW,在训练结束时将LR降低0.05倍。

  • 权重衰减:应用了0.000001的权重衰减因子,不包括偏差层和BatchNorm层。

  • EMA(指数移动平均线)衰减:使用50的beta因子进行EMA衰减。

  • 图像分辨率:图像经过处理后,最大边长为640像素,填充分辨率为640×640,填充颜色为(127,127,127)。

若您对该文章内容有任何疑问,请与我们联系,我们将及时回应。


http://www.niftyadmin.cn/n/5295370.html

相关文章

数据结构学习 Leetcode356 俄罗斯套信封

关键词:动态规划 最长递增子序列 贪心 二分查找 其实就是最长递增子序列。比较难的是需要理解题目用并想起来用这个方法。 可以看看这位大神写的方法,循序渐进,我觉得很好。 里面提到的四种方法的总结就是: 第一种方法就是降维…

Java进阶(第八期): Java中递归的的使用和递归解决一些算法问题 Java中的异常机制、异常的处理逻辑 自定义异常

文章目录 一、递归1.1 递归的介绍1.2 递归的简单练习1.3 图解递归执行流程:1.4 使用递归完成悲波那契数列1.5 猴子吃桃子问题 二、异常三 、异常的处理逻辑3.1 try catch 捕获异常3.2 throws抛出异常 四、自定义异常 Java进阶(第八期) 一、递…

数据治理:释放数据价值的关键

随着数字化时代的到来,数据已成为组织和企业最重要的资产之一。然而,数据的快速增长和复杂性也给数据管理带来了巨大的挑战。为了确保数据的质量、安全性和合规性,数据治理已成为组织和企业必须面对的重要问题。数据治理是数据要素市场建设的…

100天精通风控建模(原理+Python实现)——第12天:风控建模中的相关系数分析是什么?怎么实现?

风控模型已在各大银行和公司都实际运用于业务,用于营销和风险控制等。本文以视频的形式阐述风控建模中相关系数分析是什么,怎么实现。并提供风控建模原理和Python实现文章清单。    之前已经阐述了100天精通风控建模(原理+Python实现)——第1天:什么是风控建模?    100…

泽攸科技PECVD设备助力开发新型石墨烯生物传感器

近日,松山湖材料实验室许智团队与清华大学符汪洋合作在纳米领域头部期刊《Small》上发表了一项引人注目的研究成果,题为“Ultrasensitive biochemical sensing platform enabled by directly grown graphene on insulator”(硅晶圆上直接生长…

go与c对比

Go语言(Golang)与C/C语言在多个方面有显著的区别,这些区别反映在它们的设计哲学、语言特性和适用场景上。下面是Go与C/C的一些主要区别和它们各自的应用领域: Go与C/C的区别 语言简洁性 Go:设计上更简洁和清晰。它消除…

docker常用组合命令

docker常用组合命令 删除标签为none的镜像 docker images | grep "<none>" | awk {print $3} | xargs docker rmi删除所有镜像 docker rmi -f $(docker images -aq)以容器方式启动镜像 肯定能启动 docker run -it --rm --entrypoint bash 镜像名进入容器 …

【前端面经】即时设计

目录 前言一面git 常见命令跨窗口通信vue 响应式原理发布订阅模式翻转二叉树Promise.all()扁平化数组面试官建议 二面Event Loop 原理Promise 相关css 描边方式requestAnimationReact 18 新特性JSX 相关react 输出两次函数式编程React 批处理机制http请求头有哪些本地存储性能优…