Ultralytics(YoloV8)开发环境配置,训练,模型转换,部署全流程测试记录

news/2024/7/10 23:58:43 标签: YOLO, Ultralytics, TensorRT, docker

关键词:windows docker tensorRT Ultralytics YoloV8

配置开发环境的方法:

1.Windows的虚拟机上配置:

Python3.10
使用Ultralytics 可以得到pt onnx,但无法转为engine,找不到GPU,手动转也不行,找不到GPU。这个应该是需要可以支持硬件虚拟化的GPU,才能在虚拟机中使用GPU。

2.Windows 上配置:

Python3.10
Cuda 12.1
Cudnn 8.9.4
TensorRT-8.6.1.6
使用Ultralytics 可以得到pt onnx,但无法转为engine,需要手动转换。这个实际上是跑通了的。

3.Docker中的配置(推荐)

Windows上的docker
使用的是Nvidia配置好环境的docker,包括tensorflow,nvcc,等。

启动镜像:

docker run --shm-size 8G --gpus all -it --rm tensorflow/tensorflow:latest-gpu

docker上安装libgl,Ultralytics等。

apt-get update && apt-get install libgl1
pip install ultralytics
pip install nvidia-tensorrt

然后进行提交,重新生成一个新的镜像文件:

在这里插入图片描述
如果不进行提交,则刚才安装的所有软件包,在重启以后就会丢失,需要重新再装一遍。

docker desktop中可以看到所有的镜像

在这里插入图片描述
后续启动镜像可以使用

docker run --shm-size 8G --gpus all -it --rm yolov8:2.0

–shm-size 8G 一定要有,否则在dataloader阶段会报错,如下所示:
在这里插入图片描述
为了搜索引擎可以识别到这篇文章,将内容打出来:
RuntimeError: DataLoader worker (pid 181032) is killed by signal: Bus error. It is possible that dataloader’s workers are out of shared memory. Please try to raise your shared memory limit

更加详细的介绍,可以参考:https://blog.csdn.net/zywvvd/article/details/110647825

新生成的镜像,可以进行打包,在离线环境中使用。

docker save yolov8:2.0 |gzip > yolov8.tar.gz

将生成的镜像拷贝到离线环境,

docker  load  < yolov8.tar.gz

ultralytics 快速上手

参考:https://docs.ultralytics.com/modes/
官网的介绍很详细,按照指引,基本上可以配置成功。

模型训练:

def train():

    #model = YOLO("yolov8n.yaml")  # build a new model from scratch
    model = YOLO("yolov8n.pt")  # load a pretrained model (recommended for training)

    model.train(data="coco128.yaml", epochs=3,batch=8)  # train the model

    metrics = model.val()  # evaluate model performance on the validation set
    #results = model("https://ultralytics.com/images/bus.jpg")  # predict on an image

    path = model.export(format="onnx")  # export the model to ONNX format

模型转换:

def eval():
    model = YOLO("best.pt")  # load a pretrained model (recommended for training)
    model.export(format="engine",device=0,simplify=True)
    model.export(format="onnx", simplify=True)  # export the model to onnx format

此时在目录下的文件如下:
在这里插入图片描述

当使用Ultralytics无法导出engine格式的文件时,需要使用tensorRT提供的trtexec进行转换。
事实上,在笔者的测试过程中,即使Ultralytics可以导出engine格式的模型,c++API的tensorrt也无法加载使用。即使python中和c++中使用的tensorRT的版本一致。
在windows平台下,我们可以使用如下的方法进行转换,可以写一个.bat脚本

@echo off
trtexec.exe --onnx=best.onnx --saveEngine=best.engine  --fp16 --workspace=2048
:end
PAUSE

对于可变尺寸,需要

@echo off

trtexec.exe --onnx=best.onnx --saveEngine=best.engine --minShapes=images:1x3x640x640 --optShapes=images:8x3x640x640 --maxShapes=images:8x3x640x640 --fp16 --workspace=2048
:end
PAUSE

使用tensorrt加载engine文件进行推理

方法1:python

Python,需要安装pycuda
直接使用

pip install pycuda

进行安装。

def engineeval():

    # 创建logger:日志记录器
    logger = trt.Logger(trt.Logger.WARNING)
    # 创建runtime并反序列化生成engine
    with open("best.engine", "rb") as f, trt.Runtime(logger) as runtime:
        engine = runtime.deserialize_cuda_engine(f.read())

    # 创建cuda流
    stream = cuda.Stream()
    # 创建context并进行推理
    with engine.create_execution_context() as context:

        # 分配CPU锁页内存和GPU显存
        h_input = cuda.pagelocked_empty(trt.volume(context.get_binding_shape(0)), dtype=np.float32)
        h_output = cuda.pagelocked_empty(trt.volume(context.get_binding_shape(1)), dtype=np.float32)
        d_input = cuda.mem_alloc(h_input.nbytes)
        d_output = cuda.mem_alloc(h_output.nbytes)

        # Transfer input data to the GPU.
        cuda.memcpy_htod_async(d_input, h_input, stream)
        # Run inference.
        context.execute_async_v2(bindings=[int(d_input), int(d_output)], stream_handle=stream.handle)
        # Transfer predictions back from the GPU.
        cuda.memcpy_dtoh_async(h_output, d_output, stream)
        # Synchronize the stream
        stream.synchronize()
        # Return the host output. 该数据等同于原始模型的输出数据

在调试界面,可以看到输入矩阵维度是1228800=13640*640
在这里插入图片描述
至于推理的精度,还需要传入实际的图像进行测试。这里就不在python环境下测试了。

方法2:c++

生产环境一般是c++,使用tensorrt c++ API进行engine文件的加载与推理,
参考:https://docs.nvidia.com/deeplearning/tensorrt/developer-guide/index.html#perform_inference_c

代码实现:

#include <iostream>
#include <fstream>

#include "NvInfer.h"

#include "cuda_runtime.h"

using namespace nvinfer1;

class Logger : public ILogger
{
	void log(Severity severity, const char* msg) noexcept override
	{
		// suppress info-level messages
		if (severity <= Severity::kWARNING)
			std::cout << msg << std::endl;
	}
};

int main()
{
	Logger gLogger;

	IRuntime* runtime = createInferRuntime(gLogger);
	std::ifstream model("best.engine", std::ios::binary);
	std::string modelString((std::istreambuf_iterator<char>(model)), std::istreambuf_iterator<char>());
	ICudaEngine* engine =
		runtime->deserializeCudaEngine(modelString.c_str(), modelString.length());

	int nNum = engine->getNbBindings();  //获取绑定的数量
	auto nDim0 = engine->getBindingDimensions(std::min(0, nNum - 1));
	auto nDim1 = engine->getBindingDimensions(std::min(1, nNum - 1));
	int nSize0 = nDim0.d[0] * nDim0.d[1] * nDim0.d[2] * nDim0.d[3];
	int nSize1 = nDim1.d[0] * nDim1.d[1] * nDim1.d[2];

	//都是浮点类型
	auto dt0 = engine->getBindingDataType(0);
	auto dt1 = engine->getBindingDataType(1);

	auto name = engine->getName();
	auto input = engine->getBindingName(0);
	auto output = engine->getBindingName(1);

	//准备输入输出空间
	auto inputBuffer = new float[nSize0];
	auto outputBuffer = new float[nSize1];
	memset(inputBuffer, 0, nSize0 * sizeof(float));
	memset(outputBuffer, 0, nSize1 * sizeof(float));
	bool ret = false;

	//创建执行上下文
	IExecutionContext* context = engine->createExecutionContext();

	//执行推理:拷贝到GPU->enqueueV3->拷贝回CPU
	if(1)
	{
		void* buffers[2];
		//Allocate GPU memory for Input / Output data
		cudaMalloc(&buffers[0], nSize0 * sizeof(float));
		cudaMalloc(&buffers[1], nSize1 * sizeof(float));

		cudaStream_t stream;
		cudaStreamCreate(&stream);

		cudaMemcpyAsync(buffers[0], inputBuffer, nSize0 * sizeof(float), cudaMemcpyHostToDevice, stream);
		
		context->setTensorAddress(input, buffers[0]);
		context->setTensorAddress(output, buffers[1]);
		ret = context->enqueueV3(stream);

		if (!ret)
			std::cout << "error" << std::endl;

		cudaMemcpyAsync(outputBuffer, buffers[1], nSize1 * sizeof(float), cudaMemcpyDeviceToHost, stream);

		cudaStreamSynchronize(stream);

		cudaStreamDestroy(stream);

		cudaFree(buffers[0]);
		cudaFree(buffers[1]);
	}

	delete[]inputBuffer;
	delete[] outputBuffer;

	std::cout << "Done!" << std::endl;

	context->destroy();
	engine->destroy();
	runtime->destroy();
	
	return 0;
}

执行结果:
在这里插入图片描述
可以看到和python端是相同的。

然后可以做一些工程化的工作,比如对c++代码封装成为一个dll。后面还需要加一些前处理和后处理的步骤,将模型的结果进行解析。


http://www.niftyadmin.cn/n/5066942.html

相关文章

微信小程序button按钮去除边框去除背景色

button边框 去除button边框 在button上添加plain“true”在css中添加button.avatar-wrapper {background: none}用于去除button背景色在css中添加button.avatar-wrapper[plain]{ border:0 }用于去除button边框

zkPoT:基于机器学习模型训练的ZKP

1. 引言 Sanjam Garg等人2023年论文 Experimenting with Zero-Knowledge Proofs of Training 中&#xff0c;所设计的zkPoT&#xff08;zero-knowledge proof of training&#xff09;协议&#xff1a; 为streaming-friendly的。所需RAM与训练电路size不呈比例。结合了MPC-in…

自然语言处理的分类

动动发财的小手&#xff0c;点个赞吧&#xff01; 简介 作为理解、生成和处理自然语言文本的有效方法&#xff0c;自然语言处理&#xff08;NLP&#xff09;的研究近年来呈现出快速传播和广泛采用。鉴于 NLP 的快速发展&#xff0c;获得该领域的概述并对其进行维护是很困难的。…

linux入门---信号的理解

目录标题 如何理解计算机中的信号如何查看计算机中的信号初步了解信号的保存和发送如何向目标进程发送信号情景一&#xff1a;使用键盘发送信号情景二&#xff1a;系统调用发送信号情景三&#xff1a;硬件异常产生信号情景四&#xff1a;软件条件产生信号 核心转储信号的两个问…

<C++> 智能指针

智能指针的使用 内存泄露问题 内存泄露是指因为疏忽或错误&#xff0c;造成程序未能释放已经不再使用的内存的情况。比如&#xff1a; #include <iostream> #include <stdexcept> using namespace std; int div() {int a, b;cin >> a >> b;if (b 0…

typscript开发环境搭建

typescript是基于javascript的强类型标记性语言&#xff0c;使用typescript语言可开发出不同规模的、易于扩展的web页面应用&#xff0c;本文主要描述typescript的开发环境搭建。 npm install -g typescript 如上所示&#xff0c;在本地开发环境中&#xff0c;使用nodejs运行…

Django 数据库迁移(Django-04)

一 数据库迁移 数据库迁移是一种数据库管理技术&#xff0c;它用于在应用程序的开发过程中&#xff0c;根据模型&#xff08;Model&#xff09;的变化自动更新数据库结构&#xff0c;以保持数据库与代码模型的一致性。数据库迁移的主要目的是确保数据库与应用程序的模型定义同…

Java练习 day4

一、存在重复元素 II 1、题目链接 点击跳转到题目位置 2、代码 class Solution {public boolean containsNearbyDuplicate(int[] nums, int k) {Map<Integer, Integer> mp new HashMap<Integer, Integer>();int n nums.length;for(int i 0; i < n; i){if…