- tensorflow lite推导时,个人建议优化先使用xnnpack,即在“InferenceCalculator”计算器写上xnnpack代理。编译tensorflow时,对windows,不要预定义TFLITE_WITH_RUY,即如果某个模型不使用xnnpack,则使用eigin。在android,则预定义TFLITE_WITH_RUY,即不使用xnnpack的,会用ruy。
主要组件
- 计算器/处理单元(Calculator):核心处理单元。
- 图表(Graph):Mediapipe 的核心是其图表结构,图表定义了数据流和处理模块的连接方式。每个图表由一系列节点(nodes)和边(edges)组成,节点表示具体的处理模块,边表示数据在节点之间的流动。
- 节点(Nodes):节点是图表的基本单元,表示具体的处理操作。Mediapipe 提供了许多内置的节点,如数据输入输出节点、图像处理节点、机器学习推理节点等。
- 数据包(Packets):数据包是图表中传输的数据单元,节点之间通过发送和接收数据包来通信。数据包可以包含各种类型的数据,如图像帧、音频信号、检测结果等。
- 流/数据流(Stream):数据包的传输通道。
- 计算机视觉解决方案:Mediapipe 提供了许多预构建的计算机视觉解决方案,这些解决方案已经高度优化,能够在实时应用中使用。常见的解决方案包括人脸检测、手部追踪、姿态估计、对象检测等。
常见使用场景
- 姿态估计(Pose Estimation):Mediapipe 可以实时检测和追踪人体的关键点(如肩膀、肘部、膝盖等),并估计人体的姿态。这对于体育训练、动作捕捉、增强现实等应用非常有用。
- 手部追踪(Hand Tracking):Mediapipe 能够检测和追踪手部的关键点,提供手势识别和手部动作分析的能力。这在手势控制、虚拟现实、手写输入等应用中有广泛的应用。
- 人脸检测(Face Detection):Mediapipe 提供了高效的人脸检测和关键点追踪功能,可以用于面部识别、表情分析、虚拟化妆等场景。
- 对象检测(Object Detection):Mediapipe 还提供了实时的对象检测解决方案,可以用于监控、无人驾驶、智能家居等领域。
一、编译
1.1 宏:MEDIAPIPE_DISABLE_GPU = 1
编译mediapipe时,要定义MEDIAPIPE_DISABLE_GPU宏。目的是避免在使用opengles上,和SDL发生冲突。
SDL_SetRenderTarget(ERR) texture: 83b64fe0(404x72), renderer->frame: f978fe58, renderer->SetRenderTarget(renderer, texture) < 0
要是不定义,SDL中的SDL_SetRendereTarget会报类似上面错误。发生这问题原因是,SDL渲染要使用opengles,要是不定义MEDIAPIPE_DISABLE_GPU,mediapipe也会使用opengles。 这时一旦使用过mediapipe检测,会让后面SDL的渲染功能出现问题。要解决这冲突,须将来修改相关代码。
mediapipe有个MEDIAPIPE_DISABLE_GL_COMPUTE宏,是不是可以不定义MEDIAPIPE_DISABLE_GPU、而改定义它解决问题?——不能。定义MEDIAPIPE_DISABLE_GL_COMPUTE,会强制关闭mediapipe中基于OpenGL Compute Shader的GPU计算路径,其它opengles相关操作是不禁止的,像eglCreateContext。在定义了MEDIAPIPE_DISABLE_GL_COMPUTE环境下,ImageToTensorCalculator就会用到eglCreateContext。
1.2 宏:ROSE_USE_GLOG
ROSE_USE_GLOG是自个新加宏,不要定义。一旦定义ROSE_USE_GLOG,会使用glog开源项目去输出日志、以及CHECK诊断。较高版本absl已支持输出日志和CHECK诊断,mediapipe已经在使用它,但还有部分代码、以及要用到的第三方库在使用glog,像com_google_audio_tools。
#include "absl/log/absl_log.h" VLOG改为ABSL_VLOG #include "absl/log/absl_check.h" CHECK改为ABSL_CHECK
因为不再使用glog,用了glog的都要用absl去代替。如何修改参考上面,一般就是前面加上“ABSL_”。
二、选择哪种优化
tensorflow lite有三种优化方法:ruy、Eigen多线程加速和xnnpack,优化效率会因平台、任务类型和模型特性而不同。具体到mediapipe姿势检测,测试下来最好的是xnnpack。
xnnpack | ruy | eigen | |
启用方法 | 在calculator写上xnnpack代理 | 预定义宏TFLITE_WITH_RUY | TFLITE_WITH_MULTITHREADED_EIGEN |
平台 | windows、android | [windows]、android | windows、[android] |
一次pose_tracking_cpu(4G) | rk3576: 250ms/rk3588: 120ms | rk3576: 350ms/rk3588: 150ms |
只要在*.pbtxt中的“InferenceCalculator”计算器写上xnnpack代理,就会使用xnnpack优化,不论是否有预定义宏TFLITE_WITH_RUY。
编译时不要主动定义TFLITE_WITH_MULTITHREADED_EIGEN。tensorflow在编译<lite>/kernels/conv.cc时,一旦发现没定义TFLITE_WITH_RUY,就会去定义TFLITE_WITH_MULTITHREADED_EIGEN。
在会使用的优先级上,有着以下次序。
- xnnpack。只要calculator写上xnnpack代理
- ruy。编译时预定义宏TFLITE_WITH_RUY
- eigen。不出现上面两种情况
在使用某次编译出的tensroflow.so时,可让模型A使用xnnpack,模型B使用ruy或eigin。但做不到模型A使用ruy,模型B使用eigin。
ruy也能用在windows。但同时须要定义cpu指令集相关宏,否则推理速度会很慢。像用eigen加速只要200毫秒的,会变成3秒。
eigen也能用在android。但用eigen,我在pose_landmark_full.tflite进行本地推导时,android上会出现阻塞、或崩溃。查下来,阻塞发生在multithreaded_conv.h中的struct MatMulConvFunctor,更具体是在in0.contract(in1, dim_pair)。
<mediapipe>/modules/pose_detection/pose_detection_cpu.pbtxt ------ node { calculator: "InferenceCalculator" input_stream: "TENSORS:input_tensors" output_stream: "TENSORS:detection_tensors" options: { [mediapipe.InferenceCalculatorOptions.ext] { model_path: "mediapipe/modules/pose_detection/pose_detection.tflite" delegate { xnnpack {} } } } }
对mediapipe,目前个人建议优化先使用xnnpack,即在“InferenceCalculator”计算器写上xnnpack代理。编译tensorflow时,对windows,不要预定义TFLITE_WITH_RUY,即如果某个模型不使用xnnpack,则使用eigin。在android,则预定义TFLITE_WITH_RUY,即不使用xnnpack的,会用ruy。