Mediapipe

  • tensorflow lite推导时,个人建议优化先使用xnnpack,即在“InferenceCalculator”计算器写上xnnpack代理。编译tensorflow时,对windows,不要预定义TFLITE_WITH_RUY,即如果某个模型不使用xnnpack,则使用eigin。在android,则预定义TFLITE_WITH_RUY,即不使用xnnpack的,会用ruy。

主要组件

  1. 计算器/处理单元(Calculator):核心处理单元。
  2. 图表(Graph):Mediapipe 的核心是其图表结构,图表定义了数据流和处理模块的连接方式。每个图表由一系列节点(nodes)和边(edges)组成,节点表示具体的处理模块,边表示数据在节点之间的流动。
  3. 节点(Nodes):节点是图表的基本单元,表示具体的处理操作。Mediapipe 提供了许多内置的节点,如数据输入输出节点、图像处理节点、机器学习推理节点等。
  4. 数据包(Packets):数据包是图表中传输的数据单元,节点之间通过发送和接收数据包来通信。数据包可以包含各种类型的数据,如图像帧、音频信号、检测结果等。
  5. 流/数据流(Stream):数据包的传输通道。
  6. 计算机视觉解决方案:Mediapipe 提供了许多预构建的计算机视觉解决方案,这些解决方案已经高度优化,能够在实时应用中使用。常见的解决方案包括人脸检测、手部追踪、姿态估计、对象检测等。

 

常见使用场景

  1. 姿态估计(Pose Estimation):Mediapipe 可以实时检测和追踪人体的关键点(如肩膀、肘部、膝盖等),并估计人体的姿态。这对于体育训练、动作捕捉、增强现实等应用非常有用。
  2. 手部追踪(Hand Tracking):Mediapipe 能够检测和追踪手部的关键点,提供手势识别和手部动作分析的能力。这在手势控制、虚拟现实、手写输入等应用中有广泛的应用。
  3. 人脸检测(Face Detection):Mediapipe 提供了高效的人脸检测和关键点追踪功能,可以用于面部识别、表情分析、虚拟化妆等场景。
  4. 对象检测(Object Detection):Mediapipe 还提供了实时的对象检测解决方案,可以用于监控、无人驾驶、智能家居等领域。

 

一、编译

1.1 宏:MEDIAPIPE_DISABLE_GPU = 1

编译mediapipe时,要定义MEDIAPIPE_DISABLE_GPU宏。目的是避免在使用opengles上,和SDL发生冲突。

SDL_SetRenderTarget(ERR) texture: 83b64fe0(404x72), renderer->frame: f978fe58, renderer->SetRenderTarget(renderer, texture) < 0

要是不定义,SDL中的SDL_SetRendereTarget会报类似上面错误。发生这问题原因是,SDL渲染要使用opengles,要是不定义MEDIAPIPE_DISABLE_GPU,mediapipe也会使用opengles。 这时一旦使用过mediapipe检测,会让后面SDL的渲染功能出现问题。要解决这冲突,须将来修改相关代码。

mediapipe有个MEDIAPIPE_DISABLE_GL_COMPUTE宏,是不是可以不定义MEDIAPIPE_DISABLE_GPU、而改定义它解决问题?——不能。定义MEDIAPIPE_DISABLE_GL_COMPUTE,会强制关闭mediapipe中基于OpenGL Compute Shader的GPU计算路径,其它opengles相关操作是不禁止的,像eglCreateContext。在定义了MEDIAPIPE_DISABLE_GL_COMPUTE环境下,ImageToTensorCalculator就会用到eglCreateContext。

1.2 宏:ROSE_USE_GLOG

ROSE_USE_GLOG是自个新加宏,不要定义。一旦定义ROSE_USE_GLOG,会使用glog开源项目去输出日志、以及CHECK诊断。较高版本absl已支持输出日志和CHECK诊断,mediapipe已经在使用它,但还有部分代码、以及要用到的第三方库在使用glog,像com_google_audio_tools。

#include "absl/log/absl_log.h"
VLOG改为ABSL_VLOG

#include "absl/log/absl_check.h"
CHECK改为ABSL_CHECK

因为不再使用glog,用了glog的都要用absl去代替。如何修改参考上面,一般就是前面加上“ABSL_”。

 

二、选择哪种优化

tensorflow lite有三种优化方法:ruy、Eigen多线程加速和xnnpack,优化效率会因平台、任务类型和模型特性而不同。具体到mediapipe姿势检测,测试下来最好的是xnnpack。

 xnnpackruyeigen
启用方法在calculator写上xnnpack代理预定义宏TFLITE_WITH_RUYTFLITE_WITH_MULTITHREADED_EIGEN
平台windows、android[windows]、androidwindows、[android]
一次pose_tracking_cpu(4G)rk3576: 250ms/rk3588: 120msrk3576: 350ms/rk3588: 150ms 

只要在*.pbtxt中的“InferenceCalculator”计算器写上xnnpack代理,就会使用xnnpack优化,不论是否有预定义宏TFLITE_WITH_RUY。

编译时不要主动定义TFLITE_WITH_MULTITHREADED_EIGEN。tensorflow在编译<lite>/kernels/conv.cc时,一旦发现没定义TFLITE_WITH_RUY,就会去定义TFLITE_WITH_MULTITHREADED_EIGEN。

在会使用的优先级上,有着以下次序。

  1. xnnpack。只要calculator写上xnnpack代理
  2. ruy。编译时预定义宏TFLITE_WITH_RUY
  3. eigen。不出现上面两种情况

在使用某次编译出的tensroflow.so时,可让模型A使用xnnpack,模型B使用ruy或eigin。但做不到模型A使用ruy,模型B使用eigin。

ruy也能用在windows。但同时须要定义cpu指令集相关宏,否则推理速度会很慢。像用eigen加速只要200毫秒的,会变成3秒。

eigen也能用在android。但用eigen,我在pose_landmark_full.tflite进行本地推导时,android上会出现阻塞、或崩溃。查下来,阻塞发生在multithreaded_conv.h中的struct MatMulConvFunctor,更具体是在in0.contract(in1, dim_pair)。

<mediapipe>/modules/pose_detection/pose_detection_cpu.pbtxt
------
node {
  calculator: "InferenceCalculator"
  input_stream: "TENSORS:input_tensors"
  output_stream: "TENSORS:detection_tensors"
  options: {
    [mediapipe.InferenceCalculatorOptions.ext] {
      model_path: "mediapipe/modules/pose_detection/pose_detection.tflite"
      delegate {
        xnnpack {}
      }
    }
  }
}

对mediapipe,目前个人建议优化先使用xnnpack,即在“InferenceCalculator”计算器写上xnnpack代理。编译tensorflow时,对windows,不要预定义TFLITE_WITH_RUY,即如果某个模型不使用xnnpack,则使用eigin。在android,则预定义TFLITE_WITH_RUY,即不使用xnnpack的,会用ruy。

 

全部评论: 0

    写评论: