Mediapipe

tensorflow lite推导时，个人建议优化先使用xnnpack，即在“InferenceCalculator”计算器写上xnnpack代理。编译tensorflow时，对windows，不要预定义TFLITE_WITH_RUY，即如果某个模型不使用xnnpack，则使用eigin。在android，则预定义TFLITE_WITH_RUY，即不使用xnnpack的，会用ruy。

主要组件

计算器/处理单元（Calculator）：核心处理单元。
图表（Graph）：Mediapipe 的核心是其图表结构，图表定义了数据流和处理模块的连接方式。每个图表由一系列节点（nodes）和边（edges）组成，节点表示具体的处理模块，边表示数据在节点之间的流动。
节点（Nodes）：节点是图表的基本单元，表示具体的处理操作。Mediapipe 提供了许多内置的节点，如数据输入输出节点、图像处理节点、机器学习推理节点等。
数据包（Packets）：数据包是图表中传输的数据单元，节点之间通过发送和接收数据包来通信。数据包可以包含各种类型的数据，如图像帧、音频信号、检测结果等。
流/数据流（Stream）：数据包的传输通道。
计算机视觉解决方案：Mediapipe 提供了许多预构建的计算机视觉解决方案，这些解决方案已经高度优化，能够在实时应用中使用。常见的解决方案包括人脸检测、手部追踪、姿态估计、对象检测等。

常见使用场景

姿态估计（Pose Estimation）：Mediapipe 可以实时检测和追踪人体的关键点（如肩膀、肘部、膝盖等），并估计人体的姿态。这对于体育训练、动作捕捉、增强现实等应用非常有用。
手部追踪（Hand Tracking）：Mediapipe 能够检测和追踪手部的关键点，提供手势识别和手部动作分析的能力。这在手势控制、虚拟现实、手写输入等应用中有广泛的应用。
人脸检测（Face Detection）：Mediapipe 提供了高效的人脸检测和关键点追踪功能，可以用于面部识别、表情分析、虚拟化妆等场景。
对象检测（Object Detection）：Mediapipe 还提供了实时的对象检测解决方案，可以用于监控、无人驾驶、智能家居等领域。

一、编译

1.1 宏：MEDIAPIPE_DISABLE_GPU = 1

编译mediapipe时，要定义MEDIAPIPE_DISABLE_GPU宏。目的是避免在使用opengles上，和SDL发生冲突。

SDL_SetRenderTarget(ERR) texture: 83b64fe0(404x72), renderer->frame: f978fe58, renderer->SetRenderTarget(renderer, texture) < 0

要是不定义，SDL中的SDL_SetRendereTarget会报类似上面错误。发生这问题原因是，SDL渲染要使用opengles，要是不定义MEDIAPIPE_DISABLE_GPU，mediapipe也会使用opengles。这时一旦使用过mediapipe检测，会让后面SDL的渲染功能出现问题。要解决这冲突，须将来修改相关代码。

mediapipe有个MEDIAPIPE_DISABLE_GL_COMPUTE宏，是不是可以不定义MEDIAPIPE_DISABLE_GPU、而改定义它解决问题？——不能。定义MEDIAPIPE_DISABLE_GL_COMPUTE，会强制关闭mediapipe中基于OpenGL Compute Shader的GPU计算路径，其它opengles相关操作是不禁止的，像eglCreateContext。在定义了MEDIAPIPE_DISABLE_GL_COMPUTE环境下，ImageToTensorCalculator就会用到eglCreateContext。

1.2 宏：ROSE_USE_GLOG

ROSE_USE_GLOG是自个新加宏，不要定义。一旦定义ROSE_USE_GLOG，会使用glog开源项目去输出日志、以及CHECK诊断。较高版本absl已支持输出日志和CHECK诊断，mediapipe已经在使用它，但还有部分代码、以及要用到的第三方库在使用glog，像com_google_audio_tools。

#include "absl/log/absl_log.h"
VLOG改为ABSL_VLOG

#include "absl/log/absl_check.h"
CHECK改为ABSL_CHECK

因为不再使用glog，用了glog的都要用absl去代替。如何修改参考上面，一般就是前面加上“ABSL_”。

二、选择哪种优化

tensorflow lite有三种优化方法：ruy、Eigen多线程加速和xnnpack，优化效率会因平台、任务类型和模型特性而不同。具体到mediapipe姿势检测，测试下来最好的是xnnpack。

	xnnpack	ruy	eigen
启用方法	在calculator写上xnnpack代理	预定义宏TFLITE_WITH_RUY	TFLITE_WITH_MULTITHREADED_EIGEN
平台	windows、android	[windows]、android	windows、[android]
一次pose_tracking_cpu(4G)	rk3576: 250ms/rk3588s: 120ms	rk3576: 350ms/rk3588s: 150ms

只要在*.pbtxt中的“InferenceCalculator”计算器写上xnnpack代理，就会使用xnnpack优化，不论是否有预定义宏TFLITE_WITH_RUY。

编译时不要主动定义TFLITE_WITH_MULTITHREADED_EIGEN。tensorflow在编译<lite>/kernels/conv.cc时，一旦发现没定义TFLITE_WITH_RUY，就会去定义TFLITE_WITH_MULTITHREADED_EIGEN。

在会使用的优先级上，有着以下次序。

xnnpack。只要calculator写上xnnpack代理
ruy。编译时预定义宏TFLITE_WITH_RUY
eigen。不出现上面两种情况

在使用某次编译出的tensroflow.so时，可让模型A使用xnnpack，模型B使用ruy或eigin。但做不到模型A使用ruy，模型B使用eigin。

ruy也能用在windows。但同时须要定义cpu指令集相关宏，否则推理速度会很慢。像用eigen加速只要200毫秒的，会变成3秒。

eigen也能用在android。但用eigen，我在pose_landmark_full.tflite进行本地推导时，android上会出现阻塞、或崩溃。查下来，阻塞发生在multithreaded_conv.h中的struct MatMulConvFunctor，更具体是在in0.contract(in1, dim_pair)。

<mediapipe>/modules/pose_detection/pose_detection_cpu.pbtxt
------
node {
  calculator: "InferenceCalculator"
  input_stream: "TENSORS:input_tensors"
  output_stream: "TENSORS:detection_tensors"
  options: {
    [mediapipe.InferenceCalculatorOptions.ext] {
      model_path: "mediapipe/modules/pose_detection/pose_detection.tflite"
      delegate {
        xnnpack {}
      }
    }
  }
}

对mediapipe，目前个人建议优化先使用xnnpack，即在“InferenceCalculator”计算器写上xnnpack代理。编译tensorflow时，对windows，不要预定义TFLITE_WITH_RUY，即如果某个模型不使用xnnpack，则使用eigin。在android，则预定义TFLITE_WITH_RUY，即不使用xnnpack的，会用ruy。

全部评论: 0 条