阿里开源MNNKit:基于MNN的移动端深度学习SDK,支持安卓和iOS

作者: 一鸣、Jamin 2020-01-23 15:08:02

 近来,有越来越多的深度学习框架开始面向移动端进行发展。近日,阿里也基于其 MNN推理引擎开源了最新的 MNNKit深度学习SDK,安卓和 iOS 开发者都可以方便地进行调用。

近年来,很多企业都在研发面向移动端的深度学习框架。在国内有小米的 Mace、腾讯的 FeatherCNN(腾讯AI)和 ncnn(腾讯优图)、百度的 Paddle-moblie 等。而阿里也开发了自己的移动端深度学习框架 MNN。

近日,阿里开源了基于 MNN 引擎的项目 MNNKit,面向安卓和 iOS,以 SDK 的方式提供 AI 端侧推理能力。开发者不需要了解算法细节就可以直接使用。

项目地址:https://github.com/alibaba/MNNKit

目前,MNNKit 已经有人脸检测、手势识别、人像分割等,后续可能有更多 API 接入。

MNNKit: 基于 MNN 的深度学习工具

MNN 是基于阿里的 MNN 端上推理引擎所开发的应用解决方案,主要面向安卓和 iOS 系统,帮助将 AI 能力应用在实际的移动端场景中。

MNNKit 架构

MNNKit 提供了一个 SDK 供开发者使用,以下为 SDK 的架构。

阿里开源MNNKit:基于MNN的移动端深度学习SDK,支持安卓和iOS

从图中可以看出,MNNKit 可以分为三层结构,从底向上分别为:

  1. MNN 引擎层,是 MNN (https://github.com/alibaba/MNN) 库在 Android/iOS 上编译好的包的二进制 Release 版本,提供端侧运行环境。

  2. Core 基础层,这主要抽象和封装与 MNN c++接口调用粒度基本一致的上层 API,iOS 通过 OC 接口提供,Android 通过 Java 接口提供(TODO)。这一层同时也为上层 SDK 提供一些公共服务类或结构定义。

  3. 业务 Kit 层,包括了人脸检测、手势识别封装的 API。据项目介绍,之后的业务 Kit 层会不断扩展。

内部原理

因为 MNNKit 主要提供阿里的端侧 AI 能力,因此封装了很多相关应用的 API。调用如下:

阿里开源MNNKit:基于MNN的移动端深度学习SDK,支持安卓和iOS

例如,当用户需要调用 API 的时候,需要首先创建实例,然后将图像、视频或其他结构化数据输入,进行 AI 模型的推理工作。工作完成后释放实例即可。

目前 MNNKit 已支持的 API 有:

  • 人脸检测API

  • 手势识别 API

  • 人像分割 API

以人脸检测为例,检测内容主要分为三大板块:

  • 人脸基本信息

  • 人脸位置的矩形坐标

  • 106 个关键点坐标(区分被遮挡的和未被遮挡的)

  • 置信度

阿里开源MNNKit:基于MNN的移动端深度学习SDK,支持安卓和iOS

106 个关键点的分布(来自官方开源 github)

阿里开源MNNKit:基于MNN的移动端深度学习SDK,支持安卓和iOS

人脸各区域关键点分布对应表

  • 欧拉角度

阿里开源MNNKit:基于MNN的移动端深度学习SDK,支持安卓和iOS

摇头(Yaw)、点头(Pitch)、歪头(Roll)三个角度值

  • 人脸动作(包含 5 个人脸的动作)

  • 眨眼

  • 张嘴

  • 摇头

  • 点头

  • 扬眉

处理过程

我们知道了人脸检测需要检测的数据后,接下来看看处理过程:

阿里开源MNNKit:基于MNN的移动端深度学习SDK,支持安卓和iOS

如图所示,该流程是 iOS 和安卓设备后置摄像头正向拍摄后,在移动端上的整体处理过程。

首先,系统从摄像头获取数据,作为 SDK 的输入。接着,SDK 会进行如下操作:

  1. 在 MNN 引擎执行推理之前,对原始的输入进行预处理,保证输入数据中的人脸为正向

  2. 使用 AI 模型进行推理;

  3. 推理后,产生基于输入图像(预处理之后的)坐标系的关键点结果;。

  4. 把关键点坐标变换到和屏幕渲染坐标系相同的方向,方便渲染。

程应用中,最后的结果关键点要显示在用户屏幕上,前端会使用一个用来渲染的"画布"。画布的坐标系被称为渲染坐标系,

在 SDK 检测的最后一步,我们将关键点变换到和渲染坐标系相同的方向,然后等比例映射关键点坐标到渲染坐标系的坐标即可。映射后可以直接渲染到画布上

代码示例

MNNKit 提供了包括人脸检测、手势识别等方面的示例代码。接下来我们以人脸检测为例,看看怎样可以在安卓或 iOS 中调用 API 进行推理工作。

安卓代码

前文提到,调用 API 需要首先创建一个实例,以下为异步创建 FaceDetector 实例,主线程中回调的代码。

public static void createInstanceAsync (Context context, FaceDetectorCreateConfig createConfig, InstanceCreatedListener<FaceDetector> listener)

在这里,人脸检测API 会进行检测和跟踪两个动作。检测会遭到人脸位置和关键点,而跟踪是在人脸移动时重新定位关键点的位置。

在视频模式下,系统默认每 20 帧检测一次,其余帧只跟踪。图片模式下则每一次调用都检测。

创建实例后,可以将数据输入模型进行推理。MNNKit 现在已支持多种数据格式输入。在视频流检测场景中,我们可以使用摄像头的回调数据作为接口的输入。输入数据的代码如下:

public synchronized FaceDetectionReport[] inference(byte[] data, int width, int height, MNNCVImageFormat format, long detectConfig, int inAngle, int outAngle,  MNNFlipType outputFlip)

使用输入数据为 bitmap 的推理代码如下:

public synchronized FaceDetectionReport[] inference(Bitmap bitmap, long detectConfig, int inAngle, int outAngle, MNNFlipType outputFlip)

当 FaceDetector 实例用完之后,我们需要手动释放实例,否则会产生 native 的内存泄露。

public synchronized void release()

iOS 代码

和安卓代码类似,首先需要创建人脸检测实例:

+ (void)createInstanceAsync:(MNNFaceDetectorCreateConfig*)config Callback:(void(^)(NSError *error, MNNFaceDetector *faceDetector))block CallbackQueue:(dispatch_queue_t)callbackQueue;

默认主线程回调:

+ (void)createInstanceAsync:(MNNFaceDetectorCreateConfig*)config Callback:(void(^)(NSError *error, MNNFaceDetector *faceDetector))block;

PixelBuffer 输入进行推理的代码如下:

- (NSArray<MNNFaceDetectionReport *> *)inference:(CVPixelBufferRef)pixelBuffer Config:(MNNFaceDetectConfig)detectConfig Angle:(float)inAngle OutAngle:(float)outAngle FlipType:(MNNFlipType)flipType error:(NSError *__autoreleasing *)error;

UIImage 输入进行推理的代码如下:

- (NSArray<MNNFaceDetectionReport *> *)inferenceImage:(UIImage*)image Config:(MNNFaceDetectConfig)detectConfig Angle:(float)inAngle OutAngle:(float)outAngle FlipType:(MNNFlipType)flipType error:(NSError *__autoreleasing *)error;

使用通用 buffer 数组输入的代码如下:

- (NSArray<MNNFaceDetectionReport *> *)inference:(unsigned char*)data Width:(float)w Height:(float)h Format:(MNNCVImageFormat)format Config:(MNNFaceDetectConfig)detectConfig Angle:(float)inAngle OutAngle:(float)outAngle FlipType:(MNNFlipType)flipType error:(NSError *__autoreleasing *)error;

实例生命周期结束后,会自动触发相关内存的释放,无需调用方手动释放。

据悉,MNNKit 是 MNN 团队在阿里系应用大规模业务实践后的成熟解决方案,历经双十一等项目考验,在不依赖于后端的情况下进行高性能推理,使用起来稳定方便。

开源 技术 趋势
上一篇:为什么你觉得Matplotlib用起来困难?因为你还没看过这个思维导图 下一篇:我花了两年,从不懂Python变成了AI工程师
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

化身阿凡达,国外小哥开源 AI 实时变脸工具 Avatarify

疫情期间,很多人都在用 Zoom 和 Skype 等软件进行视频会议。国外一位开发小哥觉得这样开会太无聊,于是基于 first-order-model 开发了一个能够把别人的照片套在自己脸上的“变脸”软件 Avatarify,并将其开源。

OSC神秘老司机 ·  2天前
华为突破封锁,对标谷歌Dropout专利,开源自研算法Disout

美国持续封锁,华为的技术自研,已经深入到了AI底层算法层面上,并开始将研究成果面向业界开源。

乾明 金磊 ·  2020-05-20 10:25:43
Facebook 开源聊天机器人 Blender,号称全球最强

Facebook AI 和机器学习部门 FAIR 发布博客宣布,经过多年研究,其已经构建和开源了一个新的聊天机器人 Blender。

白开水不加糖 ·  2020-05-06 08:46:53
100倍加速!深度学习训练神器Determined AI宣布开源!更快,更简单,更强大

作为一名深度学习科研人员,小编我可是深受模型训练的困扰:一个模型要跑几天几夜,结果最后发现有一步错了 ...从头再来

科雨、白峰 ·  2020-05-03 13:52:27
「英伟达呼吸机」开源:计算机架构大师打造,成本暴减98%,黄仁勋点赞

计算机先驱们也加入了抗击新冠的行列:英伟达首席科学家 Bill Dally 本周宣布了一款开源低成本机械呼吸机设计。

佚名 ·  2020-05-02 18:49:35
15亿语料训练的94亿参数大模型更懂我?Facebook开源全球超强聊天机器人Blender

尽管聊天机器人和虚拟助手已经取得了很大的进步,但市面上的聊天机器人大多数是以任务为导向的。从零售业到医疗保健到金融服务等各个领域都有专门的产品,在一些领域垂直的任务中表现尚可。

鹏飞,白峰 ·  2020-04-30 13:30:30
让梦露和龙妈学着你说话,只需一张静态图和一个视频

想让名人学着你说话,怎么办?很简单,只要一张名人的照片,配上你说话的视频,分分钟就能搞定。

十三 ·  2020-04-28 10:32:37
这家中国AI创业公司拿下顶会竞赛冠军,代码已经开源

人工智能顶会NeurIPS举办的AutoDL 2019-2020系列竞赛落幕,来自中国的AI创业公司,斩获冠亚军。

乾明 ·  2020-04-20 10:08:22
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载