熊猫吃短信:全新基于机器学习的垃圾短信过滤应用

作者: Baye 2017-12-06 13:14:19

大数据

作为一个生活在移动互联网时代的技术宅,饱受骚扰短信之苦,但没有一个简单的又不用上传自己短信的过滤应用。于是我从自己收到的两万多条短信以及测试期间用户提交的短信样本中训练出了熊猫。

iOS 11 带来了非常强大的 CoreML 机器学习框架,开发者都用来做视觉处理了,我就用它做一个文本归类的应用吧,让熊猫可以在手机里安家。

准确的语义识别

熊猫从庞大的样本中学习到了垃圾短信的文本模式,可以非常准确的从复杂的语义环境中对短信进行分类。比如下图中非常相似的 【京东支付】 的两条短信。

大数据

垃圾短信识别

你可以拷贝短信后,在应用里面点击 准确性测试 来测试准确度。

使用非常简单

您只需要安装后打开 设置 → 信息 → 未知与过滤信息 然后选中 熊猫吃短信 即可。熊猫就会默默的帮你吃掉垃圾短信。

关注隐私

熊猫不需要服务器端,不需要联网。应用自带完整的训练模型,使用 CoreML 就可以在手机上对短信进行分类。iOS 11 的沙盒限制也不允许短信过滤器访问网络以及向主App共享数据。虽然通过配置项可以让 iOS 11 向自己的服务器上发送短信在云端判断,但是熊猫并没有使用这一功能。

自动进化

熊猫正在飞速成长中,分类准确性依赖于熊猫有没有见过类似的信息。但是世界那么大,总有没吃过的东西,熊猫也有见识浅的时候。基于自愿原则,您可以在应用里面提交新的短信样本喂养熊猫,熊猫会从新的样本中学习到新的垃圾或者正常短信模式。

注意:提交短信样本会将短信匿名上传到服务器上,并非本地训练,熊猫将在云端完成学习,然后分发到所有人的手机上。

大数据

关于偏食

由于熊猫是我教的(监督学习),其一定程度上继承了我的喜好,对于有些比较模糊的短信,比如优惠、促销信息,我是一律标记为骚扰短信的。但是有些人可能会喜欢收到此类通知,大家自行取舍。

系统限制

由于 iOS 11 的系统设计原因,被过滤的短信也会显示角标,以及在 Apple Watch 上通知。另外 iOS 11 过滤短信是基于对话的过滤,如果同一个号码既发骚扰短信又发正常短信,那么整个对话都会被过滤。这种现象常见于五位数的号码,但 10 开头的短信发送端口非常少见。

***

  • 熊猫的 Logo 来自于我最喜欢的一个滚滚背影图。
  • 熊猫目前只针对中文做了训练,其它语言环境下可能会撂摊子。 
机器学习 语义识别 垃圾短信
上一篇:阿里机器人批改作文 200字看出8处错误 下一篇:如何用深度学习处理结构化数据?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

支持机器学习的8个数据仓库

对于规模非常大的数据集来说,理想的情况是在数据已经存在的地方建立模型,这样就不需要导出大量的数据。有一些数据仓库在一定程度上支持这一点。而随之而来的问题是:哪些数据仓库支持机器学习?它们是如何做到的?以下按字母排序对这些数据仓库进行分析和阐述。

李睿 ·  1天前
无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉

来自阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法,大幅缩小了自监督预训练与密集预测任务之间的鸿沟。

阿德莱德大学、同济大学、字节跳动 ·  2天前
华人力学家黄永刚团队新作:大脑光遗传植入让小老鼠一秒变基友

美国西北大学的工程师和生物学家发布的最新研究:在老鼠的头骨中嵌入神经植入物,通过激活植入物,老鼠会立即开始互动并成为朋友。

佚名 ·  3天前
预计到2023年,机器学习的收入将达到803亿美元

随着机器学习领域的进步和自发增长,AnalyticsInsight预计,到2023年,机器学习的收入将达到803亿美元,2020年的复合年增长率为33.6%。

Cassie ·  3天前
2021年人工智能和机器学习的五大趋势

今天,人工智能和机器学习正在不断改变着我们的世界,2020年的冠状病毒疫情给这两项技术带来了新的机遇和迫切性,预计到2021年将有更大的发展。

开课吧科科 ·  3天前
前馈网络+线性交互层=残差MLP,Facebook纯MLP图像分类架构入场

近日,Facebook 提出了具有数据高效训练、用于图像分类的纯 MLP 架构 ResMLP,当采用现代的训练方法时,该架构在 ImageNet 数据集上实现了相对不错的性能。

佚名 ·  4天前
2021年,哪些新技术和趋势将影响安防视频分析?

在技术方面,人工智能(AI)、机器学习(ML)和云技术将继续对视频分析的未来产生巨大影响。

佚名 ·  4天前
机器学习项目中特征工程的5个优秀实践

当处理一个新的机器学习问题时,没有办法从一开始就知道解决方案是什么,除非各种不同的实验被尝试和测试。

deephub ·  4天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载