贝壳找房推动图谱技术落地,促进地产服务生态链正循环

作者: 张洁 2019-12-26 09:47:50

【51CTO.com原创稿件】

日前,贝壳找房知识图谱技术大会在北京环球财讯中心召开。知识图谱作为近年来人工智能领域里一项比较热门的技术,被广泛应用于智能搜索、智能问答、智能推荐等场景中。本次会议由来自贝壳找房智能搜索团队的四位专家担任主要讲师,300多名AI领域开发者及爱好者受邀参加,和与会嘉宾共同分享图谱技术在贝壳落地的实践经验和应用成果。

关系图谱在贝壳找房风控侧的落地

贝壳找房资深工程师王学志围绕关系图谱在贝壳风控侧的落地,详细阐述了关系图谱在贝壳风控体系中的应用。王学志介绍,贝壳的业务模式基于ACN经纪人合作网络。风控与业务是强相关的,因此贝壳的行业属性和业务模式决定了贝壳的风控场景也有其鲜明的特点。

贝壳找房资深工程师王学志

ACN经纪人合作网络是指在遵守房源信息充分共享等规则前提下,同品牌或跨品牌的经纪人之间以不同的角色共同参与到一笔交易,成交后按照各个角色的分佣比例进行佣金分成的一种合作模式。这一模式实现了跨品牌间房源、客源和经纪人之间的联动,同时也导致贝壳的风控体系构建要考虑如下因素:业务分为线上线下,交易链条长、环节多;同时面临加盟商风险和经纪人风险;对经纪人问责时要提供完整的证据链;业务场景多,涵盖租赁、新房、二手房买卖;交易场景具有低频、大额、长周期的特点。

王学志指出,之所以把关系图谱应用在风控中,一是因为关系图谱可以呈现点、线、面的风险刻画,非常适合团伙攻击;二是贝壳从自身实际出发,相较于小b违规,从危害程度来说大B风险为优先处理的重点。而且大B违规和复杂的关联关系是强相关,适用于关系图谱。

据介绍,整体架构上,贝壳关系图谱分为四层,包括基础数据、知识构建、知识挖掘、业务应用;技术选型上,贝壳选择了Spark Graph X作为图分析计算引擎,Janus Graph作为图查询工具;应用场景上,关系图谱在贝壳风控体系中主要被用于准入防控、风险量化、品质管理、风险发现、查案溯源。

王学志提到,未来关系图谱在贝壳风控侧的应用将主要集中于两个方面:深造基础能力,包括知识推理、知识融合、高密子图挖掘、Graph embedding等等;拓展业务应用,包括在风险治理上推动违规溯源智能化、违规模式自动学习等等,在用户增长方面,通过关系图谱进行经纪人信用记录,并据此进行经纪人to B推荐、to C推荐。

关系图谱在贝壳找房的构建与应用

贝壳找房资深算法工程师周玉驰以“关系图谱在贝壳的构建与应用”为主题,分别就贝壳构建关系图谱的动因、设计过程以及应用实践做了深入解读。

贝壳找房资深算法工程师周玉驰

周玉驰首先提出了一个问题——贝壳为什么要做关系图谱。一般来说,房产行业关系图谱的节点是由经纪人、房、客等构成。关系通常包括浏览、关注、带看等行为关系。随着业务的快速发展,贝壳积累了海量数据。面对亿级别的行为数据,用什么方法来挖掘数据背后的价值呢?贝壳的答案是关系图谱。

周玉驰认为,从0到1构建关系图谱的过程中离不开三个核心:关系图谱能做什么;怎么设计;如何应用。他以贝壳关系图谱的整体技术架构为切入口进行了集中阐述。

架构由下而上分为基础图谱、子图谱、图谱能力、图谱应用四层。最底层是基础图谱,基础图谱定义了各种行为关系。基础图谱之上又进行了子图谱建设,子图谱包括关系强度、同质图、异质图。其中,关系强度的量化是建设过程中的重中之重。基础图谱与子图谱共同奠定了关系图谱的基石。基础打完后进行了图谱能力建设,具体包括多度查询、影响力、Embedding、聚类、相似、关系预测这六大能力。最后基于图谱能力进行了应用探索,开发了房客通、智能客服等应用工具。

在关系图谱的基础建设中,关系强度的量化是一个非常关键的问题。贝壳在构建过程中主要考虑了三个衡量因素:权重、频率、时间。周玉驰解释:“不同关系类型权重不同,比如说带看行为权重高于浏览行为,我们认为浏览是轻行为;高频关系大于低频关系;近期关系大于远期关系。总体来说,基于业务理解,再结合数据生产,我们定义了不同关系类型的权重。同时,我们采用模型化的方式进行计算,将一些行为数据和我们的理解进行交叉验证。”

在关系图谱的能力建设中,周玉驰重点介绍了影响力、Embedding、相似、关系预测这四种能力。就节点影响力来说,贝壳采用的是度中心性方法。通过增加用户连接数进而增加用户转化率对贝壳而言意义重大;在常见的Graph Embedding方法中,贝壳结合自身发展实际,对于同质网络采用了Node2vec,并采用了side info进行优化,与此同时,针对异质网络尝试了Metapath2vec。能力层面,基于Embedding可以进行相似的计算,例如:相似房源、相似用户。另外,关系预测的实现有两种路径,一是基于相似房源或者相似用户,结合关系强度进行推导,二是基于异构网络UserEmbedding和HouseEmbedding预判房屋与用户间的关系。

在关系图谱的应用探索上,周玉驰主要从多度查询和向量化两个角度进行了详细说明。

贝壳基于多度查询的两个应用,其一是房客通,一款贝壳内部为经纪人和客需求进行连接的产品,其二是挖掘图谱,以用户为中心,基于基础图谱来找到符合需求的直接相连房源,再通过图谱能力进行挖掘,或者通过房特征找到相似房源,给用户推荐与用户相关的子图,以可视化的方式进行展示推荐。

贝壳基于向量化探索的应用比较典型的是推荐功能。普遍来说,经纪人为客户找房子的方式还停留在比较原始的阶段,比如搜索微信群或者朋友圈、向门店其他经纪人询问、房源交流会时的沟通交流等。但贝壳可以通过人、客、房匹配策略算法对经纪人进行助力,一方面为经纪人筛选客户,推荐合适房源;一方面还可以通过为优质房源匹配客户来提升成交率。

分布式图数据库在贝壳找房的应用实践

贝壳找房搜索平台负责人高攀的演讲主题更偏重于关系图谱的基础建设,主要围绕图数据库展开。

贝壳找房搜索平台负责人高攀

高攀对图数据库的定义和应用领域进行了简述:所谓图数据库,不是存储图片的数据库,而是存储节点和关系,以图结构进行存储和查询。其应用场景非常广泛,在社交网络、搜索推荐、风险管理、业务流程、事件关系等领域都可以用图数据库来解决。

随后,高攀解释了图数据库平台对贝壳的必要性。

“贝壳找房目前最大的行业图谱量级已经达到480亿三元组。一个很现实的问题就是,如此海量的数据应该如何存储才能支持业务的高效查询?同时我们考虑到是不是可以有一个通用的图数据库平台来支撑所有需要使用图数据库的场景?让上层做图谱的同学可以更专注于策略或算法,而不需要花精力去关注底层的存储技术实现,答案显然是肯定的,我们需要统一的图数据库平台。”

在这一需求的驱动下,贝壳找房开始寻找合适的图数据库,在考虑到开源、性能、稳定性、成熟度、易用性、可扩展性、运维成本等因素后,最终决定在DGraph和JanusGraph间做出选择。在经过架构、副本、数据一致性、查询语言、全文检索、可视化、写入性能、查询性能、运维成本等方面的对比后,最终选用了DGraph。贝壳在完成图数据库集群搭建、数据导入后的性能压测中,也得到了相当满意的结果:在这480亿数据中的查询都可以达到50毫秒以内,并且并发可以到15000多QPS。当然DGraph也有缺陷和不足:不支持多重边、一个集群只支持一个图、大数据生态兼容不够,总体还有不少可以改进的空间。

高攀提到,下一步贝壳找房在图数据库建设上将继续对其性能稳定性做深入优化,包括对其源码进行改进;其次,推进图数据库作为搜索中台基础引擎,支持各种图数据库检索需求;结合搜索云平台界面化操作、快速配置接入,简化其运维成本。当分布式图数据库在贝壳成熟以后,可以统一支持公司内各种知识图谱、风险关系图谱等,真正做到所有图谱需求不用再关注于底层存储技术,只需要关注图谱构建或应用的策略算法。

行业图谱在房产领域的应用实践

贝壳找房行业图谱负责人孙拔群就行业图谱在房产领域的建设和应用这一主题和与会者进行了分享。

贝壳找房行业图谱负责人孙拔群

孙拔群认为,对于一个行业公司来说,通过内部数据,可以完成自我剖析和定性描述;通过外部数据,可以明确市场定位和定量描述,了解自身在行业整体所处的发展状况;通过融合数据进行分析,可以最终达成业务目标,即通过行业知识图谱实现自身的战略规划和愿景使命。

孙拔群简要说明了通过行业知识图谱解决问题的思路——首先,制定目标,推导价值;然后,选择方案,路径达成;最后,评价效果,形成循环。

“我们基于行业图谱去测算出我们整体在全国各个城市里面的价值空间。得到价值空间,就有了基本的核心目标,明年要进行GMV提升,这是基于公司层面的战略指标和定义。具体落实到执行,那就要进行目标拆解,一方面通过智能问答、知识推理、社区发现这些图谱技术应用来直接促进业务目标达成,另一方面通过基于行业知识图谱建立的行业情报系统,以提效工具、线索增量、大盘决策等工具来推动目标实现。最后通过效果评价,形成正向循环。”

孙拔群对于行业数据的引入、加工和融合做了相关说明。类型上说,主要的行业数据可以分为五大类:标竞品,要做到知己知彼;专业内容,包括国家相关政策和宏观经济环境等;上下游,比如开发商、物业、建筑商的数据;环境周边,即房源周围的环境数据;用户群体,不用赘述。由于这些数据来源各不相同,结构差异化大,因此引入这些数据之后要做数据清洗和实体融合,之后就可以着手建立行业知识图谱。

孙拔群最后提到了未来一年贝壳找房将在行业图谱智能应用上研发的方向。其一,IM助手,为经纪人提效。通过知识图谱提高经纪人应对客户提问时的反馈速度和准确率;其二,搜索效果。当搜索结果少的时候,提供一些站外的房源或者是说站外的热度;其三,AI讲房。在海量VR房源数据基础上,结合AI技术,通过图像识别、结构处理等算法智能化处理三维空间信息,实现对房屋本身的理解。AI根据周边配套、小区内部情况、房屋户型结构和交易信息等维度,通过TTS(文本转语音)技术,为用户提供个性化的智能讲房服务。

贝壳自成立以来始终以技术为驱动,以消费者为中心,致力于让房源、客户、经纪人之间的数据互联更加智能,打造产业互联网下的“新居住”品质服务生态。截至2019年9月底,贝壳找房已进驻全国103个城市和地区,连接3.2万家门店和超过32万新型经纪人,入驻平台的新经纪品牌超过226个。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

关系图谱 机器学习 人工智能
上一篇:微软年度研究大盘点:ML突破将到来,人机交互更真实,惜别沈向洋 下一篇:AI如何监测宇航员在太空中的健康状态
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

AI如何改变人类社会的各种业务模式?

在过去的20年中,一些愤世嫉俗的人一直担心,人工智能(AI)的发展会破坏企业结构,导致大量失业和财富不平等加剧。下一个十年将是AI的十年。我们期望看到什么变化?答案是基本流程的转变和减少。

CDA数据分析师 ·  7h前
新冠疫情动态:十大创新,助力对抗COVID-19

从感染快速检测到3D打印解决方案,全球各地的科技企业正携手奋进,希望找到足以战胜新冠病毒大流行的突破性方法。目前有哪些创新成果值得关注?本文将带大家一探究竟。

佚名 ·  9h前
全球首个翻译引擎进化归来 “细节狂魔”搞定方言

最近,一款在线机器翻译软件在日本大火。这款翻译软件名叫DeepL,大火的原因正是因为它工作太负责了,翻译得太过准确,在日本引起了热议。

刘俊寰 ·  12h前
应用程序管理中的AI/ML用例

基于人工智能的操作 (AIOps) 是人工智能和传统 AM/IM 操作的融合。与所有其他领域一样,AI 将对运营管理产生重大影响。

佚名 ·  13h前
学不动了?麻省理工 CS 和 EE 网课开放了

疫情之下,麻省理工学院校长在 3 月上旬曾发通知,其中提到把本剩余课程全部转移到网上。

佚名 ·  16h前
科学家研发出“读心术”,直接将脑电波翻译成文本,错误率低至3%

美国加州大学旧金山分校的科学家,已经训练出一种算法,可以直接将受试者的脑电波实时翻译成句子,错误率仅为 3% 。

张路 ·  18h前
5G风头正盛 人工智能要被“冷落”了?

2018年,5G的热度开始迅速提升。当年开始,我国展开了5G基站建设,并在全国十多个城市开始进行5G测试和试运营。到了2019年,随着各国纷纷宣布开启5G商用,5G的热度再次攀升,成为了通信、科技领域当之无愧的“热点王”。相比之下,人工智能似乎都要稍逊一筹。

佚名 ·  1天前
破解机器学习的误区——常见机器学习神话究竟从何而来?

Forrester Research最近发布了一份名为“ 粉碎机器学习的七个神话”的报告。在其中,作者警告说:“不幸的是,一些对机器学习项目做出重要决策的企业领导者,普遍存在机器学习的误解。”

CDA数据分析师 ·  1天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载