基于动态知识图谱的大规模数据集成解决方案
发布时间:2020-05-30 15:23:19 所属栏目:传媒 来源:站长网
导读:副标题#e# 在信息高速变化的时代,企业、政府对数据的认知是一个不断变化的过程。通常某个数据集成项目的初期,客户与集成方对数据、业务的认知都是不全面的,比如今天提供了人口库的数据,明天提供车辆数据、后天又提供了卡口数据在这种场景下,如果利用常
这是因为,在HBase中是按照每种本体类型一张表进行存储的,而需要融合的数据必然是多个源的数据写到HBase的一张表中,HBase的rowkey设计为MD5(PK),而column设计为数据源ID,因此若多源数据存在相同的主键,则会存储到HBase同一行的不同列中。而后续的ETL任务,则会将多列的数据按照融合规则进行融合后在Elasticsearch中建立索引。 由此可见,不同本体数据写入互不影响,而同一本体新增数据源,若发生融合,会写入到不同列中。此时下一次ETL任务就会用新的数据覆盖Elasticsearch中旧的数据,完成索引重建。而当融合规则发生变更时,同样不需要再从客户数据源接入数据,只需要进行索引重建即可。 4.“事件”数据的动态性 由于本体库中的数据,是固化的高价值密度数据,而“事件”数据天然是低价值密度的,并且具有时效性。 (编辑:PHP编程网 - 黄冈站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |