知识图谱-KGE-语义匹配-双线性模型(打分函数用到了双线性函数)-2014 :MLP
创始人
2024-03-26 01:09:48
0

Knowledge Vault & MLP

【paper】 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

【简介】 本文是谷歌的研究者发表在 KDD 2014 上的工作,提出了一套方法用于自动挖掘知识,并构建成大规模知识库 Knowledge Vault(KV);KV 的构建包括知识提取器、基于图的先验及两者的融合。本来打开这篇文章是为了看 MLP 模型,但 MLP 只是其中的一个组合部分。

overview

本文的主要贡献如下:

  1. KV 从 web 及自由文本中抽取事实三元组(带有噪声),并与先验知识融合,利用先验知识判断新挖掘知识的正确性;
  2. 本文构建的 KV 比其他 KB 的规模更大;
  3. 评价了不同的抽取方法和先验方法的效果。

KV 包括三部分组成成分:

  1. Extractors. 抽取器从 web 资源中抽取三元组,并为三元组计算置信度分数。
  2. 基于图的先验。基于 KB 中已有三元组为可能的候选三元组计算先验概率。
  3. 知识融合。基于不同的抽取器和先验边计算三元组为真的概率。

本文的框架遵循局部封闭世界假说(Local closed world assumption, LCWA)。封闭世界假说是指不存在于 KB 中的事实都被判定为 false。但由于 KB 本身就是不完整的,因此这种假说不合理。因此本文提出一种启发式假说,定义了 O(s,p)O(s,p),对于给定的候选三元组,按照如下规则打标签:

从 web 中抽取事实

对不同的 web 资源提出了不同的处理方法:

  1. 对于自由文本 text documents,首先用 NLP 工具进行命名实体识别、词性标注、共指消解等处理,然后使用远程监督训练关系抽取器,并用 bootstrapping 方式挖掘更多实体对。

  2. 对于 HTML trees(DOM),和自由文本的处理方法一样,唯一不同的是从 DOM 树中连接两个实体获取特征而不是从自由文本。

  3. 对于 HTML tables,首先进行命名实体链接,然后识别表的每列表示的关系。

  4. 人工标注页面(ANO)。只有14个不同属性的子集,三元组的打分由实体链接系统给出。

抽取器融合: 对上面介绍的4种抽取器进行整合,对每个抽取出的三元组分配一个特征向量,并用二分类器计算该特征向量代表的三元组的得分:

分类器为每个抽取器分配一个权重,且每种属性适配一个单独的分类器,最后进行整合。

基于图的先验

介绍了两种对三元组进行打分的先验模型:PRA 和 MLP

Path ranking algorithm(PRA)

PRA 学到的路径可以被视为规则,根据规则做推断,进行链接预测。

Neural network model(MLP)

将 KB 表示为 3d 矩阵 G,若从 s 到 o 的链接 p 存在,则 G(s,p,o)=1G(s,p,o)=1,否则 G(s,p,o)=0G(s,p,o)=0。

三元组成立的概率通过元素点积计算:

其中,激活函数 σσ 为 sigmoid 或 logistic 函数:

K 约为 60,为隐藏层维度。

还有一种是 NTN 的形式:

本文使用的 MLP 形式为:

实验发现,两种用于计算先验概率的图模型的效果相差无几,MLP 的 AUC 是 0.882,PRA 的 AUC 是 0.884。

和抽取器融合类似,也对图模型 priors 进行了融合。

融合抽取器和 prior

对抽取器和 prior 进行融合,对三元组打分的结果:

与单使用抽取器相比,融合 priors 和抽取器增加了高置信度事实的数量。


【总结】 本文提出了 Web 规模的概率知识库 Knowledge Vault 的构建过程,将多个抽取器与先验知识打分模型结合,自动化构建知识库。

双线性模型(三)(MLP、TATEC) - 胡萝不青菜 - 博客园

相关内容

热门资讯

AWSECS:访问外部网络时出... 如果您在AWS ECS中部署了应用程序,并且该应用程序需要访问外部网络,但是无法正常访问,可能是因为...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...
【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
AWSElasticBeans... 在Dockerfile中手动配置nginx反向代理。例如,在Dockerfile中添加以下代码:FR...
Android|无法访问或保存... 这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限:此外...
月入8000+的steam搬砖... 大家好,我是阿阳 今天要给大家介绍的是 steam 游戏搬砖项目,目前...
​ToDesk 远程工具安装及... 目录 前言 ToDesk 优势 ToDesk 下载安装 ToDesk 功能展示 文件传输 设备链接 ...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...
AWS管理控制台菜单和权限 要在AWS管理控制台中创建菜单和权限,您可以使用AWS Identity and Access Ma...