Home
>
七台河erp教程视频
>
七台河罗斯erp
七台河罗斯erp

time:2020-09-02 11:22:01

author:重庆佰鼎科技有限公司

【Font size: big medium smail

本文由重庆佰鼎科技有限公司提供,重点介绍了罗斯erp相关内容。重庆佰鼎科技有限公司专业提供erp教程视频,淘宝 erp,淘宝erp等多项产品服务。公司开拓创新,保持质量,塑造形象,为更多的合作伙伴提供最优质的产品服务

罗斯erp一. 背景介绍本文介绍一篇ICDE 2019的工作 《Towards the Completion of a Domain-Specific Knowledge Base with Emerging Query Terms》,该工作是根据用户层出不断的查询来丰富淘宝 上原有的特定领域知识库。我最近也在关注Query-term相关的数据挖掘工作,算是比较相关所以写了这篇文章来总结一下。

该工作由于投稿的ICDE上,所以比较偏数据管理和挖掘,并不是很偏Deep Learning,但是对于Query的数据预处理工作比较直观,可以作为参考,整个流程也比较简单,我先把它总结为:计算节点相似性,抽象构图,图算法挖掘三部分。下面的介绍分为六个模块,我将在模块一介绍需要用的相关背景知识,在模块二中介绍该论文解决了什么任务以及为什么解决,在模块三中对他的方法框架做介绍,在模块四中分析该论文的实验部分,在模块五中探讨这篇文章的优点和缺点,以及可以拿来用的地方,在模块六中可以简单阐述一下自己预计要做的工作(私密内容,等今年AAAI发了我再更新)

二. 背景知识Knowledge bases (KBs) 旨在于构建机器可以理解的知识结构,被广泛应用于query understanding,recommendation和question answering,尽管大部分的KBs都是开放领域(open domain)的,近年来有种做 domian-specific knowledge bases(DKBs)的趋势

CPV-DKBs 淘宝中的KB在这篇文章中组织成CPV(Category-Property-Value)三元组的形式,CPV格式的组织形式广泛应用于在搜索推荐中的针对query understanding的任务。、

CPV格式的示例Kullback-Leibler divergence KL散度又称作相对熵(relative entropy),是两个概率分布间差异的非对称性度量。相对熵等价于两个概率分布的信息熵的差值。

Given 是随机变量 上的两个概率分布,则离散和连续的随机变量定义如下

具有非负性和不对称性

三. 动机(Motivation)这部分介绍一下要解决的任务以及动机,感觉其中很多说法和我自己任务中引入Query的想法很像,可以参考一下。

现有DKBs的一些缺点

提高用户体验,或者说是用户经验在相关任务中的缺失(values relevant to user experience are usually missing),第一版DKB的构建是根据item和领域内专家的意见构建的,并没有引入用户相关的经验,对反映用户体验的值的覆盖非常有限。而Query都是用户输入的,所以query understanding的任务就不会很好。举例: 衣服图案:(人脸, 动物, 几何绘画),而用户可能搜索的是“狗”,不能很好的把狗分配到"pattern"下的“animals”中的话,推荐系统可能更可能把它相关到“hot dogs”下,因为其是根据词语的相似性手工构建的DKB通常对非典型值(non-typical values)的覆盖有限, 这个很好理解,由于长尾效应,大量用户的query包含了更多的non-typical values,而领域内专家手工构建的DKBs更关注于购物者使用的典型值一直有许多新的值出现(emerging values),举个栗子,川普竞选美国总统的时候,"Donald Trump portrait" 这类的query可能会短时间内大量涌入,而这些之前似乎从未出现。下面会给出上述说法的统计依据

当前Taobao的KB中,包含了超过3W的categories,然而只能识别30.9%的queries,仍然有69.1%的queries包含unrecognized terms,下面列出三个类中的一些指标

引入query log中新的值可以解决这个问题, 主要有两个原因:(1) query logs中出现的value比较fresh (2)query log中出现的value更好的体现了用户的意图。

所以,本工作提出了这个新的task,即根据query logs来构建DKBs从而丰富values, 这里有个前提是 “The categories and properties in DKB in general have relatively low update frequency compared to values, because the schema of a DKB seldom changes.” 我感觉听起来还算有道理但不是很solid。所以最后就抽象成了把query logs中的term添加到DKB中的existing properties下。罗斯erp

如果是ICDE Industry那篇Paper, Intro也可以考虑这种思路来写:

主要是两个说法(图层次聚类的任务, 可解释的个人推荐任务),都先列出来。罗斯erp

Interpretable Personal Recommendation

Graph Hierarchical Clustering

待续...

四. 算法框架公式相关表示Input: emerging query terms, existing KB

Output: top-k most likely properties for each emerging query term

Given

整体算法框架为了构建整个算法,下面就一步一步详细介绍算法的流程:

A. External Evidence (Positive evidence & Negtive evidence)为了构图,需要定义两个query term之间的positive evidence和negtive evidence

a. Posivive evidence

这里介绍三个独立的similarity metrics以及如何结合它们

Here, , and any other term

Edit Distance: Levenshtein distance (removal, insertion or substitution of a character in string)

Embedding based Similarity: word2vec based on all the titles of clicked items

Affix based Similarity:

When , the same affix of implies they are more likely to belong to the same property

When , some shares affix with property that belong to.

So, in the end

So, how to compute ,

首先, 计算此 category下的所有1-grams和2-grams,然后把频率最高的一部分拿出来作为 , 对于 则挑选公共最长的affix即可,对于 则用TF-IDF来计算,找到最高的分数。

Aggregated Positive Evidence

首先限制PE范围在 内,其次任何一个相似度较高即可,比如“Japanese style”和"kawaii"在string similarity上相差甚远,但是affix会带来很大的提升。

b. Negtive Evidence只考虑 positive evidence可能会带来很多错误的正例,所以我们要引入多维度的negative evidence来避免wrong rejection of positive evidence

考虑下面几个原则:

Principle 1 (Co-occurrence): 在一个query中共同出现的两个词通常来讲属于不同的property, 同时两个相反的词比如“红”“白”通常不会出现在一个query里面

Principle 2 (Distribution of Categories):一对具有不同类别分布的term更可能属于两种不同的属性。 理由显然意见,相似的query得到的查询结果也会有相同的cate的分布

Principle 3 (Distribution of POS Tags): 含有不同POS (词性)分布的一对term通常会更加可能属于两个不同的property

POS tags意味着单词的词性

Principle 4 (Distribution of Semantic Tags): 有着不同语义分布的term通常也不属于同一个property,本文作者采用了一个Seq2Seq模型从8million个语句中来收集训练语义分布

则有

Aggregated negative evidence: 由于从不同的来源中收集了各种反列证据,但是根据单一来源直接拒绝是不合理的,所以,只有当所有的evidence都拒绝时才比较又说服力

Term Similarity Graph首先构建similarity graph , 同属于一个property下的两个term连边,边的权重为positive score

构建图的本意是为了对于每个term找到最相关的property,这里可以抽象为

这里之所以选用max,只是一种实践中比较好的方法。

这里在构建好的图上面进行两种图算法来尝试计算score,第一个是最短路算法,第二个是随机游走算法

Shortest Path under Constraints

特别的,为了尽量避免选中的路径经过具有High negative score的边, 需要对边权加限制

其中

Random Walk under Constraints

最短路算法只考虑了一条路径,信息过少,所以需要引入Random walk的方法来度量

这里希望终点是existing term,即当 时,希望它能困在原地,这里给出了θ>=0.5,同时给出了negative的惩罚。

综上已经给出了所有方法部分的说明,实验部分待续

Reprint please indicate:http://ixzs.cnsoftweb.com/ERP-5134.html