Metadata
How improve Set Similarity Join based on prefix approach in distributed environment
PPADJoin
- 作用:避免候选对重复
- 只对前缀的最后一个共同元素生成候选对
这个迁移到MapReduce会有点奇怪,除非只在一个节点上进行,PPJoin的这一步骤只是一层循环,但是这个是两层循环
负载均衡
- 贪心算法
- 负载预估
TTJoin
Two Token Filter
表示元素存在于 x 但是不存在与 y中,可以理解为差集
TTJoin 这篇论文主要有三个点组成:
- PPADJoin:消除重复候选对,只对前缀的最后一个共同元素生成候选对
- 负载均衡:贪心算法
- Two Token Filter:可以理解为前缀计算方式不一样的前缀过滤,由于需要两个集合的信息,所以不能用于候选对的生成,只能用于交集计算前的过程