模糊匹配(模糊匹配函数公式xlookup)

Power Query 功能(如模糊合并、群集值和模糊分组)使用与模糊匹配相同 模糊匹配的机制。

本文介绍了许多场景,这些场景演示了如何利用模糊匹配的选项,目的是使“模糊”变得清晰。

应用模糊匹配算法的最佳场景是,列中的所有文本字符串只包含需要比较的字符串,而不包含额外的组件。 例如,对比 得到的相似分数比对比 得到的相似分数高。

因为第二个字符串中的单词只是整个文本字符串的一小部分,所以这种比较会产生较低的相似性分数。

例如,下面的数据集来自一个只有一个问题的调查——“您最喜欢的水果是什么?”

水果 蓝莓 蓝莓就是最好的 草莓 草莓 = <3 苹果 'sples 4ppl3s Bananas 最喜欢的水果是香蕉 香蕉 到目前为止,我最喜欢的水果是苹果。 我就是爱它们!

该调查提供了一个单独的文本框来输入值,并且不需要验证。

现在,您的任务是对这些值进行聚类分析。模糊匹配 若要完成该任务,请将前面的水果表加载到 Power Query 中,选择该列,然后在功能区中的添加列选项卡中选择群集值选项。

此时会显示群集值对话框,可在其中指定新列的名称。 将此新列命名为群集,然后选择确定

默认情况下,Power Query 使用相似度阈值 0.8(或 80%)。 最小值 0.00 会导致具有任何相似度的所有值相互匹配,最大值 1.00 只允许精确匹配。 模糊“精确匹配”可能会忽略大小写、词序和标点符号等差异。 上一次操作的结果产生了带有新群集列的下表。

虽然已经完成了聚类分析,但它并没有为所有行提供预期结果。 行号二 (2) 仍具有值,但它应聚集到,与文本字符串、 和 类似。

若要确定导致此聚类分析的原因,请双击已应用的步骤面板中的聚集值,以恢复群集值对话框。 在此对话框中,展开模糊群集选项。 启用显示相似性分数选项,然后选择确定

启用显示相似性分数选项会在表中创建新列。 这一列显示了所定义的群集与原始值之间精确的相似性分数。

仔细检查后,Power Query 在文本字符串、和的相似性阈值中找不到任何其他值。

已应用的步骤面板中双击聚集值,返回群集值对话框。 将相似性阈值0.8 更改为 0.6,然后选择确定

此更改会使您更接近所要查找的结果,但文本字符串除外。 将相似性阈值的值从 0.8 更改为 0.6 后,Power Query 现在能够使用从 0.6 开始一直到 1 的相似性分数的值。

可以通过将相似性分数从 0.6 更改为较低的数字来重试,直到获得要查找的结果。 在本例中,将相似性分数更改为 0.5。 此更改将生成您期望的确切结果,其中文本字符串现在分配给群集。

转换表帮助您在执行模糊匹配算法之前将列中的值映射到新值。

关于如何使用转换表的一些示例:

  • 群集值中的转换表
  • 模糊合并查询中的转换表
  • 分组依据中的转换表
  • 模糊合并
  • 群集值
  • 模糊分组

转载请说明出处 内容投诉内容投诉
九幽软件 » 模糊匹配(模糊匹配函数公式xlookup)