AI系统如何识别重复数据?

AI系统如何识别重复数据?

当您并行比较两个Salesforce记录或与此相关的任何其他CRM时,可以轻松确定它们是否重复。然而,即使记录数量很少(例如少于100,000个),也几乎不可能一张一张地筛选它们并进行比较。这就是为什么公司开发了各种工具来使这些过程自动化,但是未来做好工作,机器需要能够识别记录之间的所有异同。在本文中,我们将仔细研究数据科学家用来训练机器学习系统以识别重复项的一些方法。 

机器学习系统如何比较和对比记录? 

研究人员使用的主要工具之一是字符串指标。这是当获取两个数据字符串,并在字符串相似时返回低值,在字符串不同时返回高值。在实践中这是如何工作的?让我们看一下下面的两条记录: 

First NameLast NameEmailCompany Name
Ron Burgundyron.burgundy@acme.comAcme
Ronaldburgundyron.burgundy@acme.comAcme Corp

如果有人要看这两个记录,那么很明显,它们是重复的。AI主要就是,机器依赖于字符串参数来复制人类的思维过程。汉明距离是最著名的字符串指标标准之一,它测量将一个字符串转换为另一个字符串所需进行的替换次数。例如,如果我们返回上面的两个记录,则只需要进行一次替换即可将 “burgundy” into “Burgundy,” ,因此汉明距离为1。 

还有许多其他字符串度量标准可以度量两个字符串之间的相似性,而每个字符串之间的分隔是它们允许的操作。例如,我们提到了汉明距离,但是此字符串指标仅允许替换,这意味着它只能应用于长度相等的字符串。像Levenshtein距离之类的东西允许删除插入和替换。 

如何使用所有这些来对Salesforce进行重复数据删除? 

人工智能系统可以采用以下方式处理Salesforce重复数据删除。一种方法是阻塞方法,如下所示:

Record 1Record 2
Ron Burgundy, ron.burgundy@acme.com, AcmeRonald burgundy,ron.burgundy@acme.com Acme Corp

这种阻塞方法使这种方法具有可扩展性。它的工作方式是,每当将新记录上载到Salesforce时,系统都会自动将看起来“相似”的记录阻塞在一起。这可以类似于名字的前三个字母或任何其他条件。 

这非常有益,因为它减少了需要进行的比较次数。例如,假设在Salesforce中有100,000条记录,想上传一个包含50,000条记录的Excel电子表格。传统的基于规则的重复数据删除应用程序需要将每个新记录与现有记录进行比较,这意味着需要完成5,000,000,000个比较(100,000 x 50,000)。这将花费很长时间,并且增加了出错的可能性。此外,我们需要记住,100,000条记录是相当少量的Salesforce记录。有许多组织拥有数十万甚至数百万条记录。因此,传统方法在尝试适应此类模型时根本无法很好地扩展。 

另一个选择是分别比较每个字段:

  Record 1Record 2
First NameRonRonald
Last NameBurgundyburgundy
Emailron.burgundy@acme.comron.burgundy@acme.com
CompanyAcmeAcme Corp

一旦系统将“相似”记录锁定在一起,它将继续逐字段分析每个记录。这就是我们前面讨论的所有字符串指标都将发挥作用的地方。除此之外,系统还将为每个字段分配特定的“权重”或重要性。例如,假设对于您的数据集,“Email”字段是最重要的。可以自己调整算法,也可以在将记录标记为重复项(或不重复)时,系统将自动学习正确的权重。这被称为主动学习,因为系统可以精确计算一个领域比另一个领域的重要性,所以更可取。

机器学习方法的优势是什么? 

机器学习可以提供的最大好处是它可以为您完成所有工作。我们在上一节中描述的“主动学习”方面将自动将所有必要的权重应用于每个字段。这意味着无需创建复杂的设置过程或规则。让我们看一下以下情况。假设一位销售发现了一个重复项,并将此问题通知给Salesforce管理员。然后,Salesforce管理员将继续创建一条规则,以防止将来发生此类重复。每次发现新的重复项时,都必须一次又一次地重复此过程,从而使该过程变得不可持续。 

另外,我们需要记住,Salesforce中内置的重复数据删除也是基于规则的,它非常有限。例如,一次只能合并三个记录,不支持自定义对象,还有很多其他限制。因为规则创建是简单的自动化,所以机器学习只是一种更智能的方法,而AI和机器学习则尝试重新创建人类的思维过程。本文讨论了更多有关机器学习和自动化之间差异的信息。如果选择一个只扩展Salesforce功能的重复数据删除产品,而不是修复整个过程,那是没有意义的。

作者:Ilya Dudkin

免责声明:凡未注明来源或者来源为网络的信息均转自其它平台,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。网站只负责对文章进行整理、排版、编辑,不承担任何法律责任。若有侵权或异议请联系我们删除,谢谢。

发表评论

您的电子邮箱地址不会被公开。