如何通过自然语言来处理大数据

如何通过自然语言来处理大数据

自然语言处理(NLP)是一个非常令人兴奋的前沿研究领域,Siri、Alexa和谷歌Home等产品已经利用了自然语言处理技术,为各自的产品带来了新的交互水平。为了理想地使用NLP,我们必须考虑这种特殊类型的处理可以如何帮助我们,我们打算从利用它获得什么,以及我们如何从原始数据到最终产品。如果只是刚刚开始研究NLP,它可能是一个压倒性的经验,但通过把这个过程分解成更易于管理的部分,我们可以轻松地浏览这个主题。

从基础开始

我们看到的基本处理是如何将常规的、日常的文本转化为计算机可以理解的内容。从中,可以提取出行话、俚语,甚至其他人的说话风格。此处理的基础将采用Unicode字符,并将它们分成单词,短语,句子和其他语言描述,例如标记化,解复合和词形化。使用所有这些策略,我们就可以开始分析一种语言,甚至通过标点符号旁边的单词和拼写来确定它是哪种语言。在我们构建用于使用的语言之前,必须首先分解它并分析它的组成部分,以便我们能够理解它的工作原理。

确定范围

在阅读一大段文字时,很难确定这段文字确切的含义。我们是需要知道文章的大意呢?还是更谨慎地去理解正文本身的内容呢?这就是我们所说的宏观理解和微观理解。自然语言处理受到成本和时间因素的限制,由于这些限制,某些级别的处理根本无法实现。一旦我们确定了目标范围,就可以开始提取了。

提取内容进行处理

宏观的理解使我们能够弄清楚正在处理的文档的总体要旨。可以将其用于分类,提取主题,法律文档摘要,语义搜索,重复检测以及关键字或关键词提取。如果正在研究微观理解,则可以使用处理过程来更深入地阅读文本本身,并提取缩略词及其含义或人员或公司的专有名称。在微观理解中,语序非常重要,必须予以保留。

返回跟踪可用性

从特定文档中提取数据后,我们要确保知道该数据来自何处。从长远来看,拥有到源文档的链接可以节省大量时间。这种跟踪可以帮助查找文本中可能存在的错误,并且如果这些源文档之一被更新为较新的版本,将来的更改则可以反映在提取的信息上,而无需进行最少的重新处理,这将节省时间和处理能力。

用户反馈

开发适应性NLP的最好方法是教它如何聆听创建语言的人(用户本身)的反馈。听取人们对NLP系统性能的反馈,可以帮助使其适应我们的期望。

保持领先

持续的质量分析对于确保NLP履行其角色并适应其周围的环境至关重要。创建一个NLP基本上就是教计算机如何从错误中学习,如何获得反馈以提高自身。就其本身而言,大数据是令人生畏的、重复的,其中可能隐藏着大量的洞察力。通过开发一个NLP,你给计算机一个它非常适合做的任务,同时教会它在提取过程中像人类一样思考。这是两全其美。

发表评论

您的电子邮箱地址不会被公开。