什么是文本分析

文本分析是指对文本的表示及其特征项的选取。文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。文本是由特定的人创作的,文本的语义间接反映人的特定立场、观点、价值和利益。因此,文本分析可以推断文本提供者的意图和目的。

文本分析的过程是将无结构化的原始文本转化为结构化形式、高度抽象、特征化,计算机可以识别和处理的信息,进而利用机器学习、分类聚类等算法再对文本进行分析处理。

特征词选取的四种方法:

1)用映射或转换的方法把原始特征词变为新特征词。

2)从初始特征词中挑选出最具代表性的特征词。

3)根据专家的知识挑选最有影响的特征词。

4)利用数学模型,找出最具分类信息的特征词。

类似文章

发表评论

您的电子邮箱地址不会被公开。