什么是数据增强

什么是数据增强

数据增强是一种从现有数据中综合新数据的实践。这可以应用于从数字到图像的任何形式的数据。通常,扩展数据与已经可用的数据类似。在所有机器学习问题中,数据集决定了问题的解决程度。

有时我们没有足够的数据来构建健壮的模型,更常见的是数据具有明显的类别不平衡。假设我们正在构建一个模型来预测两个类中的一个,但是我们有一个类的 5000 个样本要训练,而另一个类只有 200 个样本。

在这种情况下,我们的模型几乎总是用更多样本来预测类别,因为它没有提供足够的数据来区分这两个类别。然后我们必须转向收集更多数据,但如果我们不能呢?一种方法是生成我们拥有的 200 个数据样本的精确副本并减少不平衡。虽然这确实提供了一些改进,该模型仍在从同一组特征中学习!也许一些巧妙的调整可以提高我们拥有的数据的质量。

增强文本数据的方法

  1. 用它们的同义词替换几个词。
  2. 用与这些词具有相似(基于余弦相似度)词嵌入(如 word2vec 或 GloVe)的词替换一些词。
  3. 使用强大的转换器模型 (BERT) 根据上下文替换单词。
  4. 使用反向翻译,即将一个句子翻译成另一种语言,然后将其翻译回原始语言,有时会修改一些单词。

发表评论

您的电子邮箱地址不会被公开。