机器学习中常见的错误有:使用模型默认的损失函数;无根据地选择线性模型;针对所有问题使用一种算法;忽视异常值的意义;不考虑n和p的关系;L1 / L2 正则化之前并没有对特征进行标准化;变量之间的共线性问题;将线性或逻辑回归的系数解释为特征重要性;过度依赖算法;没有正确处理周期性特征等。

使用模型默认的损失函数

损失函数是机器学习算法的核心,损失函数决定了最终优化后得到的参数以及模型本身。在不同的业务场景下,优化的目标应该是不同的,因此在不同场景下需要修改分类器模型的损失函数。

不考虑n和p的关系

n: 训练数据的数量。p: 特征的数量。SVM核函数的一个关键概念就是维度提升,如果当n<p的时候,还依然采用SVM来选定模型,那么就必然会导致p进一步增加,于是导致特征的参数中自由变量增加,必然会对分类的效果产生很大的影响。

发表评论

您的电子邮箱地址不会被公开。