机器学习常见的坑

机器学习中有两个大坑,第一是系统边界模糊和巨型系统。这种系统的典型特征包括三点,第一就是模块间不可拆分,样本、特征、训练等步骤都偶合在一起。第二就是很多实验性、探索性代码遍布其中,搞不清楚哪些在用,哪些已失效。第三就是pipeline特别长,其中包括一些可能已经无用的流程。

第二是不重视基础数据架构建设。机器学习系统在构建初期,对待各种数据的态度往往是辅助性质的,认为这些数据只是为了模型服务的原料,而没有把它们本身作为严肃的子系统来对待,所以这些数据的架构往往缺乏设计,大多比较随意,可能会有很多难以复用代码。

机器学习应遵循的 5 条指导原则:

  1. 从小处着手,实验会进行的很快。减少循环时间能够及早发现问题并更快地验证假设。
  2. 了解数据。不了解数据就无法做好建模的工作。不要浪费时间在花哨的模型上,要沉心静气地完成数据探查工作。
  3. 尽量多地记录日志。训练过程的信息越多,就容易识别异常并进行改进。
  4. 注重简单性和透明性而不仅仅是效率。不要为了节省少量时间而牺牲了代码的透明性。理解不透明代码所浪费的时间要比低效算法的运行时间多得多。
  5. 如果模型表现优异令人难以置信,那可能就是有问题。

     

类似文章

发表评论

您的电子邮箱地址不会被公开。