1、要清楚的知道如果有两个样本他们的特征相似,是否就真的代表他们在现实世界中对预测结果的影响是相似的,否则这个就不是特征。

2、要避免陷入自己计算自己的怪圈,会导致过拟合,比如用target和输入属性之间的简单关系来做特征。

3、采用一个样本的统计特征会比这个样本的本身的特征来预测效果要好。

4、要相信人类才是这个世界的最高智慧,建立模型的时候合理思考究竟是什么对预测的结果会有影响,这些影响是怎么组织起来的,这些思考是建立模型的关键。

5、合理的计算方式来自于对于原始数据合理的理解。