分类时一定只进行分类吗?

分类时一定只进行分类吗?

产生这个疑问主要两个来源于两个切身体会。

来源一

最近做一个项目过程中,遇到一个问题。由于实验室条件的缘故,对于某指标的检测只能在某个水平上检测出来,比如指标值为50以上才能有显示,于是实验人员会根据检测结果(一次检测会有多个位点的值测出来)来标注结果中是否存在缺失,他们的目的是想确定下在不同的水平下,缺失概率是多少?检测水平多少比较经济、合适?因为在50的时候,他们还需要去掉许多背景噪音,工作量大,想不做那么严格控制。对于这个问题,细抠起来想建好模其实还比较麻烦。不过我的疑问不在这里,而是在于由于不同实验室实验仪器和操作水平不同,阈值水平不一样,即使建模所得的结果,也是针对不同实验室得出来的结论。而造成这个结果不同的主要原因就是因为人为划分的阈值水平不同,导致类别结果不同。换句话说,我分类、打的标签不同,你建模的结果就会大不一样。同一批数据,我选择阈值不同,缺失的结果就不一样,所以我觉得挺难去确定一个适用于绝大多数实验室的阈值。
Continue reading