如图两个样本之间的距离,如果使用欧拉距离的话就是1-5的平法加上200-100的平方再开根号,在这种情况下显然就发现这个距离的大小被发现的时间所主导了;
由于量纲不同导致了最终的距离其实主要衡量的是个发现的时间(起主导作用),因为肿瘤大小之间的差值太小了;
可是我们也很容易发现,如果把时间调整为单位为年的话0.55年和0.27年,此时样本之间的距离又一下子被肿瘤的大小所主导;
很显然我们就发现,如果不进行一些数据的基本处理的话直接进行距离的运算结果很有可能有偏差不能反映准确的结果,因此我们需要对数据进行归一化的处理;
将所有的数据映射到同一尺度;
把所有的数据映射到0-1之间;这种做法适用于分布有明显的边界,受outlier影响较大;
把所有的数据归一到均值为0方差均为1的分布中;
这种做法适用于数据分布没有边界;有可能存在极端数据值的情况;