Попарное и построчное удаление пропущенных данных

Принятый по умолчанию способ удаления пропущенных данных (w Электронный статистический) при вычислении корреляционной матрицы состоит в построчном удалении наблюдений с пропусками (удаляется вся строка, в которой пропущено хотя бы одно значение). Этот способ позволяет построить «правильную» корреляционную матрицу, все коэффициенты которой вычисляются по одному и тому же множеству наблюдений. Однако если пропущенные значения распределены в переменных случайным образом, то данный метод может привести к тому, что в рассматриваемом множестве данных не останется ни одного неисключённого наблюдения: в каждой строке наблюдений встретится хотя бы одно пропущенное значение. Чтобы избежать подобной ситуации, применяют другой способ — попарное удаление. Используя этот способ, учитывают только пропуски в каждой выбранной паре переменных и игнорируют пропуски в других переменных. Корреляцию между парой переменных вычисляют по наблюдениям, где нет пропусков. Когда число пропусков относительно мало (скажем, 10%) и они распределены достаточно хаотично, этот метод не приводит к серьёзным ошибкам.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >