Как использовать робастную статистику для анализа реальных данных

В реальной жизни науки о данных часто сталкиваются с жестокой правдой: учебные пособия могут вводить в заблуждение. Профессионалы постоянно сталкиваются с выбросами, неравномерными распределениями и переменными, которые сложно контролировать. Мы уже рассматривали, как построить первичную аналитику данных с помощью Pingouin, но что делать, если тесты не проходят?

Решение — использовать робастную статистику. Эти методы помогают получать надежные результаты даже при наличии шумных и загрязненных данных. В статье мы пройдем через три сценария, используя Pingouin для анализа качества вин, поскольку это один из самых проблемных наборов данных.

В первом сценарии мы сравниваем белые и красные вина. Тесты нормальности показывают, что распределение не нормальное, что делает классический t-тест ненадежным. Вместо этого лучше использовать тест Манна-Уитни, который работает с рангами данных, а не с их средними значениями.

Во втором сценарии сравниваются два измерения одного и того же объекта. Если распределение различий не нормально, используем тест Вилкоксона как альтернативу парному t-тесту.

Наконец, в третьем сценарии мы исследуем уровень остаточного сахара в винах разных сортов с помощью Welch ANOVA, чтобы избежать проблем с неоднородностью дисперсий. Это открывает новую перспективу в анализе.

Как видно, знания о роботизированной статистике необходимы для эффективного анализа сложных данных.

компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена