В реальной жизни науки о данных часто сталкиваются с жестокой правдой: учебные пособия могут вводить в заблуждение. Профессионалы постоянно сталкиваются с выбросами, неравномерными распределениями и переменными, которые сложно контролировать. Мы уже рассматривали, как построить первичную аналитику данных с помощью Pingouin, но что делать, если тесты не проходят?
Решение — использовать робастную статистику. Эти методы помогают получать надежные результаты даже при наличии шумных и загрязненных данных. В статье мы пройдем через три сценария, используя Pingouin для анализа качества вин, поскольку это один из самых проблемных наборов данных.
В первом сценарии мы сравниваем белые и красные вина. Тесты нормальности показывают, что распределение не нормальное, что делает классический t-тест ненадежным. Вместо этого лучше использовать тест Манна-Уитни, который работает с рангами данных, а не с их средними значениями.
Во втором сценарии сравниваются два измерения одного и того же объекта. Если распределение различий не нормально, используем тест Вилкоксона как альтернативу парному t-тесту.
Наконец, в третьем сценарии мы исследуем уровень остаточного сахара в винах разных сортов с помощью Welch ANOVA, чтобы избежать проблем с неоднородностью дисперсий. Это открывает новую перспективу в анализе.
Как видно, знания о роботизированной статистике необходимы для эффективного анализа сложных данных.
компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
