Как преодолеть трудности с данными: применение робустной статистики в науке о данных

Печальная правда в том, что теоретическая наука о данных часто сталкивается с реальными проблемами, такими как выбросы и искаженные распределения. В новой статье обсуждается, как использовать робустную статистику для получения надежных данных, даже когда традиционные методы не срабатывают.

Применяя Pingouin, мы рассматриваем три сценария: сравнение белых и красных вин, анализ изменений сахара у пациентов и оценка уровней сахара в зависимости от качества вин. Например, вместо традиционного t-теста, когда выборки не нормальны, применяется тест Манна-Уитни, который сравнивает ранги данных, что позволяет избежать искажений от выбросов.

В других случаях, таких как сравнение измерений одного и того же объекта, для получения надежных результатов используется тест Уилкоксона, который справляется с неравномерным распределением. Также применяется Welch’s ANOVA, когда обычный ANOVA не годится из-за вариаций в группах.

Эти методы показывают, что настоящие мастера науки о данных не всегда имеют идеальные наборы данных, но знают, как справляться с их сложностями. Использование инструментария Pingouin помогает избежать ловушек неудачных предположений и получать валидные инсайты.

Автор статьи, Иван Паломарес Карраскоса, является экспертом в области ИИ и машинного обучения.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена