Надежные статистические методы в эпоху «грязных» данных

Мир науки о данных полон неожиданностей. Часто теоретические методы, обучаемые в учебниках, не работают с реальными данными, полными выбросов и искажений. Новая статья обсуждает использование робастной статистики, которая позволяет получать валидные результаты, даже если данные не соответствуют классическим предположениям.

На примере анализа качества вина автор показывает, как справляться с трудностями, какими являются выборочные тесты, когда данные не распределены нормально. Вместо классического t-теста рекомендуется использовать тест Манна-Уитни, который сравнивает ранги данных, а не средние значения. Это позволяет учитывать выбросы и точно анализировать различия.

Далее, для случаев, когда сравниваются парные измерения, вместо парного t-теста рекомендуется тест Вилкоксона. И, наконец, когда необходимо оценить различия в уровне сахара в вине по качеству, вместо традиционного ANOVA полезно использовать Welch’s ANOVA, поскольку оно менее чувствительно к дисперсии.

Таким образом, будучи специалистом в области данных, важно знать, как адаптироваться к различным вызовам, возникающим в ходе анализа.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена