Все мы не раз сталкивались с проблемами в моделях, которые возникали не из-за неправильного алгоритма, а из-за пропущенных значений. Компания NoBroker, работающая в индийском prop-tech, предлагает пример того, как правильно обрабатывать «грязные» данные на практике. В своем проекте NoBroker использует реальный набор данных о 28,888 объектов недвижимости, обнаружив в нем множество несоответствий и пропусков, которые затрудняли анализ.
Ключевыми шагами в работе с такими наборами являются: осознание природы пропусков данных, выявление и удаление выбросов, исправление несоответствий и обязательная документация всех этапов. Например, вместо удаления строк с пропущенными URL фотографий, их можно заменить на «ноль», чтобы не потерять ценные записи. Для числовых и категориальных колонок используются стратегии импутации для заполнения пустот.
Также важно уметь распознавать выбросы, которые могут оказаться как ошибками ввода, так и уникальными свойствами, например, дом с 21 ванной. Обработка несоответствий требует большего внимания, например, исправления неправильного формата JSON, что достигается с помощью стандартизации. Оформление и ведение документации здесь важны для будущих пользователей данных.
Все это подчеркивает, что работа с «грязными» данными требует не только технических навыков, но и системного подхода, превращая каждую проблему в возможность научиться чему-то новому.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена.
