Что такое гармонизация данных?
Часто пользователи приложений, позволяющих строить аналитику и отчетность, работают уже с конечным продуктом и не задумываются обо всей сложности процесса, который лежит за пределами распространения данных.
В то время как одним из важных этапов процесса управления данными, который остается практически невидимым для пользователей, является гармонизация данных.
Гармонизация данных позволяет обобщить разрозненные показатели, привести их к общему знаменателю, вынося за скобки интересные только узкому кругу лиц данные (так называемые «метаданные»). Потребность в гармонизации данных в любой аналитической системе абсолютно естественна и исходит из привычного человеку стремления к обобщению информации и каталогизации данных для упрощения доступа. Другая сторона медали – это возможность разных систем взаимодействовать друг с другом на понятном языке; интеграция между ними, как раз, достигается с помощью процессов гармонизации и стандартизации.
В своих решениях, связанных с системами управления данными, мы часто сталкиваемся с различным толкованием показателей. Происходит это из-за разницы в методологиях расчетов, сбора, происхождения и структуры исходных данных.
На нашем примере – две таблицы, взятые из популярных источников данных мировой статистики сельского хозяйства: Eurostat и FAOStat. В обеих таблицах – данные о производстве винограда в Италии и Франции за период с 2009 по 2018 гг. Как видите, одна и та же информация представлена в разных разрезах: FAOStat использует в качестве единицы измерения – тонны, а Eurostat – тысячи тонн. Для дальнейшей работы с данными в едином наборе, необходимо их приведение к общему виду.