Smart Analytics | Статьи | Скрытый процесс - гармонизация данных

12 марта 2020 г.

Скрытый процесс - гармонизация данных

Покажем на реальном примере, как гармонизация и стандартизация данных помогают обобщить разрозненные показатели, делая последующую работу с данными корректной и эффективной.

Что такое гармонизация данных?

Часто пользователи приложений, позволяющих строить аналитику и отчетность, работают уже с конечным продуктом и не задумываются обо всей сложности процесса, который лежит за пределами распространения данных.

В то время как одним из важных этапов процесса управления данными, который остается практически невидимым для пользователей, является гармонизация данных.

Гармонизация данных позволяет обобщить разрозненные показатели, привести их к общему знаменателю, вынося за скобки интересные только узкому кругу лиц данные (так называемые «метаданные»). Потребность в гармонизации данных в любой аналитической системе абсолютно естественна и исходит из привычного человеку стремления к обобщению информации и каталогизации данных для упрощения доступа. Другая сторона медали – это возможность разных систем взаимодействовать друг с другом на понятном языке; интеграция между ними, как раз, достигается с помощью процессов гармонизации и стандартизации.

В своих решениях, связанных с системами управления данными, мы часто сталкиваемся с различным толкованием показателей. Происходит это из-за разницы в методологиях расчетов, сбора, происхождения и структуры исходных данных.

На нашем примере – две таблицы, взятые из популярных источников данных мировой статистики сельского хозяйства: Eurostat и FAOStat. В обеих таблицах – данные о производстве винограда в Италии и Франции за период с 2009 по 2018 гг. Как видите, одна и та же информация представлена в разных разрезах: FAOStat использует в качестве единицы измерения – тонны, а Eurostat – тысячи тонн. Для дальнейшей работы с данными в едином наборе, необходимо их приведение к общему виду.

Когда необходима гармонизация данных?

На простом примере попробуем объяснить, в каком случае необходима гармонизация данных.

Предположим, что источник данных A собирает данные по различным показателям, связанным с товаром T1 в различных странах. Но так как в данном источнике есть только товар T1, то все показатели будут иметь следующую классификацию:

«Производство товара T1, в тоннах», «Экспорт товара T1, в тоннах», «Цена товара T1, в $/Tонна» и т.д.

Источник данных B, в свою очередь, собирает данные по производству всех товаров T*. Только для удобства выделяет сам товар в отдельную категорию: T1 – Производство, T2 – Производство. При этом, единицы измерения также представлены в нескольких категориях, но для одной страны - США и, соответственно, в местных единицах измерения – фунтах, бушелях и т.д.

При необходимости сведения информации из источников A и B в единый набор данных, необходимо произвести ряд действий, который приведет к трансформации исходной структуры в нечто новое:

  • В источнике А – в отдельный справочник выделится товар T1 и станет независимым измерением (аналогично и с единицами измерения «Тонна», «$»), показатели преобразуются в «Производство», «Экспорт», «Цена». Таким образом у нас появятся кортежи Страна1 - T1 – Производство – Тонна, Страна1 - T1 – Экспорт – Тонна, Страна2 - T1 – Цена - $/Тонна и т.д.
  • В источнике B единицы измерения для показателя «Производство» с помощью коэффициентов с заданной точностью будут преобразованы из бушелей в тонны. А также выделен справочник единиц измерения. Следовательно, у нас появятся кортежи США - T1 – Производство – Тонна, США - T2 – Производство – Тонна и т.д.

Таким образом, данные могут быть сведены в общий набор, а информация об источнике и преобразованиях единиц измерения может быть вынесена в описательные метаданные.

Гармонизация данных в международных организациях

Многие международные организации, работающие со статистикой, тратят огромные человеческие и финансовые ресурсы, стараясь привести свои данные к систематизированному виду.

Одним из наиболее известных примеров реализации таких подходов является международный стандарт обмена данными SDMX.

Но даже с учетом этого, организации вынуждены закрывать первичный слой гармонизации данных собственными силами.

В наших решениях, связанных с системами управления данными, мы часто сталкиваемся с различным толкованием показателей в силу разницы в методологиях расчетов, сбора, происхождения и структуры исходных данных.

Руководитель проектов

Smart Analytics

Порой преобразования не обходятся простыми приёмами нормализации данных. И очень часто для гармонизации данных требуется тщательное ознакомление с предметной областью, чтение методологических материалов источников данных, изучение массы комментариев и внутренних метаданных для обоснования метода обобщения и приемов стандартизации. Все это в сумме занимает огромное количество времени и требует тщательности и обдуманности в действиях.

Специалисты Smart Analytics имеют многолетний опыт сотрудничества и успешных внедрений для организаций, которые собирают, обрабатывают и анализируют статистическую информацию. Результатом нашей кооперации стало решение Data Management & Data Dissemination, покрывающее весь объём работы с данными, включая нормализацию и гармонизацию данных.

Теги

  • Открытые данные
  • Статистика
  • Управление данными
  • Дашборды
  • Экономика

Подпишитесь на блог

Будем делиться с вами своими знаниями и открытиями. Никакого спама, только польза.