Даже Всемирный банк способен заморочить вам голову, или почему надо всегда проверять качество данных

Продолжаем изучать руководство по верификации для журналистских расследований.

Джаннина Сеньини, приглашенный профессор Школы Журналистики Колумбийского университета города Нью-Йорк, считает, что все данные надо проверять. Вообще все, даже те, которым, казалось бы, вы готовы доверять без оглядки. В качестве примера она приводит кейс с дата-сетом Всемирного банка. Вроде бы — куда уж надёжней! Но выяснилось, что репутация учреждения ничего не значат, когда речь заходит о большом массиве данных.

Всемирный банк не включает в свои базы данных стоимость всех своих проектов, публикует грязные данные и не удосуживается учитывать все свои проекты как минимум в одной версии данных. С учетом всего этого, какого качества данных ждать от менее надежных учреждений? — задаётся вопросом Джаннина.

Итак, каким образом можно проверить качество данных?

Первое: выясните, насколько полон набор данных

В качестве примера эксперт приводит одну из баз Всемирного банка с с более чем 10 000 независимых оценок по более чем 8600 проектам. За счёт сортировки в порядке возрастания по столбцу «Затраты на кредитование» можно быстро убедиться, что во многих строках в колонке «Стоимость» значится ноль. Не просто во многих — в половине. Таким образом, набор данных в представленном виде приведёт к неточным выводам.

Отличным средством для быстрого просмотра и оценки качества баз данных Джаннина называет Open Refine. О том, как работать с этой программой, мы разбирали в рамках цикла вебинаров, посвящённых статистическим данным (по ссылке вы также найдёте много полезной информации по работе с OpenRefine).

Второе: поймите, присутствуют ли дубликаты записей

Невыявление повторяющихся записей — одна из распространенных ошибок, которые совершают при работе с данными. Например, в одной Всемирного банка эксперт, используя уникальные идентификационные номера проектов, обнаружила, что некоторые проекты повторяются до трех раз.

Использование данных в исходном виде также привело бы к ошибочным выводам. В той конкретной ситуации  следовало исключить повторы, выбрав наиболее надежную оценку.

Третье: проверьте, точны ли представленные данные

Один из лучших способов сделать это — выбрать образцовую запись и сравнить её с реальностью. Так, если отсортировать базу данных Всемирного банка, которая содержит все проекты, в порядке убывания стоимости, то мы найдем проект в Индии, который был самым дорогостоящим. По уникальному номеру проекта, можно найти в Google проектную документацию, где фигурирует та же самая стоимость, что и в базе. То есть цифра является точной.

Такие проверки данных через образец время от времени стоит повторять.

Четвёртое: оцените целостность данных

Например, в базе Всемирного банке есть проекты, помеченные как «активные» через много лет после даты их утверждения. Весьма высока вероятность того, что многие из них уже утратили этот статус. В этом случае выяснять достоверность данных придётся, привлекая непосредственно специалистов банка. 

Пятое: расшифруйте коды и сокращения

Коды и аббревиатуры часто используются для сокращения количества символов в ячейках и нормализации объёмов хранящихся данных. Почти каждая система баз данных использует коды или аббревиатуры для классификации информации. Необходимо учиться расшифровывать их и понимать, как они используются, чтобы быть в состоянии видеть логику за базами данных и их отношения друг с другом.

Так, база данных оценённых проектов Всемирного банка полна кодов и сокращений — APL, DPL, DRL, ERL, FIL, LIL, NA, PRC, PSL, RIL, SAD, SAL, SIL, SIM, SSL и TAL.

Чтобы осмыслить эти данные, необходимо исследовать значение аббревиатур. В противном случае вы не будете знать, что, скажем, ERL соответствует экстренным кредитам странам, которые недавно прошли через вооруженный конфликт или стихийное бедствие, — поясняет эксперт.

Шестое: проверьте полученные данные с помощью собственных глаз

Это, пожалуй, самый важный этап проверки — проверить гипотезу, которая, на ваш взгляд, вытекает из полученных данных, непосредственно, «на месте».

В качестве яркого примера Джаннина приводит историю 2012 года, когда она работала в составе междисциплинарной команды в Ла Насьон (Коста-Рика). Команда исследовала одну из наиболее важных государственных субсидий от правительства, известную как Avancemos. Она предусматривала выплаты ежемесячных стипендий малоимущим учащимся государственных школ, чтобы они не бросали учебу.

После получения базы данных по всем учащимся-бенефициарам, исследовали добавили туда имена их родителей. Затем запросили другие базы данных, касающиеся недвижимости, транспортных средств, зарплат и компаний в стране. Это позволило создать исчерпывающий перечень активов семей. Гипотеза состояла в том, что кое-кто из 167 тысяч учащихся-бенефициаров жил не так уж и бедно, а потому не должен был получать ежемесячных выплат.

Анализ вскрыл, что отцы примерно 75 учащихся имели ежемесячный доход свыше 2000 долларов США, а более 10 тысяч из них имели в собственности дорогую недвижимость или транспортные средства.

Но лишь когда мы пошли с посещениями по их домам, то смогли выяснить то, чего нам не могли бы показать никакие данные. Эти дети действительно жили в нищете со своими матерями, потому что их бросили отцы, — рассказывает Джаннина. — Эта история обобщает лучший урок, который я вынесла за годы моих расследований данных: даже самый лучший анализ данных не может заменить журналистику и полевой контроль на местах.

Источник информации

,