Потенциальная ошибка конфиденциальности обнаружена в данных переписи американцев 2010 года

73
4 минуты
Потенциальная ошибка конфиденциальности обнаружена в данных переписи американцев 2010 года
Внутренняя команда Бюро переписи населения обнаружила, что основную личную информацию, собранную более чем 100 миллионами американцев в ходе подсчета голосов в 2010 году, можно восстановить из зашифрованных данных, но с большим количеством ошибок, сообщил в субботу высокопоставленный представитель агентства.

Возраст, пол, местонахождение, раса и этническая принадлежность для 138 миллионов человек были потенциально уязвимы. Однако до сих пор только внутренние хакерские команды обнаружили такие детали с возможным риском, и ни одна из внешних групп, как известно, не собирала данные, предназначенные для того, чтобы оставаться конфиденциальными в течение 72 лет, сказал главный ученый Джон Абоуд на научной конференции.

Бюро переписей в настоящее время отказывается от своей старой методики защиты данных для современного метода, который, по утверждению Абуда, намного лучше, чем у Google или Apple.

Некоторые бывшие руководители агентства опасаются, что потенциальная проблема с конфиденциальностью усилит опасения, что люди будут избегать ответов или лгать в опросе один раз в 10 лет из-за попытки администрации Трампа добавить широко обсуждаемый вопрос гражданства.

Верховный суд в пятницу объявил, что будет принимать решение по этому предложенному вопросу, который подвергся критике за то, что он политический и не был должным образом проверен на местах. Счет переписи чрезвычайно важен, помогая с распределением мест в Палате представителей.

Предполагается, что 8 миллиардов статистических данных в данных переписи перемешаны таким образом, что то, что публикуется для исследований, не может идентифицировать людей более семи десятилетий. По словам профессора статистики Университета Дьюка Джерома Рейтера, в 2010 году Бюро переписи населения сделало это, передавая аналогичную информацию о домохозяйствах из одного города в другой.

По словам Абуда, во внутренних тестах чиновникам удалось сопоставить 45 процентов людей, ответивших на перепись 2010 года, с информацией из публичных и коммерческих наборов данных, таких как Facebook. Но ошибки в этом методе означали, что только данные для 52 миллионов человек были бы полностью правильными - немногим больше, чем 1 из 6 населения США.

Он сказал, что перепись 2010 года использовала наилучшую возможную защиту конфиденциальности, но с тех пор хакеры стали более опытными в восстановлении данных. Чтобы противостоять их растущим возможностям, агентство полностью изменило систему к 2020 году и предложит «золотой стандарт» конфиденциальности, независимо от судьбы вопроса о гражданстве, сказал Абуд.

«Это была наша цель», - сказал Абуд на ежегодном собрании Американской ассоциации содействия развитию науки.

Проректор Джорджтаунского университета Роберт Гроувс, который возглавлял перепись 2010 года, сказал, что у подсчета была надлежащая конфиденциальность, и что каждая перепись улучшается. Он похвалил нововведения.

Бывший руководитель агентства Кеннет Преуитт, профессор политики в Колумбийском университете, сказал, что базовая информация, такая как возраст и этническая принадлежность, даже если она публично раскрывается, не так важна, как другие нарушения данных.

«Существует широко распространенное беспокойство о конфиденциальности, которое очень сильно связано с Facebook, Google и так далее», - сказал Преуитт. «Я гораздо больше беспокоюсь о том, что мой iPhone следит за мной каждый день», и что Apple продает эту информацию компаниям.

Новая система включает в себя сложные математические алгоритмы, которые вводят «шум» в данные, затрудняя получение точной информации и обеспечивая «очень надежную гарантию» конфиденциальности, - сказал профессор компьютерных наук Университета Дьюка Эшвин Мачанаваджхала.

Это повышает конфиденциальность при одновременном снижении точности для исследователей, которые используют статистику. 

Решение об официальной настройке конфиденциальности / точности на 2020 год не принято. Абуд сказал, что чиновники и политики, а не инженеры или ученые, сделают этот призыв.

Бюро переписей опробовало эту систему в опросе 2018 года с использованием сверхтвердой настройки конфиденциальности, которая, хотя и не напрямую сопоставима с Google или Apple, но в сотни, если не в тысячи раз более безопасна для конфиденциальности, чем то, что сейчас используется в данных из поисков с помощью Google или iPhone от Apple, сказал Рейтер.

Преуитт предположил, что общественность может не понимать дополнительных усилий, предпринимаемых для подсчета 2020 года, и будет напугана раскрытием информации об уязвимости конфиденциальности, что заставит людей более неохотно соблюдать следующую перепись.

Если администрации удастся добавить вопрос о гражданстве, «это будет огромное уклонение от переписи и некоторое выборочное злоупотребление ей», сказал Преуитт.

Преуитт сказал, что некоторые люди избегают опроса из-за этого или лгут, но это не хороший результат, что делает данные менее пригодными для использования.

Гровс сказал, что у технических экспертов есть серьезные проблемы с вопросом о гражданстве, потому что он не был проверен на местах, как это обычно бывает со всеми вопросами переписи. Он сравнил это с выпуском нового препарата на рынок перед необходимыми испытаниями.

«Очень тонкие формулировки и позиционные изменения в таких вещах, как перепись, могут оказать огромное влияние, выходящее за рамки того, что мы, люди, можем предсказать», - сказал Гровс.

Комментарии