Внутренняя команда Бюро переписи населения обнаружила, что основную личную информацию, собранную более чем 100 миллионами американцев в ходе подсчета голосов в 2010 году, можно восстановить из зашифрованных данных, но с большим количеством ошибок, сообщил в субботу высокопоставленный представитель агентства.
Возраст, пол, местонахождение, раса и этническая принадлежность для 138 миллионов человек были потенциально уязвимы. Однако до сих пор только внутренние хакерские команды обнаружили такие детали с возможным риском, и ни одна из внешних групп, как известно, не собирала данные, предназначенные для того, чтобы оставаться конфиденциальными в течение 72 лет, сказал главный ученый Джон Абоуд на научной конференции.
Бюро переписей в настоящее время отказывается от своей старой методики защиты данных для современного метода, который, по утверждению Абуда, намного лучше, чем у Google или Apple.
Некоторые бывшие руководители агентства опасаются, что потенциальная проблема с конфиденциальностью усилит опасения, что люди будут избегать ответов или лгать в опросе один раз в 10 лет из-за попытки администрации Трампа добавить широко обсуждаемый вопрос гражданства.
Верховный суд в пятницу объявил, что будет принимать решение по этому предложенному вопросу, который подвергся критике за то, что он политический и не был должным образом проверен на местах. Счет переписи чрезвычайно важен, помогая с распределением мест в Палате представителей.
Предполагается, что 8 миллиардов статистических данных в данных переписи перемешаны таким образом, что то, что публикуется для исследований, не может идентифицировать людей более семи десятилетий. По словам профессора статистики Университета Дьюка Джерома Рейтера, в 2010 году Бюро переписи населения сделало это, передавая аналогичную информацию о домохозяйствах из одного города в другой.
По словам Абуда, во внутренних тестах чиновникам удалось сопоставить 45 процентов людей, ответивших на перепись 2010 года, с информацией из публичных и коммерческих наборов данных, таких как Facebook. Но ошибки в этом методе означали, что только данные для 52 миллионов человек были бы полностью правильными — немногим больше, чем 1 из 6 населения США.
Он сказал, что перепись 2010 года использовала наилучшую возможную защиту конфиденциальности, но с тех пор хакеры стали более опытными в восстановлении данных. Чтобы противостоять их растущим возможностям, агентство полностью изменило систему к 2020 году и предложит «золотой стандарт» конфиденциальности, независимо от судьбы вопроса о гражданстве, сказал Абуд.
«Это была наша цель», — сказал Абуд на ежегодном собрании Американской ассоциации содействия развитию науки.
Проректор Джорджтаунского университета Роберт Гроувс, который возглавлял перепись 2010 года, сказал, что у подсчета была надлежащая конфиденциальность, и что каждая перепись улучшается. Он похвалил нововведения.
Бывший руководитель агентства Кеннет Преуитт, профессор политики в Колумбийском университете, сказал, что базовая информация, такая как возраст и этническая принадлежность, даже если она публично раскрывается, не так важна, как другие нарушения данных.
«Существует широко распространенное беспокойство о конфиденциальности, которое очень сильно связано с Facebook, Google и так далее», — сказал Преуитт. «Я гораздо больше беспокоюсь о том, что мой iPhone следит за мной каждый день», и что Apple продает эту информацию компаниям.
Новая система включает в себя сложные математические алгоритмы, которые вводят «шум» в данные, затрудняя получение точной информации и обеспечивая «очень надежную гарантию» конфиденциальности, — сказал профессор компьютерных наук Университета Дьюка Эшвин Мачанаваджхала.
Это повышает конфиденциальность при одновременном снижении точности для исследователей, которые используют статистику.
Решение об официальной настройке конфиденциальности / точности на 2020 год не принято. Абуд сказал, что чиновники и политики, а не инженеры или ученые, сделают этот призыв.
Бюро переписей опробовало эту систему в опросе 2018 года с использованием сверхтвердой настройки конфиденциальности, которая, хотя и не напрямую сопоставима с Google или Apple, но в сотни, если не в тысячи раз более безопасна для конфиденциальности, чем то, что сейчас используется в данных из поисков с помощью Google или iPhone от Apple, сказал Рейтер.
Преуитт предположил, что общественность может не понимать дополнительных усилий, предпринимаемых для подсчета 2020 года, и будет напугана раскрытием информации об уязвимости конфиденциальности, что заставит людей более неохотно соблюдать следующую перепись.
Если администрации удастся добавить вопрос о гражданстве, «это будет огромное уклонение от переписи и некоторое выборочное злоупотребление ей», сказал Преуитт.
Преуитт сказал, что некоторые люди избегают опроса из-за этого или лгут, но это не хороший результат, что делает данные менее пригодными для использования.
Гровс сказал, что у технических экспертов есть серьезные проблемы с вопросом о гражданстве, потому что он не был проверен на местах, как это обычно бывает со всеми вопросами переписи. Он сравнил это с выпуском нового препарата на рынок перед необходимыми испытаниями.
«Очень тонкие формулировки и позиционные изменения в таких вещах, как перепись, могут оказать огромное влияние, выходящее за рамки того, что мы, люди, можем предсказать», — сказал Гровс.