BIG DATA: приватности больше не существует

9 марта 2014, 12:00

Что такое большие данные и чем они нам грозят

На гребне инфоволны.

В научно-техническом прогрессе, как и во всех сферах человеческой жизни, есть место моде — вспомним хотя бы массовые восторги кибернетикой в 1960-х, персональными компьютерами в 1980-х и пугалками о ГМО в конце 1990-х. В последнее время все больше на слуху так называемые "большие данные". Вот о них и пойдет дальше речь — и даже не столько о самой технологии, сколько о тех переменах в жизни людей, которые она порождает.

Немного теории, или что такое BIG DATA

С момента появления компьютеров люди накопили колоссальные запасы оцифрованной информации в самых разных формах. Чтобы было понятнее, вспомните о вашем собственном информационном окружении — самые разношерстные данные хранятся в смартфоне, в ноутбуке, в соцсетях (переписка и фото), на флешках и CD-дисках. А если порыться, то какие-то файлы можно найти даже на архаичных дискетах. И это только у одного человека. А если представить себе исследовательский институт или завод с базами данных, которые касаются не только науки или выпуска продукции, но и бухгалтерии и т. д.?

И СНОВА КОЛЛАЙДЕР. Вот показательный пример: самая большая информационная фабрика в мире — Большой адронный коллайдер (Швейцария) — генерирует один петабайт (1 048 576 Гб) информации за секунду. Час работы — и коллайдер выдает данных больше, чем накопила цивилизация за всю историю.

До определенного момента такие скопления информации в общемировом масштабе выглядели как удаленные, оторванные друг от друга острова в океане. И только в последнее десятилетие были созданы модели и программные средства для анализа колоссальных объемов разношерстных данных из множества источников. Люди научились выявлять в этом оцифрованном хаосе скрытые закономерности. Дозрела для решения подобных задач и аппаратная база в виде выросшей мощности компьютеров, емкости устройств хранения данных, мириадов всевозможных датчиков и высокой скорости интернета.

Собственно, с этого момента и началась эпоха больших данных. В середине 2000-х обработку больших объемов данных освоили астрономы и генетики. В 2008 г. термин Big Data вошел в академический оборот. Через год — замелькал в деловой прессе. В 2013 г. параграф "большие данные" появился в вузовских учебниках.

Медицина и здравоохранение

Пять лет назад разразилась пандемия гриппа H1N1 (он же свиной). Мировая система здравоохранения постоянно (буквально дней на 10) опаздывала с выявлением новых очагов. Неожиданное решение предложили IT-специалисты из Google. Они оперативно внедрили систему, позволившую сравнить графики изменения популярности поисковых запросов с данными эпидемиологов за 2007—2008 гг. Айтишники выявили 45 особых запросов вроде "где купить капли в нос", которые стали индикатором: после того, как в каком-то регионе учащались эти запросы, там в 97 (!) случаев вскоре случалась вспышка гриппа. Здравоохранение получило тогда работающий в реальном времени и надежный инструмент выявления новых очагов распространения гриппа.

Торговля и маркетинг

Сети супермаркетов во всем мире, в том числе и Украине, успешно освоили использование огромных массивов данных. В ход идет многое: характеристики тысяч единиц продукции, отчеты с касс, рекламные и промо-кампании. Сюда же "домешивают" данные о покупках каждого клиента (сейчас это несложно сделать по накопительным карточкам постоянных клиентов). Ничто не мешает добавить все, что захочет аналитик — солнечную активность, магнитные бури, расписание футбольных матчей и т. д. Использование полученных данных самое разное. Можно скорректировать закупки, чтобы не уменьшить количество просроченных, залежавшихся товаров. А можно придумать способ, как привязать клиента к супермаркету. Одно из проявлений работы с большими массивами данных в крупных торговых сетях — набор бонусов, которые мы получаем по почте. Любит клиент сухое вино — и он получит скидку, которая простимулирует покупать его еще больше вина в сети.

Коммунальное хозяйство

В Нью-Йорке городские чиновники задались целью выяснить, какие из заведений общепита сливают в канализацию использованное растительное масло (в Нью-Йорке это действо карается штрафами: сгустки масла забивают канализационные трубы, а поиски засоров влетают в копеечку городской казне). Всевозможные набеги проверяющих на кафе-рестораны оказались неэффективными. Поскольку городское хозяйство Нью-Йорка предельно компьютеризовано, то муниципальные IT-специалисты применили технологию больших данных ко всему массиву информации, попадающей к ним — начиная от показаний счетчиков и заканчивая пожарной безопасностью и вредными выбросами в атмосферу. В конце концов, обнаружилось занятное совпадение — часть заведений общепита на фоне своих собратьев подозрительно редко оплачивало услуги вывоза отработанного масла и рядом с ними подозрительно часто оказывался колодец канализационного коллектора. По списку были направлены дотошные проверяющие. В 95 случаях из 100 предположения оправдались.

Последний гвоздь в гроб приватности

Тем, что вошло в моду, принято восторгаться, а не критиковать. Но критиковать есть что.

Важнейшая претензия к большим данным в том, что они — "могильщики" приватности. Использование больших данных стирает правовые и технические ограничения, которыми люди сохраняют конфиденциальность. Прежде было вполне понятно, что есть личная информация: имя-фамилия, идентификационный код и т.д. Защитить такую малость сведений еще можно. Сегодня специалисты, обрабатывая самые безобидные данные (которых тем не менее очень много), не только идентифицируют личность, но и многое узнают о ней. Как теперь сохранять личные тайны — непонятно.

Установление слежки (даже законной) теперь влечет более глубокое вторжение в частную жизнь, чем прежде. Ведь власти станет доступен почти весь спектр отношений, связей и взаимодействий "подопечного".

Наконец, есть полуфантастическое (пока!) опасение: прогнозы с применением больших данных становятся все точнее. Футурологи опасаются, что их можно использовать для наказания за прогнозируемое поведение — т.е. за действия, которые только намерены или могут совершить подозреваемые. Беда в том, что такой прогноз невозможно опровергнуть, а значит, и оправдать себя. Такое наказание (и даже предупредительные меры) полностью исключают свободу воли. С 2007 г. в США реализуется научно-исследовательский проект FAST (аббревиатура от выражения "Технология просеивания и выявления признаков, проявляющихся в будущем"). Цель проекта — идентификация потенциальных террористов. Технология основана на различных физиологических параметрах человека — от направления взгляда до сердечного ритма и жестикуляции. Полиция нескольких городов уже задействовала "прогностическую полицейскую" систему, анализирующую данные об имеющихся преступлениях, чтобы спрогнозировать, где, когда и кто нарушит закон в будущем.