Сет Стивенс-Давидовиц пришел к изучению больших данных, исследуя расизм в современном обществе для публикации статей в New York Times. Впоследствии круг его интересов расширился, и он обнаружил, что большие данные, которыми полон Интернет, могут дать совершенно неожиданную картину в самых разных сферах, о чем нечего было и мечтать двадцать лет назад. Тогда источниками данных служили социологические опросы, анкетирование, интервьюирование и прочие методы фиксации общественного мнения.
Сначала Стивенс-Давидовиц изучал запросы пользователей Google. Затем он начал изучать обращение к Википедии, профили соцсетей и даже порнографические сайты. Помимо этого, он интервьюировал ученых, журналистов и предпринимателей, питающих такой же интерес к изучению больших данных.
Автор пришел к выводу, что наши поисковые запросы говорят о нас намного больше, чем мы можем представить. То, как мы ищем цитаты, вещи, анекдоты, людей, книги или фильмы, рассказывают о наших тайных желаниях и предпочтениях, о которых мы часто не решаемся говорить вслух ни с кем – кроме Google. Набирая в поисковой строке «Мой отец меня бьет» или «Я пью», мы признаемся ему в том, чего не хотели бы открыть никому. Из этих запросов, по мнению автора, и складываются настоящие большие данные.
Все это прекрасно, но, казалось бы, причем тут ложь? Для сравнения Стивенс-Давидовиц приводит данные опроса о сексуальной жизни. Женщины говорят, что занимаются сексом примерно 55 раз в год. Исходя из данных о количестве защищённых половых контактов ученые вычислили, что они используют 1,1 млрд презервативов в год. Мужчины утверждают, что за год используют в среднем 1,6 млрд презервативов. Между тем цифры должны быть одинаковыми, так кто из них говорит правду? Информационно-измерительная компания Nielsen, отслеживающая потребительское поведение, фиксирует, что за год продается чуть меньше 600 млн презервативов. Так что лгут и мужчины, и женщины, сильно преувеличивая присутствие секса в своей жизни.
В толерантной и политкорректной Америке, как предполагают многие аналитики, давно покончено с расизмом. Но изучение запросов в Google дает другую картину. Стивенс-Давидовиц понял это, когда набрал в поисковой строке слово «ниггер», оскорбительное и неприемлемое в личном общении. Он ожидал, что объем поиска будет совсем небольшим. К своему удивлению, он обнаружил, что запрос делается настолько же часто, как слова «мигрень» или «экономист». Ищут анекдоты про афроамериканцев, но доля таких запросов небольшая. Другие набирают «тупые ниггеры» или «Я ненавижу ниггеров». Миллионы этих расистских запросов повторяются каждый год.
Когда Обама стал президентом США, СМИ комментировали это как историческое событие и восхваляли первого чернокожего президента. Но при этом примерно один из ста поисковых запросов включал «Обама Ку-клукс-клан» или «Обама ниггер». В ночь выборов регистрация на белом националистическом сайте, популярном в США, в десять раз превысила норму. В некоторых штатах было больше запросов «негр-президент», чем «первый черный президент».
Поиск в Google дал неожиданную карту расизма, распределенного по штатам. Традиционно расистские настроения были сильны в южных штатах, еще со времен войны Севера и Юга, противников и сторонников рабства. Поисковые запросы выявили, что демократический современный Север почти не отличается от консервативного республиканского Юга. Именно это обстоятельство, как считает автор, помогло политическому успеху Трампа, утверждавшего в Твиттере, что черные американцы ответственны за большинство убийств белых американцев.
Так поиск в Google выявил то, что пропустило большинство политических экспертов, ученых и журналистов, не сомневавшихся в расовой толерантности общества: на самом деле оно вовсе не так толерантно, как говорят данные социологических опросов. Расизм и ксенофобия просто глубоко спрятаны. И когда Трамп открыто заговорил об этом, голоса были отданы ему.
Не будь больших данных, это вряд ли удалось бы установить, считает Стивенс-Давидовиц. Большими данными полон Google – в среднем в день люди генерируют в Интернете 2,5 миллиона триллионов байт данных. Такие цифры дают действительно отчетливую картину общества. Основная цель книги, как утверждает автор, – доказать, что с помощью больших данных можно найти такие иглы в таких стогах сена, о которых раньше нечего было и мечтать. Это даст нам новый взгляд на человеческое поведение и психологию.
Ключевые идеи книги.
Идея № 1. Большие данные помогают прогнозировать влияние одной переменной на другую
Многих людей пугают цифры, они чувствуют себя беспомощными в мире чисел, считая, что понимать их могут только математические гении. Но, как утверждает автор, большие данные намного проще, чем думают люди. В пример он приводит подбор ему невесты на семейном совете. У каждого члена семьи было свое мнение. Сестра говорила, что ему нужна такая же сумасшедшая девушка, как он сам. Брат – что девушка, наоборот, должна его уравновешивать и быть спокойной и покладистой. Мать и отец спорили на тему, сумасшедший ли их сын. И тут в разговор вступила бабушка, которой было под 90 лет. Она сказала, что лучшая кандидатура – не слишком красивая, но очень умная девушка, коммуникабельная, с чувством юмора – потому что у потенциального жениха тоже с чувством юмора все в порядке. И все спорщики затихли. Бабушка в таких вопросах – лицо авторитетное: никто в семье не видел такого количества удачных и неудачных браков. За десятилетия у нее сложился алгоритм успешных отношений. Другими словами, она имеет доступ к большому количеству данных.
В память бабушки загружены данные почти за столетие – это истории, которые она наблюдала лично или слышала от друзей, знакомых и родственников. Она выбрала из этих данных образец мужчины, похожего на автора книги, и определила ключевые качества женщины, с которой они составили бы гармоничную пару. Или, переходя на язык математики, она в течение жизни подмечала многие закономерности и может предсказать, как одна переменная влияет на другую. В этом смысле бабушка – специалист по данным.
То же самое можно сказать о любом человеке. Ребенок подмечает, что его мама проявляет к нему больше внимания, когда он плачет. Так он впервые приобщается к науке о данных. Взрослый человек замечает, что с ним меньше общаются, если он часто жалуется – это тоже пример науки о данных, то есть о том, как одна переменная влияет на другую, о причинно-следственной связи.
Так что не стоит бояться цифр и слов «большие данные», советует автор. На самом деле все мы так или иначе имеем с ними дело.