Книга Даррелла Хаффа «Как лгать при помощи статистики» впервые вышла в 1954 году. С тех пор наука существенно продвинулась вперед. Однако «большие данные» и вычислительные машины мало что изменили в отношениях рядового клиента – избирателя, потребителя, человека, пытающегося выбрать безопасные продукты, эффективные лекарства, ответственное правительство – с теми цифрами, которые, словно кролика из шляпы, вынимают перед ним СМИ, пиарщики и политики. Мы каждый раз и поддаемся убедительности цифр (это ведь не слова, «цифры не лгут»), и боимся попасться, и попадаемся, конечно же – пока не прочтем эту книгу.
Даррелл Хафф не просто разоблачает манипуляции с цифрами: он выбрал самый увлекательный для читателя способ повествования: предлагает нам поиграть за обе стороны, выступить и в роли клиента, которого пытаются одурачить, и в роли хитроумного обманщика. Мы сами щупаем каждый кейс, прикидываем, как бы половчее подать информацию и, вроде не соврав в цифрах, придать заурядному товару привлекательность или создать иллюзию, будто за нашего кандидата голосуют «все». В итоге мы выясняем, как делается фокус, где прячутся веревочки и куда смотреть, какие задавать вопросы, чтобы с нами этот номер не прошел.
Такое сочетание наглядности и увлекательности, даже азарта – лучшее объяснение, почему книга Даррелла Хаффа продолжает переиздаваться, покупаться (миллионными тиражами, но это тоже «статистика»), переводиться: несколько лет назад – на русский язык, а в этом году и на китайский.
Автор предисловия к русскому изданию справедливо замечает, что знакомство с основами статистики необходимо любому человеку, в том числе гуманитарию, считающему, что он не разбирается в цифрах. Разбирается или не разбирается, но с цифрами мы сталкиваемся ежедневно – в газетных статьях о росте преступности или промышленности, в рекламных брошюрах, обещающих «эффективность больше на 26 %», в брошюрах медицинских, доказывающих «снижение риска заболеваемости на 31 %», в школе, где нам сообщают, что ребенок попал в такой-то процентиль. Человек, не способный задать нужные вопросы и выяснить, насколько точна и значима эта статистика, беспомощен.
И давно пора пересмотреть представление о статистике как о специальной дисциплине, доступной лишь людям с математическим складом ума. Да, статистика состоит из цифр, но эти цифры описывают то, что нам всего ближе – поведение человека и его отношение к ключевым проблемам жизни.
1.1. Чаще всего статистические выводы делаются на основании выборки: сведения, полученные о представителях некой группы, экстраполируются на всю группу, а потому ошибки или намеренное искажение статистики начинаются с неверной выборки. Прежде всего выборка может быть слишком мала.
Нам известно, что в мешке лежит тысяча шариков разных цветов. Вынимаем пять шариков, видим 3 белых, 1 синий и 1 красный и делаем вывод: в мешке 60 % белых шариков, 20 % синих и 20 % красных. На самом деле доля белых шариков намного ниже, а из 100 зеленых нам не попалось ни одного. Чтобы судить о содержимом мешка, нужно взять гораздо больше шариков (например 50). Ошибки все равно возможны, но вероятность их существенно снижается.
1.2. В идеале выборка должна быть совершенно произвольной, чтобы все элементы изучаемой группы имели равные шансы попасть в нее. Однако такое возможно лишь для одинаковых элементов (шариков), а в реальной жизни довольствуются стратифицированной выборкой, представляющей все слои населения и ситуации.
Если нужно узнать, как повысились цены на продовольственные товары по сравнению с прошлым годом, в выборке должны быть пропорционально представлены торговые сети, крупные магазины, лавочки и рынки больших, средних и малых городов, сел и труднодоступных мест всех регионов страны. Пропорционально должны быть представлены и продукты: нельзя судить об изменениях в стоимости продовольственной корзины по небольшой группе товаров нишевого потребления.
1.3. Один из основных видов выборки, результаты которого чаще всего ложатся в основу популярных социальных исследований, прогнозов и рекламы – опрос. При этом возможны такие «выкрутасы выборки»:
• Опрос небольшого и потому нерепрезентативного числа людей.
Обычное явление в тележурналистике: репортер передает микрофон трем— пяти прохожим, и у зрителя складывается ощущение, будто «все жители города» думают именно так.
• В выборке неравномерно представлены различные группы людей.
Например, требуется выяснить мнение студентов о готовящейся реформе образования. Чтобы далеко не ходить, опрашивающий ограничивается студентами из своего города или привлекает к опросу молодежь из знакомых семей.
Одна из типичных ошибок – сдвиг в сторону благополучных людей.
Эта ошибка возникает порой невольно благодаря тем средствам связи, которые используются при опросе. Хафф приводит знаменитый случай, когда одна и та же группа респондентов, совершенно точно предугадавшая в 1948 году победу на президентских выборах, в 1952 году столь же дружно дала неверный прогноз. Выяснилось, что опрос проводился по телефону, а телефоны тогда имелись у зажиточных людей, богатство которых делало их приверженцами определенной партии. В современной ситуации такие искажения дает опрос в интернете (далеко не у всех граждан имеется интернет), тем более – в конкретной соцсети. Но и при уличном опросе интервьюер охотнее подойдет к чисто одетому, приветливому на вид человеку – и опять-таки получит больше «благополучных» ответов.
• Личность интервьюера также влияет на результаты опроса.
В больнице проводится опрос с целью выяснить, довольны ли сотрудники условиями труда и зарплаты. Ответы сильно зависят от того, кого сотрудники видят в вопрошающем:
• представителя администрации;
• представителя «хорошего» профсоюза;
• представителя «плохого» профсоюза;