Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Искусство статистики. Как находить ответы в данных
Название: Искусство статистики. Как находить ответы в данных
Автор:
Жанры: Экономическая статистика | Базы данных
Серия: МИФ Научпоп
ISBN: Нет данных
Год: 2021
О чем книга "Искусство статистики. Как находить ответы в данных"

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.

Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.

На русском языке публикуется впервые.

Бесплатно читать онлайн Искусство статистики. Как находить ответы в данных


Издано с разрешения Penguin Books Ltd и Andrew Nurnberg Literary Agency


Все права защищены.

Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав.


Original English language edition first published by Penguin Books Ltd, London

Text copyright © David Spiegelhalter 2019

The author has asserted his moral rights.

All rights reserved.

© Перевод на русский язык, издание на русском языке, оформление. ООО «Манн, Иванов и Фербер», 2021

Статистикам всего мира – педантичным, отзывчивым, добросовестным людям, стремящимся использовать данные наилучшим образом


Введение

Цифры сами по себе не умеют говорить. Именно мы говорим за них. Мы наполняем их смыслом.

Нейт Сильвер, «Сигнал и шум»[1],[2]
Зачем нужна статистика?

Психологический портрет Гарольда Шипмана, более известного как Доктор Смерть, не похож на серийного убийцу, тем не менее этот человек поставил рекорд по убийствам. Тихий семейный врач, работавший в пригороде Манчестера, в период с 1975 по 1998 год ввел как минимум 215 пожилым пациентам смертельную дозу опиатов. Но в конце концов он «прокололся», подделав завещание одной из своих жертв, которая якобы оставила ему часть наследства, что весьма насторожило ее дочь-адвоката. Проверка компьютера врача показала, что он задним числом изменял информацию в медицинских картах пациентов, чтобы состояние их здоровья казалось хуже, чем было на самом деле. Он считался увлеченным поборником технологий, но не был достаточно технически подкован, чтобы понимать, что время каждого внесенного изменения фиксируется (кстати, хороший пример метаданных, раскрывающих скрытый смысл данных).

В результате эксгумации пятнадцати тел его пациентов (из тех, которых не кремировали) в них были обнаружены смертельные дозы диаморфина, медицинской формы героина. В 1999 году Шипмана судили за пятнадцать убийств и приговорили к пожизненному заключению. Он не защищался и не произнес на суде ни слова. Впоследствии было инициировано публичное расследование, чтобы определить, какие еще преступления он мог совершить, помимо рассмотренных в суде, и можно ли было разоблачить его раньше. Я был одним из нескольких статистиков, которых тогда привлекали к расследованию. Оно пришло к выводу, что он определенно убил 215 пациентов, а, возможно, и еще 45[3].

Эта книга посвящена применению статистики[4] для поиска ответов на вопросы (некоторые из них выделены), которые возникают, когда мы пытаемся лучше понять мир. Чтобы получить представление о мотивах поведения Шипмана, вполне закономерно спросить:

Каких людей убивал Гарольд Шипман, и когда они умирали?

В ходе упомянутого расследования была представлена информация о возрасте, поле и дате смерти каждой жертвы. Рис. 0.1 – довольно сложная визуализация этих данных, отображающая возраст и дату смерти жертвы, при этом цвет точек указывает на пол – мужской или женский. На осях добавлены гистограммы, демонстрирующие распределение по возрасту (с интервалом в пять лет).


Рис. 0.1

Диаграмма рассеяния, показывающая возраст и год смерти 215 подтвержденных жертв Гарольда Шипмана. По осям добавлены гистограммы, демонстрирующие распределение по возрасту и году совершения убийства


Даже беглый взгляд на рисунок позволяет сделать некоторые выводы. Черных точек больше, чем белых, а значит, жертвами Шипмана в основном были женщины. Гистограмма справа демонстрирует, что возраст большинства жертв – 70–80 лет, но разброс точек показывает, что, хотя изначально все жертвы были пожилыми, впоследствии появилось несколько более молодых пациентов. Гистограмма сверху четко показывает промежуток примерно в 1992 году, когда убийств не происходило. Оказывается, до этого Шипман имел общую практику с другими врачами, но затем – возможно, чтобы избежать подозрений, – стал работать один. После чего его деятельность активизировалась, что и отображено на верхней гистограмме.

Анализ случаев, выявленных в ходе расследования, приводит к дальнейшим вопросам о том, как Шипман совершал убийства. Определенная статистическая информация содержится в данных о времени смерти жертв (указывалось в свидетельстве о смерти). На рис. 0.2 сравниваются два линейных графика: время смерти пациентов Шипмана и пациентов других местных семейных врачей. Здесь не нужен тонкий анализ: разница видна невооруженным глазом. Пациенты Шипмана в подавляющем большинстве умирали вскоре после полудня.


Рис. 0.2

Сравнение времени смерти пациентов Шипмана и пациентов других семейных врачей. Выявление закономерности не требует углубленного статистического анализа


Хотя сами по себе эти данные не объясняют причин такой особенности, дальнейшее расследование обнаружило, что он посещал пожилых больных на дому после обеда, когда, как правило, оставался с ними наедине. Он предлагал им инъекцию якобы для улучшения самочувствия, которая на самом деле была смертельной дозой диаморфина. После того как пациент на его глазах тихо отходил в мир иной, Шипман вносил изменения в медицинскую карту, чтобы смерть выглядела естественной.

Судья Джанет Смит, возглавлявшая публичное расследование, позже говорила: «Я все еще чувствую, насколько это страшно, просто невообразимо и немыслимо. Этот человек изо дня в день ходил к людям, притворяясь на редкость заботливым врачом, неся с собой смертельное оружие, которое он неоднократно хладнокровно использовал».

В определенной степени он рисковал, ведь даже одно-единственное вскрытие могло бы его разоблачить, но, учитывая возраст пациентов и очевидные естественные причины смерти, аутопсию никто не проводил. Мотивы совершения убийств тоже не были установлены: Шипман не давал показаний в суде, никогда ни с кем (включая членов семьи) не говорил на эту тему и окончил жизнь самоубийством в тюрьме в то время, когда жена еще имела право на его пенсию[5].

Мы можем считать такой вид исследовательской работы «криминалистической» статистикой, и в данном случае это название верно буквально. Никакой математики, никакой теории – просто поиск закономерностей, который может привести к более интересным вопросам. Детали злодеяний Шипмана определялись для каждого случая, однако общий анализ данных дает понимание того, как он совершал преступления.

Далее (в главе 10) мы увидим, мог ли формальный статистический анализ помочь поймать Шипмана раньше[6]. Между тем его история достаточно убедительно демонстрирует огромный потенциал использования данных для лучшего понимания мира и вынесения более правильных суждений. Именно для этого и нужна статистика.


Превращение мира в набор данных

Статистический подход к преступлениям Шипмана требует от нас отказаться от перечисления длинного списка отдельных трагедий, за которые он несет ответственность. Все персональные данные о жизни и смерти людей нужно свести к набору фактов и чисел, которые можно подсчитать и отобразить на диаграммах. Каким бы бездушным и бесчеловечным на первый взгляд это ни казалось, но, чтобы использовать статистику для понимания происходящего, наш повседневный опыт следует обратить в данные, а это означает категоризацию и классификацию событий, выполнение измерений, анализ результатов и формулирование выводов. Однако даже простая категоризация и классификация может представлять серьезную проблему. Рассмотрим следующий вопрос, который должен заинтересовать всех, кому небезразличны проблемы окружающей среды.


С этой книгой читают
В какой бы области вы ни работали – в науке, бизнесе или государственном управлении, вам приходится решать сложные задачи с огромным количеством данных. Из этой книги вы узнаете, как заставить эти данные работать на вас.Автор объясняет, как с помощью 25 классов математических моделей анализировать данные и решать проблемы в повседневных ситуациях. Это хорошо бы знать каждому, кто должен ежедневно принимать решения, лавируя в потоке информации, –
Эта книга научит вас оценивать риски, а значит, принимать лучшие решения во всех областях жизни. На примерах необычных профессий Эллисон Шрагер подробно и доходчиво разбирает пять правил управления рисками. Они помогут повысить вероятность удачного исхода и не полагаться на волю неопределенности.На русском языке публикуется впервые.
Популяризатор науки мирового уровня Стивен Строгац предлагает обзор основных понятий матанализа и подробно рассказывает о том, как они используются в современной жизни. Автор отказывается от формул, заменяя их простыми графиками и иллюстрациями. Эта книга – не сухое, скучное чтение, которое пугает сложными теоретическими рассуждениями и формулами. В ней много примеров из реальной жизни, которые показывают, почему нам всем нужна математика. Отличн
Обладание ископаемыми ресурсами (нефть, газ, уголь) уже давно дает практически неограниченную экономическую и политическую власть, которая назначает и смещает президентов, покупает политиков, ведет войны. Но сегодня мы становимся свидетелями того, что мир начинает меняться. Использование возобновляемых источников энергии во многих странах постепенно выходит на первый план. Владимир Сидорович рассказывает, что такое возобновляемые источники, как о
В монографии разрабатываются вопросы методологии с позиции применения статистических методов для изучения качественных и количественных показателей качества услуг. Проводится всесторонний анализ качества услуг общественного транспорта, мобильной связи и системы жилищно-коммунального хозяйства на примере г. Оренбурга.
Монография посвящена системным проблемам формирования и исполнения региональных бюджетов Российской Федерации. Авторы исследуют актуальный вопрос путей повышения бюджетной обеспеченности российских территорий в кризисной ситуации. Выявлен низкий уровень налоговой компетенции субъектов Федерации, который препятствует расширению доходного потенциала территорий. Исследованы тенденции развития межбюджетных взаимоотношений регионального уровня власти
Эта книга сформирована как коллекция наиболее интересных примеров из разработанных авторами в последние 12 лет десятков прогнозных документов социально-экономического развития городов, районов и регионов России. Главное кредо авторов состоит в необходимости индивидуального, «штучного» подхода в этом процессе. Уход от рутины в региональном стратегировании напрямую связан со значительным вниманием к пространственным факторам развития – экономико-ге
Состоятельный московский бизнесмен Александр мечтает о переезде на тропические острова. Чтобы обеспечить себе безбедное существование, он вкладывает свой капитал в землю рядом со строящейся автотрассой в Тверской области и отправляется туда, чтобы лично присматривать за своим вложением. Александр рассчитывает, что отдохнет в старом санатории на тверских болотах, но вместо этого оказывается вовлеченным в пугающие и мистические события. Он встречае
Три крестьянских сына, три барышни-дворянки – и старинная подмосковная усадьба, в которой на протяжении всего ХХ века разворачиваются события их жизни. Усадьба Ангелово – не фон для действия, а «центр силы» двух больших семей, с ней связаны для Кондратьевых и Ангеловых любовь, утраты, измены, самоотверженность, творчество, счастье. И все, что происходит с главными героями, а потом с их детьми и внуками, овеяно мистикой старинного дома, Оборотнево
Во сне я легко могу съесть целый торт. А наяву считаю калории в огуречном салате, четыре раза в неделю хожу на ненавистный фитнес и с ужасом вспоминаю, как весила когда-то больше центнера. А он готовит магре дё канар и ричарелли ди Сиена, выкладывая этот порнофуд в инстаграм. И что, спрашивается, у нас с ним может получиться?..
Три миллиона рублей и твой папаша свободен! Ну, ты, конечно, можешь провести со мной ночь, и я убавлю половину долга. – Он надменно улыбнулся. – Решать тебе, девочка! - Сколько? – выкрикнула я, не обращать внимания на его непристойное предложение по поводу ночи с ним. - И не копейкой меньше! – уточнил он. - Сколько у меня времени? - Ну, если ты не хочешь, чтобы твой папочка в тюрьме концы отдал без лекарств, то нисколько! А теперь иди, свободна!