Джон Келлехер, Брендан Тирни - Наука о данных

Наука о данных
Название: Наука о данных
Авторы:
Жанр: Базы данных
Серии: Нет данных
ISBN: Нет данных
Год: 2020
О чем книга "Наука о данных"

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.

Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.

«Наука о данных» уже переведена на японский, корейский и китайский языки.

Бесплатно читать онлайн Наука о данных


Переводчик Михаил Белоголовский

Научный редактор Заур Мамедьяров

Главный редактор С. Турко

Руководитель проекта А. Василенко

Корректоры Е. Аксенова, Т. Редькина

Компьютерная верстка А. Абрамов

Художественное оформление и макет Ю. Буга

Иллюстрация на обложке shutterstock.com

Права на публикацию на русском языке получены при содействии Агентства Александра Корженевского (Москва).


© 2018 Massachusetts Institute of Technology

© Издание на русском языке, перевод, оформление. ООО «Альпина Паблишер», 2020


Все права защищены. Данная электронная книга предназначена исключительно для частного использования в личных (некоммерческих) целях. Электронная книга, ее части, фрагменты и элементы, включая текст, изображения и иное, не подлежат копированию и любому другому использованию без разрешения правообладателя. В частности, запрещено такое использование, в результате которого электронная книга, ее часть, фрагмент или элемент станут доступными ограниченному или неопределенному кругу лиц, в том числе посредством сети интернет, независимо от того, будет предоставляться доступ за плату или безвозмездно.

Копирование, воспроизведение и иное использование электронной книги, ее частей, фрагментов и элементов, выходящее за пределы частного использования в личных (некоммерческих) целях, без согласия правообладателя является незаконным и влечет уголовную, административную и гражданскую ответственность.

* * *

Предисловие

Цель науки о данных – улучшить процесс принятия решений, основывая их на более глубоком понимании ситуации с помощью анализа больших наборов данных. Как область деятельности наука о данных включает в себя ряд принципов, методов постановки задач, алгоритмов и процессов для выявления скрытых полезных закономерностей в больших наборах данных. Она тесно связана с глубинным анализом данных и машинным обучением, но имеет более широкий охват. Сегодня наука о данных управляет принятием решений практически во всех сферах современного общества. В повседневной жизни вы ощущаете на себе воздействие науки о данных, когда видите отобранные специально для вас рекламные объявления, рекомендованные фильмы и книги, ссылки на предполагаемых друзей, отфильтрованные письма в папке со спамом, персональные предложения от мобильных операторов и страховых компаний. Она влияет на порядок переключения и длительность сигналов светофоров в вашем районе, на то, как были созданы новые лекарства, продающиеся в аптеке, и то, как полиция вычисляет, где может потребоваться ее присутствие.

Рост использования науки о данных в обществе обусловлен появлением больших данных и социальных сетей, увеличением вычислительной мощности, уменьшением размеров носителей компьютерной памяти и разработкой более эффективных методов анализа и моделирования данных, таких как глубокое обучение. Вместе эти факторы означают, что сейчас процесс сбора, хранения и обработки данных стал как никогда ранее доступен для организаций. В то же время эти технические новшества и растущее применение науки о данных означают, что этические проблемы, связанные с использованием данных и личной конфиденциальностью, тоже вышли на первый план. Цель этой книги – познакомить с наукой о данных на уровне ее основных элементов и с той степенью погружения, которая обеспечит принципиальное понимание вопроса.

Глава 1 очерчивает область науки о данных и дает краткую историю ее становления и эволюции. В ней мы также рассмотрим, почему наука о данных стала такой востребованной сегодня, и перечислим факторы, стимулирующие ее внедрение. В конце главы мы развенчаем несколько мифов, связанных с темой книги. Глава 2 вводит фундаментальные понятия, относящиеся к данным. В ней также описаны стандартные этапы проекта: понимание бизнес-целей, начальное изучение данных, подготовка данных, моделирование, оценка и внедрение. Глава 3 посвящена инфраструктуре данных и проблемам, связанным с большими данными и их интеграцией из нескольких источников. Одна из таких типичных проблем заключается в том, что данные в базах и хранилищах находятся на одних серверах, а анализируются на других. Поэтому колоссальное время тратится на перемещение больших наборов данных между этими серверами. Глава 3 начинается с описания типичной инфраструктуры науки о данных для организации и некоторых свежих решений проблемы перемещения больших наборов данных, а именно: метода машинного обучения в базе данных, использования Hadoop для хранения и обработки данных, а также разработки гибридных систем, в которых органично сочетаются традиционное программное обеспечение баз данных и решения, подобные Hadoop. Глава завершается описанием проблем, связанных с интеграцией данных в единое представление для последующего машинного обучения. Глава 4 знакомит читателя с машинным обучением и объясняет некоторые из наиболее популярных алгоритмов и моделей, включая нейронные сети, глубокое обучение и деревья решений. В главе 5 основное внимание уделяется использованию опыта в области машинного обучения для решения реальных задач, приводятся примеры анализа стандартных бизнес-проблем и того, как они могут быть решены с помощью машинного обучения. В главе 6 рассматриваются этические вопросы науки о данных, последние разработки в области регулирования и некоторые из новых вычислительных методов защиты конфиденциальности в процессе обработки данных. Наконец, в главе 7 описаны сферы, на которые наука о данных окажет наибольшее влияние в ближайшем будущем, изложены принципы, позволяющие определить, будет ли данный конкретный проект успешным.

Благодарности

Джон хотел бы поблагодарить свою семью и друзей за их содействие и поддержку в процессе подготовки этой книги и посвящает ее своему отцу Джону Бернарду Келлехеру в знак признания его любви и дружбы.

Брендан хотел бы поблагодарить Грейс, Дэниела и Элеонору за их постоянную поддержку при написании всех его книг (эта уже четвертая), что позволило совмещать работу и путешествия.

Глава 1

Что такое наука о данных?

Наука о данных включает в себя набор принципов, методов постановки задач, алгоритмов и процессов для выявления скрытых полезных закономерностей в больших данных. Многие элементы этой науки были разработаны в смежных областях, таких как машинное обучение и глубинный анализ данных. Фактически термины «наука о данных», «машинное обучение» и «глубинный анализ данных» часто используются взаимозаменяемо. Эти дисциплины объединяет то, что все они направлены на улучшение процесса принятия решений посредством анализа данных. Однако, хотя наука о данных заимствует методы перечисленных областей, она имеет более широкий охват. Машинное обучение фокусируется на разработке и оценке алгоритмов выявления закономерностей в данных. Глубинный анализ данных, как правило, предполагает анализ структурированных данных и часто подразумевает акцент на коммерческих приложениях. Наука о данных учитывает и то и другое, при этом охватывает и другие проблемы: очистку и преобразование неструктурированных веб-данных и информации из социальных сетей, хранение и обработку больших неструктурированных наборов данных и вопросы, связанные с этикой и регулированием.


С этой книгой читают
Учебное пособие предназначено для студентов, изучающих в дисциплинах «Базы данных» и «Управление данными» языковые и программные средства создания баз данных и манипулирования данными. Рассматривается реляционная модель данных. Приводятся содержательные определения основных понятий из области проектирования реляционных баз данных. Язык SQL изучается на примере версии Access SQL (Microsoft Jet SQL), поскольку учебное пособие рассчитано на начинающ
Как жить в мире, где информацию о тебе может получить кто угодно и когда угодно? Ведущий мировой эксперт по будущему Big Data Андреас Вайгенд знает ответ. Он разрабатывал стратегию данных таких крупных рыб, как Alibaba, Goldman Sachs, Lufthansa, Thomson Reuters. Работал руководителем по Big Data в компании Amazon, является Директором компании Social Data Lab, преподаёт в IT-школе Калифорнийского университета Беркли.Андреас уверен, что этот «дом с
Наш телефон знает о нас больше, чем мы думаем. Он умеет собирать и анализировать информацию о том, как мы передвигаемся по городу, какие посты лайкаем и какими приложениями пользуемся. Он сообщит о пробках и поторопит на работу, чтобы мы не опоздали; подберет музыку под наше настроение и составит список персональных рекомендаций, чем можно занять себя в течение дня. Телефон – больше не устройство, по которому звонят, это уже средство управления о
Эта pdf-книга о том, как за счет имеющихся внутренних ресурсов обеспечивать рост онлайн-школ. Pdf-книга написана в поддержку программы РКС, о которой вы узнаете по ходу чтения.Далее, в процессе изложения своего видения взрывных системных стратегий, pdf-книгу я буду называть материалом. Для меня же самого и, надеюсь, для вас этот материал станет пособием с приставкой «ввод» в большую тему работы с базой.В формате PDF A4 сохранен издательский макет
В центре второй книги захватывающего детективного сериала Анжелики Огаревой «Если Вас некому целовать» несколько ярких и сильных мужских и женских характеров, связанных узами дружбы и привязанности с главной героиней дилогии, прокурором Раисой Бариновой, ныне счастливой матери мальчиков-близнецов. Баринову и ее друзей объединяет потребность жить, действовать, любить и быть любимыми. Прокурор Баринова и ее друзья продолжают борьбу с преступниками,
Вы не понимаете, почему она в инвалидном кресле – её здоровье в порядке. Никто не знает, что произошло с ней в тот день, когда её жизнь словно замерла в одной поре. И кого она пытается разглядеть на вечерних улицах? Это история о юной девушке, которая научилась жить заново. Не единожды. В одиночку. И она справилась. Вы не прочтёте о проблемах российского общества – этот подросток вне их. И не узнаете, что правит людьми. Время как будто размыто. А
Караул! Босс в гневе собрался всех уволить! Нужно срочно вернуть его мысли в безопасное русло. Пусть лучше влюбится в новую пассию, - решают топ-менеджеры компании. Поэтому к вакансии юриста прибавляются тайные требования: холдинг АМА-Девелопмент срочно ищет молодую красивую незамужнюю женщину. Веселую и сексапильную. Вот только глава компании Михаил Агафонов, наглый и самоуверенный тип, совершенно не верит в любовь. А красавица Ева Макарова искр
- Открывай, ведьма! Неслось грозными раскатами из-за двери. Плохонькой такой, державшейся на одном честном слове, да заклинании защитном. - Открывай, тебе говорят! — смело пригрозили сразу несколько голосов. — Хуже будет! Нет, мелькнуло у меня в голове, хуже уже точно не будет... Я, Марфа, волею судьбы перенеслась в мир магии и колдовства. Разве могла я подумать, что являюсь потомственной ведьмой, и что Царь навялит мне в ученики свое