Елена Капаца - Машинное обучение доступным языком

Машинное обучение доступным языком
Название: Машинное обучение доступным языком
Автор:
Жанры: Компьютерная справочная литература | Книги о компьютерах | Техническая литература
Серии: Нет данных
ISBN: Нет данных
Год: 2023
О чем книга "Машинное обучение доступным языком"

Краткий гайд для новичков по машинному и глубокому обучению с разбором кода. Здесь вы найдете необходимый минимум по предмету, истолкованный языком, понятным школьнику. Некоторые разделы написаны с помощью chatGPT. По прочтении вы избавитесь от страха перед технологией и освоите базовый инструментарий подготовки данных, их загрузке в модель и ее донастройки. Подходит студентам технических специальностей.

Бесплатно читать онлайн Машинное обучение доступным языком


Введение

Приступая к изучению машинного обучения, студенты легко и непринужденно добиваются… запутанности. Пара-тройка непонятных терминов или неясностей при расчете – и все: мозг теряет нить и начинает воспринимать “по диагонали”. Продираться через непонятное довольно трудоёмко. Не каждый день у нас есть ресурс догугливать непонятное. Не каждый запрос в Google даст лаконичный понятный ответ.

Моя задача – описать детали этой мозаики языком, понятным старшекласснику. Я намеренно буду избегать формул, потому что знаю: каждая из них сокращает число читателей. Однако в книге будет код, и он будет расширенно комментироваться.

Минимальное требование к читателю – знание основ Python. Книга фокусируется на машинном обучении, и потому останавливаться на терминах вроде “переменной” и “списка” я не буду.

Если вы чувствуете, что пересиливаете себя при чтении, лучше сделайте перерыв. В Data Science будет предостаточно информации, однако в этой книге я постаралась собрать повторяющиеся в работе термины. Добиться их понимания особенно важно.

Некоторые главы будут базироваться на полноценных моделях и скриптах. В машинном обучении принято использовать так называемые ноутбуки – наборы ячеек с исполняемыми кусками кода:



Все используемые в дальнейшем ноутбуки можно открыть, запустить и скопировать себе для дальнейших экспериментов. Инструменты ML имеют свойство совершенствоваться, а это значит, что спустя 3-4 года после выхода книги некоторые участки кода вам придется отлаживать с помощью поисковиков.

Машинное обучение – это абстрактная концепция. Ее основные компоненты стоит описывать просто, пускай даже это вызовет раздражение профессионалов. Эта книга – серия взаимосвязанных статей. Их основная цель – осветить основные и популярные термины во взаимосвязи друг с другом. Ключевые понятия при первом упоминании я буду дополнять англоязычным термином. Так вы всегда сможете с легкостью отыскать дополнительные материалы.

Немалое влияние на меня оказал бестселлер Максима Ильяхова и Людмилы Сарычевой “Пиши, сокращай”. Потому эта книга написана в информационном стиле1 и изобилует упрощениями. Если вы сохраните по прочтении ощущение удобства чтения и желание взбираться на эту познавательную гору дальше, то моя цель достигнута.

Вы всегда можете “напитаться” полноценными зубодробительными статьями на моем сайте helenkapatsa.ru.

Приятного чтения! Я буду рада вашим предложениям и фидбэку в целом ([email protected]). Вы также можете запросить PDF-версию с цветовой разметкой кода. Это упростит восприятие материала.

Машинное обучение

Что же это такое? Машинное обучение (machine learning, ML) – наука о том, как заставить компьютеры выполнять объемную вычислительную задачу без явного программирования.

Классическим алгоритмам дают точные и полные правила для выполнения задачи, моделям Машинного обучения – данные. Мы говорим, что «подгоняем модель к данным» или «модель обучена на данных».

Проиллюстрируем это на простом примере. Предположим, мы хотим спрогнозировать цену дачного дома на основе:

• площади

• размера придомового участка

• количества комнат.

Мы могли бы попытаться построить классический алгоритм, который решает эту проблему. Этот алгоритм возьмет три вышеупомянутых признака (feature) и выдаст прогнозируемую цену на основе явного правила. Но на практике эта формула часто неочевидна.

Однако мы хотим автоматизировать этот процесс и построить модель. Она будет корректировать формулу сама каждый раз, когда появляются новые примеры цен на жилье. В целом, ML невероятно полезно для задач, когда мы располагаем неполной или слишком обильной информацией для программирования вручную. В этих случаях мы можем предоставить имеющиеся сведения и позволить ей «изучить» недостающую. Затем алгоритм будет использовать статистические методы для извлечения недостающих знаний.

Машинное обучение способно выполнять широкий спектр задач:

• оценки стоимости чего угодно

• изменение изображений

• помощь на письме

• обработка звука

• генерация текста и многие другие.

Представьте, что Машинное обучение – это конвейер по сборке автомобилей. И первое, что потребуется для его работы – металл, различные композитные материалы, и в конечном итоге, топливо. Вся эта троица олицетворяет данные.

Данные



Данные – основа основ в ML. В контексте науки принято рассматривать два типа: традиционные и большие (big data).

Традиционные данные структурированы и хранятся в базах, управляемых с одного компьютера. На самом деле, эпитет «традиционный» введен для ясности: это помогает подчеркнуть различия с большими.

Большие данные, в свою очередь, массивнее, чем традиционные, по ряду характеристик:

• типы (числа, текст, изображения, аудио, видео и проч.)

• скорость извлечения и вычисления

• объем (тера-, пета-, эксабайты и проч.).

Набор однотипных данных, выделенный с целью обучения модели, называют датасетом (dataset). Их разделяют на следующие категории:

Классическая таблица

Здесь каждая строка имеет одинаковый набор характеристик-столбцов. Такие таблицы – датафреймы (dataframe) обычно хранятся либо в файлах форматов .csv, .parquet, либо в базах данных:

Датасет о результативности футбольных команд

Текстовый документ

(document) Отдельно взятой единицей здесь является блок (corpus). Например, книгу можно рассматривать как датасет, состоящий из абзацев – корпусов.

“… После обучения в Университете Вашингтона Болл опубликовала статью в Journal of the American Chemical Society и отправилась на Гавайи, чтобы стать магистром химии. В 1915 г. она впервые среди женщин и афроамериканцев получила степень магистра в Гавайском колледже, где осталась преподавать”.

Корпус из книги-датасета Рейчел Свайби “52 упрямые женщины”

Графы

(graph) Здесь отдельно взятая единица – это связь между объектами:



Граф социальной сети

Аудиодорожки

Здесь довольно очевидно: аудиозаписи. Помимо распознавания речи ML решает обширный спектр задач с помощью таких данных: очистка от шумов, написание музыки.



Временной ряд

(time series) Здесь каждая точка привязана к временной оси x и, как правило, взаимосвязана с окружающими ее соседями.



Цена акции LG на момент открытия биржи на протяжении года

Последовательные данные



(sequence data) Состоят из набора отдельных объектов, таких как слова или буквы. Здесь нет временных меток; вместо этого есть позиции в упорядоченной последовательности:

На картинке справа яркий пример: геном – набор генов в хромосоме.

Пространственные данные

(geospatial data) Здесь каждая точка имеет координаты:



Трафик аэропортов США

Изображения

Здесь единицей является отдельная картинка. Видео рассматривается как набор картинок.



Датасет рукописных цифр


С этой книгой читают
Миварные технологии создания логического искусственного интеллекта: логическая обработка с линейной вычислительной сложностью более 3 миллионов продукций и возможность понимания смысла через моделирование большого контекста. Выделены 3 уровня научных исследований в области искусственного интеллекта (ИИ). Приведены результаты практических расчетов и решений задач, которые экспериментально подтвердили линейную вычислительную сложность логического в
Книги с большим количеством иллюстраций традиционно нравятся читателям. Это учебное пособие поможет наполнить ваше произведение обширным качественным графическим материалом в условиях жесткого ограничения веса файла электронной книги. Руководствуясь им, вы сможете подготовить иллюстрации для книг, фотоальбомов, учебных пособий, содержащих большое количество рисунков, с сохранением их надлежащего качества. Пособие подготовлено с учетом опыта работ
В серии книг “Справочник Жаркова по проектированию и программированию искусственного интеллекта” в нескольких томах собрано лучшее программирование искусственного интеллекта (ИИ) в двух- и трёхмерных играх и приложениях, разработанных как автором, так и взятые из Интернета за многие годы и доработанные автором. Программирование ИИ на Visual Basic написано в XVIII частях, которые разделены на три тома 4, 5 и 6. В данном томе 6 приведены части IX-X
В серии книг “Справочник Жаркова по проектированию и программированию искусственного интеллекта” в нескольких томах собрано лучшее программирование искусственного интеллекта (ИИ) в двух- и трёхмерных играх и приложениях, разработанных как автором, так и взятые из Интернета за многие годы и доработанные автором с учётом современного программирования. Программирование ИИ на Visual C# разделено на тома. В томе 8 дана методология программирования ИИ:
Тихая жизнь Монтáйна разрушена – смерть студентки Северной Академии всколыхнула городок от зимней дрёмы. Кто убил Мику и почему подозрения, в первую очередь, упали на Аделию? И как ей доказать свою невиновность не только перед стражами порядка, но и жителя Монтáйна, и собственными студентами?Сложно, а порой кажется вовсе невозможным, но рядом с тем, кто готов верить и поддерживать, Аделия рискнёт ступить на этот путь – путь борьбы за своё имя, св
Николай Зайцев – писатель-фантаст из Мурманска, автор книг в жанрах исторической и космической фантастики. Популярностью пользуются также его мистические романы из серии «Кровь Саама». Представляем в одну из самых интересных книг этого цикла.Конец XIX века. Главный герой романа Иван Матвеевич Суздалев попадает в неприятную историю и вынужден стреляться на дуэли. Он остаётся жив, его противник-гвардеец повержен, однако радоваться рано: однополчане
Прыгать с парашютом опасно? Это вы мне расскажите. Подруга уговорила, и мы прыгнули… А потом оказались впутаны в бандитскую историю, и мне пришлось столкнуться с необычным мужчиной. Жестким, властным, суровым. Но… именно он подставил плечо, когда я больше всего в этом нуждалась, и мой муж меня предал… – В общем, мы взрослые люди. Я хочу тебя. Сам удивляюсь, как сильно. Ну просто капец. Я тебя спас. Так что доедай и пойдем в спальню. – Э-э-э… А вы
Я разбил бампер ее машины, она – разбила мне сердце вдребезги. Я у ее ног, со всеми потрохами, она замужем и не планирует разводиться. Ее муж – не самый лучший супруг, но у них ребенок и она, похоже, любит благоверного… Он въехал в нашу машину и в мою жизнь. Ремонт машины оплатил из своего кармана, а как жизнь отремонтировать? Я думаю о нем, хотя и не должна, сравниваю с мужем… И не в пользу последнего. А хуже всего – он сделал мне предложение, о