Денис Кирьянов - Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии

Название:	Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии
Автор:	Денис Кирьянов
Жанры:	Книги о компьютерах \| Прочая образовательная литература
Серии:	Нет данных
ISBN:	Нет данных
Год:	Не установлен

О чем книга "Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии"

В данный сборник вошли три статьи.В первой статье рассматриваются экспертные системы, их преимущества и недостатки, а также применимость для решения проблем категоризации агрегированных данных.Во второй рассматриваются принципы построения систем агрегации контента, а также такие научно-технические проблемы, как веб-краулинг, обнаружение нечетких дубликатов, суммаризация и т. д.В третьей статье приводится детальное описание архитектуры высоконагруженного RSS-агрегатора.

Бесплатно читать онлайн Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии

Переводчик Денис Александрович Кирьянов

Корректор Анастасия Лобанова

ISBN 978-5-0064-3419-6

Создано в интеллектуальной издательской системе Ridero

Термины и определения

В данной книге применяются следующие термины с соответствующими определениями:

Лемматизация (англ. lemmatization) – процесс приведения словоформы к ее словарной форме.

Партиционирование (англ. partitioning) – разделение больших таблиц (исходя из количества записей) в базе данных на маленькие.

Стемминг (англ. stemming) – процесс нахождения основы слова для заданного исходного слова.

Суммаризация (англ. summarization) – процесс выделения краткого содержимого из текста.

Токенизация (англ. tokenization) – процесс разделения текста на составляющие.

Naive Estimator – наивная оценка.

Twitter Topic Fuzzy Fingerprints – нечеткие отпечатки на основе тем сообщений в сети «Twitter».

Перечень сокращений и обозначений

В данной книге применяются следующие сокращения и обозначения:

БД – база данных.

API, АПИ (англ. Application Programming Interface) – аппаратно-программный интерфейс.

DNS (англ. Domain Name System) – система доменных имен.

FOAF (англ. Friend of a Friend) – спецификация для описания пользователя в социальных сетях.

HTML (англ. Hyper Text Markup Language) – язык гипертекстовой разметки.

JSON (англ. JavaScript Object Notation) – текстовый формат обмена данными, основанный на языке программирования JavaScript.

MNA (англ. Matrix-based News Analysis) – метод матричного анализа новостей.

MLE (англ. Maximum Likelihood Estimator) – подход оценки максимального правдоподобия.

MME (англ. Moment Matching Estimator) – метод определения вероятности изменения агрегированных данных.

NLP (англ. Natural Language Processing) – обработка естественного языка.

REST (англ. Representational State Transfer) – архитектурный стиль взаимодействия компонентов распределенного приложения в сети.

RSS (англ. Rich Site Summary) – обогащенная сводка сайта.

SVM (англ. Support Vector Machine) – метод опорных векторов.

TF-IDF (англ. Term Frequency – Inverse Document Frequency) – статистическая мера, используемая для оценки важности слова в контексте документа.

URL (англ. Uniform Resource Locator) – унифицированный указатель ресурса.

XML (англ. Extensible Markup Language) – расширяемый язык разметки.

YML (англ. Yandex Market Language) – стандарт передачи данных маркетплейса компании «Яндекс».

Предисловие

В этой книге представлены три мои статьи, объединенные одной темой: агрегация контента и его обработка. Данные статьи первоначально были опубликованы на английском языке в журнале из перечня ВАК «Программные системы и вычислительные методы» и использовались мной в дальнейшем в качестве основы при написании магистерской диссертации по программной инженерии на тему «Исследование методов построения архитектур агрегаторов информации в сети Интернет».

В текущий сборник вошел перевод этих статей, выполненный мной самим. К каждому из опубликованных переводов добавлена ссылка на оригинал, а также сохранена оригинальная аннотация на русском языке.

Статьи представлены в полном объеме, без сокращений. Кроме того, в приложении представлены архитектуры систем агрегации информации, дополняющие публикуемые статьи. Для того чтобы сделать иллюстрации читаемыми в черно-белой печати, мне пришлось в статье «Масштабируемая система агрегации, предназначенная для обработки 50 000 RSS-каналов» их переработать, заменив на черно-белые, без потери смысла.

Материал, представленный в данной книге, может быть полезен для студентов ИТ-специальностей, разработчиков ПО, ИТ-менеджеров, а также для широкого круга людей, интересующихся разработкой систем агрегации информации и построением сложных распределенных информационных систем.

Гибридная категориальная экспертная система для использования в агрегации контента

Перевод с английского

Ссылка на оригинальную статью:Kiryanov D. A. Hybrid categorical expert system for use in content aggregation // Software systems and computational methods. 2021. №4. С. 1—22. DOI: 10.7256/2454—0714.2021.4.37019

Аннотация

Предметом исследования является разработка архитектуры экспертной системы для распределенной системы агрегирования контента, основное предназначение которой – категоризация агрегированных данных.

Автор подробно рассматривает такие аспекты темы, как преимущества и недостатки экспертных систем, инструментарий разработки экспертных систем, классификация экспертных систем, а также рассматривает применение экспертных систем для решения проблем категоризации данных.

Особое внимание уделяется описанию архитектуры предложенной экспертной системы, которая состоит из компонента для фильтрации спама, компонента определения главной категории для каждого из типов обрабатываемого контента, а также компонентов для определения подкатегорий, один из которых основан на правилах доменной области, а другой компонент использует методы машинного обучения, дополняя первый. Основным выводом данного исследования является то, что экспертные системы возможно эффективно применять для решения проблем категоризации данных в системах агрегации контента.

Автором было выяснено, что гибридные решения, объединяющие подход, основанный на использовании базы знаний и правил с использованием нейронных сетей, помогают снизить стоимость экспертной системы. Новизна исследования заключается в предложенной архитектуре системы, которая является легко расширяемой и адаптируемой к нагрузкам за счет масштабирования существующих или добавления новых модулей.

Предложенный модуль определения спама основан на адаптировании поведенческого алгоритма определения спама в электронных письмах, предложенный модуль определения основных категорий контента использует два вида алгоритмов на основе нечетких отпечатков: Fuzzy Fingerprints и Twitter Topic Fuzzy Fingerprints, который изначально использовался для категоризации сообщений в социальной сети Twitter. Работа модулей, определяющих подкатегорию на основе ключевых слов, происходит во взаимодействии с базой данных – словарем (тезаурус). Последний классификатор использует алгоритм опорных векторов для конечного определения подкатегорий.

Ключевые слова: экспертная система, алгоритм нечетких отпечатков, агрегация контента, нейронная сеть, категоризация контента, инженерия знаний, метод опорных векторов, TF-IDF, CLIPS, идентификация спама.

Введение

Современная наука и промышленность немыслимы без использования компьютерных технологий. За последние 50 лет уровень информационного и интеллектуального обеспечения различных технологий чрезвычайно возрос [1]. Объем получаемой информации настолько велик, что человеку, даже специалисту, разобраться с ней очень сложно. Для его восприятия и обработки необходима особая интеллектуальная поддержка.

Следующая страница

С этой книгой читают

Разговор с нейросетью о пользе ИИ для творчества. Преподавателям, писателям, фотографам, деятелям культуры и искусства

Галина Казакова

Искусственный интеллект и нейросети пришли не так давно, но перевернули уже многие аспекты жизни. То, что когда-то было для людей фантастикой становится реальностью. В этой книге Вы найдёте увлекательные беседы о том, как ИИ может вдохновлять и поддерживать творческих людей. Она раскрывает новые горизонты взаимодействия человека и машины в сфере искусства. Узнайте, как ИИ может стать Вашим союзником в творческом процессе!

Читать

Опасные перспективы Искусственного Интеллекта в будущем

Оливер Уэллс

Книга «Опасные перспективы искусственного интеллекта в будущем» погружает читателя в мир технологических рисков и возможностей, связанных с развитием ИИ. Рассматриваются потенциальные угрозы, такие как утрата контроля над машинами, социальные последствия и возможность контакта с внеземным разумом. Автор анализирует сценарии будущего, в котором ИИ может стать как спасителем, так и угрозой для человечества, и предлагает пути предотвращения катастро

Читать

Установка и использование Ubuntu в Termux

Системный Администратор

Книга предназначена для начинающих, которые хотят научиться устанавливать и использовать Ubuntu на своем Android-устройстве. Мы предоставим вам пошаговые инструкции и примеры, чтобы вы могли легко следовать нашим рекомендациям.После прочтения этой книги вы сможете:* Установить Ubuntu на вашем Android-устройстве с помощью Termux и proot-distro * Настроить и конфигурировать Ubuntu для ваших нужд * Использовать Ubuntu на вашем Android-устройстве для

Читать

Уровни, волатильность, ожидаемая доходность + Python. 2024

Владимир Володин

Книга, которую вы держите в руках, содержит в себе – программный код на python v3.7.6. Книга будет приятным дополнением тем, кто работает со статистикой, финансами, начинающим программистам в области финансов, либо аналитикам.

Читать

Простые инструменты lean на миллион

Филипп Семенычев

Учебник «средней школы lean». Описание набора наиболее простых и известных инструментов lean, часто упоминаемых в разной литературе, но нигде не описанных подробно. По настоящее время нигде в литературе не встречалось подробного описания небольших простых инструментов, а также подходов к работе с ними. Работа казалось бы простых и известных всем инструментов описываются вместе с подробными описаниями примеров их применения из реальной практики ав

Читать

125 лет кинодраматургии. От братьев Люмьер до братьев Нолан

Камилл Ахметов

Новая книга о кинодраматургии от Камилла Ахметова выделяется на фоне традиционных работ по сценаристике тщательной систематизацией и историческим подходом. Развитие драматургической композиции – от традиционного линейного повествования до новаций XX и XXI веков – автор прослеживает на примерах работ Дэвида Уорка Гриффита, Льва Кулешова, Сергея Эйзенштейна, Орсона Уэллса, Акиры Куросавы, Алена Рене, Микеланджело Антониони, Альфреда Хичкока, Ингмар

Читать

Сказки для взрослых девочек. Сборник психологических сказок

Нелли Крайнова

«Сказки для взрослых девочек» – истории про то, как можно влиять на внешний мир, изменяя внутренний. И про то, что, покидая образ «хорошей девочки», можно стать счастливой девочкой.

Читать

Как с одного аккаунта кормиться всю жизнь. Уникальный метод продвижения по жизни

Алексей Алексеев

Имея всего один аккаунт в любой социальной сети, но правильно оформленный, можно и не работать. А, если два, три? Вы не знали? Тогда эта книга для вас. Соц. сеть объединена с поисковой системой, поэтому такой эффект бомбы. Никто этого не знает. Пишу этот секрет по шагам в книге, чтобы правильно оформить аккаунт и расположить ключевые слова и теги именно там, где я указал. Просто повторяй и уже завтра будет первый результат. Скорость исполнения у

Читать