А. Артемов - Мониторинг информации в Интернете

Название:	Мониторинг информации в Интернете
Автор:	А. Артемов
Жанры:	Интернет \| Прочая образовательная литература
Серии:	Нет данных
ISBN:	Нет данных
Год:	2014

О чем книга "Мониторинг информации в Интернете"

В данном пособии рассматриваются принципы организации и поиска информации в интернете, приводится описание языков запросов поисковой машины Яндекс, Гугл, Рамблер.

Предназначено для преподавателей и студентов вузов всех специальностей, руководителей и менеджеров компаний, специалистов по безопасности, а также для широкого круга лиц, работающих в сети Интернет.

Бесплатно читать онлайн Мониторинг информации в Интернете

А. В. Артемов

Мониторинг информации в интернете: учебно-методическое пособие

Рецензент:

кандидат экономических наук, доцент кафедры «Предпринимательство и маркетинг» ФГБОУ ВПО «Госуниверситет – УНПК»

Н.А. Лебедева

А. В. Артемов, кандидат технических наук, доцент кафедры «Электроника, вычислительная техника и информационная безопасность» ФГБОУ ВПО «Госуниверситет – УНПК»

Лекция 1

Принципы организации и поиска информации в интернете

Поиск информации в Интернете проводится двумя основными способами – с помощью каталогов (их еще называют директориями) и с помощью поисковых машин.

Директории обеспечивают контекстный поиск для структурированного просмотра, тогда как поисковые машины, как следует из их названия, контекста не обеспечивают, однако позволяют находить конкретные слова или фразы. Директории можно уподобить оглавлению книги, а поисковые машины – предметному указателю.

Часто поисковые системы объединяют в себе как поисковую машину, так и директории. Это хорошо видно на примере первой страницы Яндекса, где под поисковой строкой размещается список директорий, которые позволяют пользователю уточнять запрос по мере продвижения в глубь каждой из них.

Ввиду того, что принцип организации директорий понятен каждому, кто пользовался библиотечным каталогом – а среди читателей таких, смеем полагать, подавляющее большинство, – мы не будем подробно останавливаться на технике работы с директориями и уделим больше внимания работе с поисковыми машинами. В завершении же разговора о каталогах приведем пример «цепочки», по которой осуществляется поиск каталоге Яндекса: Бизнес > Реклама > Реклама в Интернете.

Все поисковые машины работают по одному и тому же алгоритму и основаны на одних тех же принципах. Различия между ними возникают лишь на уровне технической реализации этих принципов в работе.

Чтобы понять принцип работы поисковой машины, попробуем разделить вопрос на две части: на чем основан поиск и как он реализован.

На чем основан поиск Все поисковые машины базируются на трех основных операторах, лежащих в основе Булевой алгебры (ее также называют Булевой логикой или Boolean). Это логические операторы «И», «ИЛИ» и «НЕ». Работают они следующим образом.

1. Логическое «И». Если между двумя словами в запросе стоит оператор «И», то в результате поиска будут найдены лишь те документы, в которых содержатся оба слова.

Так, например, по запросу собака И кошка будет найден документ, содержащий предложение «собака гналась за кошкой», документов же, состоящих из текста «кошка отдыхала» или «корм для собак», мы не увидим.

2. Логическое «ИЛИ». Если между словами стоит оператор «ИЛИ», то результатом поиска станут документы, в которых содержится хотя бы одно из этих слов. Если мы не сделаем специальных ограничительных оговорок, то материалы, в которых оба эти слова присутствуют, также будут найдены.

По запросу собака ИЛИ кошка мы получим документы, исключенные в прошлом запросе и содержащие текст «кошка отдыхала» или «корм для собак», а также материал с предложением «собака гналась за кошкой».

3. Логическое «НЕ». Если два предыдущих оператора описывали те слова, которые вы хотите включить в запрос, то оператор «НЕ» слова из запроса исключает.

Пользователи, впервые сталкивающиеся с операторами запросов, нередко высказывают удивление: мол, не проще ли и вовсе не включать ненужное слово в запрос? Зачем вводить дополнительный оператор? Увы, нет. Не проще. На самом деле, чтобы понять важность логического оператора «НЕ», имеет смысл вспомнить, что наш запрос не создает в Интернете ничего нового. Мы лишь выуживаем то, что нам нужно, из имеющегося огромного, но все же конечного массива. При этом необходимо отсечь информационный мусор. Его-то мы и отсекаем с помощью оператора «НЕ». К сожалению, не нам решать, увидим ли мы этот мусор в выдаче. Так, например, по запросу сведений о коньке крыши неизменно появляется информационный мусор в виде документов о Коньке-Горбунке, фигурном катании, хоккее, лошадях и т. п. Без логического «НЕ» тут никак не обойтись.

Давайте рассмотрим примеры работы логического оператора «НЕ». По запросу собака НЕ кошка будет найден документ, содержащий текст «корм для собак», а вот документы со словами «кошка отдыхала» или «собака гналась за кошкой», и даже «корма для собак и кошек» из выдачи будут исключены.

Часто встречается чуть более сложный вариант написания запроса, который содержит все или почти все вышеперечисленные операторы. В этом случае лучше пользоваться таким элементом, как круглые скоби. Скобки позволяют отделять однотипные слова запроса от остальных. Кроме того, самому составителю при этом визуально гораздо удобнее различать отдельные фрагменты запроса. Мы не будем чересчур теоретизировать о скобках, а просто продемонстрируем работу указанного элемента на конкретных примерах. На наш взгляд, так будет понятнее, как и для чего используются скобки. Так, запрос пушистые И (собаки ИЛИ кошки) позволит получить документы, относящиеся как к пушистым собакам, так и к пушистым кошкам – по отдельности или вместе. Скобки при этом «раскрываются» по обычным арифметическим правилам вынесения за скобку общего множителя (для тех, кто не любит математику, поспешим сказать, что болеше углубляться в нее мы не будем). А вот запрос пушистые И (собаки ИЛИ кошки) НЕ (собаки И кошки) выдаст документы, в которых написано про пушистых собак или пушистых кошек, но не будет содержать текстов, где одновременно будут упомянуты и кошки, и собаки.

Еще раз повторимся, все поисковые машины сегодня работают на основе анализа этих трех операторов, хотя нюансы их написания в разных поисковых машинах могут отличаться.

Как поиск реализован. Каждая полноценная поисковая машина располагает собственным штатом роботов, или пауков. Их еще называют краулерами (crawlers) и спайдерами (spiders,). Это программы, которые перескакивают со страницы на страницу и сканируют находящиеся на них тексты, не вникая при этом в их содержание. После чего сбрасывают документы на серверы своих хозяев и идут к следующим страницам. Как паук определяет, куда ему пойти? Он находит так называемую гиперссылку (ту самую, при наведении на которую курсор приобретает вид раскрытой ладони, и при клике по которой происходит переход на другую страницу) и идет по ней. Вот почему, если на страницу не ведет ни одна ссылка, паук на нее тоже не придет. Исключение составляет ситуация, когда владелец страницы вручную сообщит о ней поисковой машине, заполнив специальную форму на сайте поисковой машины.

На сервере поисковой машины текст разбивается на отдельные слова, каждому из которых присваиваются координаты, после чего они заносятся в таблицу сервера вместе со ссылкой на тот адрес в Интернете, по которому текст размещался в момент посещения его пауком. Сам по себе поисковик представляет собой большую локальную сеть, состоящую из мощных компьютеров с огромным объемом дисковой памяти. Эти машины разделены на подгруппы (так называемые кластеры), между которыми распределяется информация, собранная пауками.

Следующая страница

С этой книгой читают

Информационная безопасность

А. Артемов

Информатизация социально-политической, экономической и военной деятельности страны и, как следствие, бурное развитие информационных систем сопровождаются существенным ростом посягательств на информацию как со стороны иностранных государств, так и со стороны преступных элементов и граждан, не имеющих доступа к ней. Несомненно, в создавшейся обстановке одной из первоочередных задач, стоящих перед правовым государством, является разрешение глубокого

Читать

Метавселенная: Твоё будущее в цифровом мире

Артем Демиденко

В мире, где границы между реальностью и виртуальностью стираются с каждым днем, "Метавселенная: Твоё будущее в цифровом мире" становится путеводной звездой на пути к пониманию и освоению этой новой реальности. Исследуя трансформацию интернета в метавселенную, книга подробно освещает, как ключевые технологии – virtual reality, augmented reality, блокчейн, искусственный интеллект – формируют наше цифровое будущее.Автор приглашает читателей погрузит

Читать

Test_book_selfpub_1738073147

Персона Автора_1

Аннотация – краткое точное изложение содержания статьи, включающее основные фактические сведения и выводы описываемой работы. Цель аннотации – дать читателю представление о содержании статьи без ознакомления с полным текстом. Добавка

Читать

Идеальный контент: Всё про SMM для бизнеса

Артем Демиденко

"Идеальный контент: Всё про SMM для бизнеса" – это универсальное руководство для тех, кто хочет вывести свою компанию или личный бренд на новый уровень с помощью социальных сетей. Книга охватывает весь процесс построения успешной SMM-стратегии: от выбора платформы и изучения целевой аудитории до создания запоминающегося визуального и текстового контента. Узнайте, как эффективно использовать хэштеги, проводить результативные прямые эфиры, сотрудни

Читать

SEO для начинающих: Оптимизация сайтов под Google

Артем Демиденко

Путь к вершинам поисковой выдачи начинается здесь! "SEO для начинающих: Оптимизация сайтов под Google" – это ваше руководство в мире поисковой оптимизации, полной возможностей и вызовов. Эта книга предлагает подробное и последовательное изучение всех аспектов SEO, которые помогут вашему бизнесу и личным проектам занять лидирующие позиции в Google. Узнайте, почему забота о ключевых словах и мета-тегах играет значимую роль, и как создать контент, к

Читать

Письмо редакции журнала «Будущая Сибирь»

Максим Горький

«С большой радостью узнал, что в Иркутске затевается издание журнала «Будущая Сибирь».Это – совершенно необходимое и своевременное дело, тем более своевременное, что оно несколько запоздало, как вообще у нас опаздывает родиться и развиваться обласная литература – организатор культурно-революционного сознания трудовых масс…»

Читать

О литературе

Максим Горький

«Каковы и в чём выражаются наши достижения в области художественной литературы?Утверждают, что крупных мастеров словесно-изобразительного искусства молодая наша литература не создала. Внесём поправку: не успела создать. Это – естественно. Живёт она всего десяток лет, а в таком возрасте великаны – явление ненормальное. Согласимся с тем, что мастерство молодых писателей ещё не высоко, но не станем и понижать оценку его, ибо у нас есть уже немало ли

Читать

Сопровождение ребенка 5–7 лет с ОВЗ в условиях коррекционно-образовательного процесса

Снежана Юрьевна Танцюра Елена Юрьевна Курышина

В данной книге представлено сопровождение детей с ограниченными возможностями здоровья в условиях интеграционной и инклюзивной форм обучения, приведены примеры планирования коррекционно-образовательной деятельности учителя-логопеда и учителя-дефектолога, представлена индивидуальная программа реабилитации и адаптации ребенка-инвалида.Книга адресована логопедам, дефектологам, педагогам-практикам, работающим в интегрированных классах школы и группах

Читать

Сопровождение семьи ребенка с ОВЗ. Методические рекомендации

Снежана Юрьевна Танцюра Булгана Мазановна Басангова

В книге содержится теоретический и практический материал по сопровождению семей детей с ограниченными возможностями здоровья, раскрывается значение сотрудничества специалистов с родителями воспитанников. Представлены тренинги для родителей, игры и упражнения для детей с нарушением развития, рекомендации по их воспитанию.Пособие адресовано родителям, логопедам, воспитателям, дефектологам.В формате a4.pdf сохранен издательский макет.

Читать