А. Артемов - Мониторинг информации в Интернете

Мониторинг информации в Интернете
Название: Мониторинг информации в Интернете
Автор:
Жанры: Интернет | Прочая образовательная литература
Серии: Нет данных
ISBN: Нет данных
Год: 2014
О чем книга "Мониторинг информации в Интернете"

В данном пособии рассматриваются принципы организации и поиска информации в интернете, приводится описание языков запросов поисковой машины Яндекс, Гугл, Рамблер.

Предназначено для преподавателей и студентов вузов всех специальностей, руководителей и менеджеров компаний, специалистов по безопасности, а также для широкого круга лиц, работающих в сети Интернет.

Бесплатно читать онлайн Мониторинг информации в Интернете


А. В. Артемов

Мониторинг информации в интернете: учебно-методическое пособие

Рецензент:

кандидат экономических наук, доцент кафедры «Предпринимательство и маркетинг» ФГБОУ ВПО «Госуниверситет – УНПК»

Н.А. Лебедева



А. В. Артемов, кандидат технических наук, доцент кафедры «Электроника, вычислительная техника и информационная безопасность» ФГБОУ ВПО «Госуниверситет – УНПК»

Лекция 1

Принципы организации и поиска информации в интернете

Поиск информации в Интернете проводится двумя основными способами – с помощью каталогов (их еще называют директориями) и с помощью поисковых машин.

Директории обеспечивают контекстный поиск для структурированного просмотра, тогда как поисковые машины, как следует из их названия, контекста не обеспечивают, однако позволяют находить конкретные слова или фразы. Директории можно уподобить оглавлению книги, а поисковые машины – предметному указателю.

Часто поисковые системы объединяют в себе как поисковую машину, так и директории. Это хорошо видно на примере первой страницы Яндекса, где под поисковой строкой размещается список директорий, которые позволяют пользователю уточнять запрос по мере продвижения в глубь каждой из них.

Ввиду того, что принцип организации директорий понятен каждому, кто пользовался библиотечным каталогом – а среди читателей таких, смеем полагать, подавляющее большинство, – мы не будем подробно останавливаться на технике работы с директориями и уделим больше внимания работе с поисковыми машинами. В завершении же разговора о каталогах приведем пример «цепочки», по которой осуществляется поиск каталоге Яндекса: Бизнес > Реклама > Реклама в Интернете.

Все поисковые машины работают по одному и тому же алгоритму и основаны на одних тех же принципах. Различия между ними возникают лишь на уровне технической реализации этих принципов в работе.

Чтобы понять принцип работы поисковой машины, попробуем разделить вопрос на две части: на чем основан поиск и как он реализован.

На чем основан поиск Все поисковые машины базируются на трех основных операторах, лежащих в основе Булевой алгебры (ее также называют Булевой логикой или Boolean). Это логические операторы «И», «ИЛИ» и «НЕ». Работают они следующим образом.

1. Логическое «И». Если между двумя словами в запросе стоит оператор «И», то в результате поиска будут найдены лишь те документы, в которых содержатся оба слова.

Так, например, по запросу собака И кошка будет найден документ, содержащий предложение «собака гналась за кошкой», документов же, состоящих из текста «кошка отдыхала» или «корм для собак», мы не увидим.

2. Логическое «ИЛИ». Если между словами стоит оператор «ИЛИ», то результатом поиска станут документы, в которых содержится хотя бы одно из этих слов. Если мы не сделаем специальных ограничительных оговорок, то материалы, в которых оба эти слова присутствуют, также будут найдены.

По запросу собака ИЛИ кошка мы получим документы, исключенные в прошлом запросе и содержащие текст «кошка отдыхала» или «корм для собак», а также материал с предложением «собака гналась за кошкой».

3. Логическое «НЕ». Если два предыдущих оператора описывали те слова, которые вы хотите включить в запрос, то оператор «НЕ» слова из запроса исключает.


Пользователи, впервые сталкивающиеся с операторами запросов, нередко высказывают удивление: мол, не проще ли и вовсе не включать ненужное слово в запрос? Зачем вводить дополнительный оператор? Увы, нет. Не проще. На самом деле, чтобы понять важность логического оператора «НЕ», имеет смысл вспомнить, что наш запрос не создает в Интернете ничего нового. Мы лишь выуживаем то, что нам нужно, из имеющегося огромного, но все же конечного массива. При этом необходимо отсечь информационный мусор. Его-то мы и отсекаем с помощью оператора «НЕ». К сожалению, не нам решать, увидим ли мы этот мусор в выдаче. Так, например, по запросу сведений о коньке крыши неизменно появляется информационный мусор в виде документов о Коньке-Горбунке, фигурном катании, хоккее, лошадях и т. п. Без логического «НЕ» тут никак не обойтись.

Давайте рассмотрим примеры работы логического оператора «НЕ». По запросу собака НЕ кошка будет найден документ, содержащий текст «корм для собак», а вот документы со словами «кошка отдыхала» или «собака гналась за кошкой», и даже «корма для собак и кошек» из выдачи будут исключены.

Часто встречается чуть более сложный вариант написания запроса, который содержит все или почти все вышеперечисленные операторы. В этом случае лучше пользоваться таким элементом, как круглые скоби. Скобки позволяют отделять однотипные слова запроса от остальных. Кроме того, самому составителю при этом визуально гораздо удобнее различать отдельные фрагменты запроса. Мы не будем чересчур теоретизировать о скобках, а просто продемонстрируем работу указанного элемента на конкретных примерах. На наш взгляд, так будет понятнее, как и для чего используются скобки. Так, запрос пушистые И (собаки ИЛИ кошки) позволит получить документы, относящиеся как к пушистым собакам, так и к пушистым кошкам – по отдельности или вместе. Скобки при этом «раскрываются» по обычным арифметическим правилам вынесения за скобку общего множителя (для тех, кто не любит математику, поспешим сказать, что болеше углубляться в нее мы не будем). А вот запрос пушистые И (собаки ИЛИ кошки) НЕ (собаки И кошки) выдаст документы, в которых написано про пушистых собак или пушистых кошек, но не будет содержать текстов, где одновременно будут упомянуты и кошки, и собаки.

Еще раз повторимся, все поисковые машины сегодня работают на основе анализа этих трех операторов, хотя нюансы их написания в разных поисковых машинах могут отличаться.

Как поиск реализован. Каждая полноценная поисковая машина располагает собственным штатом роботов, или пауков. Их еще называют краулерами (crawlers) и спайдерами (spiders,). Это программы, которые перескакивают со страницы на страницу и сканируют находящиеся на них тексты, не вникая при этом в их содержание. После чего сбрасывают документы на серверы своих хозяев и идут к следующим страницам. Как паук определяет, куда ему пойти? Он находит так называемую гиперссылку (ту самую, при наведении на которую курсор приобретает вид раскрытой ладони, и при клике по которой происходит переход на другую страницу) и идет по ней. Вот почему, если на страницу не ведет ни одна ссылка, паук на нее тоже не придет. Исключение составляет ситуация, когда владелец страницы вручную сообщит о ней поисковой машине, заполнив специальную форму на сайте поисковой машины.

На сервере поисковой машины текст разбивается на отдельные слова, каждому из которых присваиваются координаты, после чего они заносятся в таблицу сервера вместе со ссылкой на тот адрес в Интернете, по которому текст размещался в момент посещения его пауком. Сам по себе поисковик представляет собой большую локальную сеть, состоящую из мощных компьютеров с огромным объемом дисковой памяти. Эти машины разделены на подгруппы (так называемые кластеры), между которыми распределяется информация, собранная пауками.


С этой книгой читают
Информатизация социально-политической, экономической и военной деятельности страны и, как следствие, бурное развитие информационных систем сопровождаются существенным ростом посягательств на информацию как со стороны иностранных государств, так и со стороны преступных элементов и граждан, не имеющих доступа к ней. Несомненно, в создавшейся обстановке одной из первоочередных задач, стоящих перед правовым государством, является разрешение глубокого
Сегодня книжный рынок предлагает огромный выбор литературы о работе в Интернете – как для начинающих пользователей, так и для профессионалов. Но есть ли книги об Интернете, которые были бы интересны пользователю со средним уровнем подготовки? Таких изданий на русском языке почти нет. Данная книга призвана восполнить этот пробел. В ней собраны сотни неочевидных трюков и хитрых приемов для работы в Интернете, описаны десятки полезнейших программ, д
В эпоху стремительного технологического прогресса и повсеместной цифровизации, обеспечивать безопасность информации становится не просто необходимостью, а первоочередной задачей. Это руководство погружает читателя в основы и практические аспекты защиты личных данных.
**Аннотация:**В книге *«Цифровая безопасность и конфиденциальность в интернете»* представлено подробное руководство для пользователей всех уровней о том, как защитить свои данные и сохранить личную информацию в эпоху постоянного цифрового взаимодействия. Вы узнаете, какие угрозы существуют в интернете – от вирусов и фишинга до социальных атак и мошенничества. Автор делится практическими рекомендациями по созданию надёжных паролей, использованию д
Яндекс.Директ. Полное руководство по настройке и оптимизации рекламных кампаний – это исчерпывающее пособие для тех, кто хочет эффективно использовать возможности контекстной рекламы. Эта книга охватывает все этапы работы в Яндекс.Директ: от регистрации и настройки аккаунта до анализа данных и оптимизации затрат. Вы узнаете, как создавать и настраивать кампании, подбирать ключевые слова, управлять бюджетом и анализировать результаты для достижени
«С большой радостью узнал, что в Иркутске затевается издание журнала «Будущая Сибирь».Это – совершенно необходимое и своевременное дело, тем более своевременное, что оно несколько запоздало, как вообще у нас опаздывает родиться и развиваться обласная литература – организатор культурно-революционного сознания трудовых масс…»
«Каковы и в чём выражаются наши достижения в области художественной литературы?Утверждают, что крупных мастеров словесно-изобразительного искусства молодая наша литература не создала. Внесём поправку: не успела создать. Это – естественно. Живёт она всего десяток лет, а в таком возрасте великаны – явление ненормальное. Согласимся с тем, что мастерство молодых писателей ещё не высоко, но не станем и понижать оценку его, ибо у нас есть уже немало ли
Большинство книг, статей и документальных фильмов, посвященных панку, рассказывают о его расцвете в 70-х годах – и мало кто рассказывает о его возрождении в 90-х. Иэн Уинвуд впервые подробно описывает изменения в музыкальной культуре того времени, отошедшей от гранжа к тому, что панки первого поколения называют пост-панком, нью-вейвом – вообще чем угодно, только не настоящей панк-музыкой. Под обложкой этой книги собраны свидетельства ключевых уча
Кого еще обвинить в смертях, потревоживших тихий приморский городок, как не коварных некромантов? Вздумалось им останавливаться, школу свою затевать да будоражить покой честных граждан темною волшбой. Слухи множатся, один другого страшнее. И с ними растет гнев человеческий, грозя выплеснуться кровавым бунтом. Правда, у Анны – свое мнение. Она уверена, что за убийствами стоят вовсе не некроманты. Но кто станет слушать странную больную женщину?Уж т