Расследование, база данных и механизмы ошибок
Как я стал исследовать сомнительное происхождение знаменитых цитат? Всё началось с того, что в начале девяностых я увлёкся электронными книгами. Уже тогда я понимал, что они способны дёшево и эффективно обеспечить быстрый доступ к мировым знаниям. Появятся огромные цифровые библиотеки, любое произведение станет общественным достоянием, а книги можно будет распространять по интернету по низкой цене – представив всё это, я загорелся желанием больше узнать о возможном применении таких технологий.
Между тем в 1993 году пионер в области электронного книгоиздания Брэд Темплтон выпустил принципиально новый компакт-диск, а именно антологию произведений, номинированных на премии «Хьюго» и «Небьюла», высшие награды в области научной фантастики. Сборник включал пять романов и множество рассказов. На тот момент это была первая электронная книга с текстами современных авторов. Кстати, стоил тот диск почти 30 долларов – на эти деньги сегодня можно купить книгу в твёрдом переплёте. Новинка была рассчитана в первую очередь на продвинутых поклонников научной фантастики. Будучи одним из них, я не устоял перед соблазном и купил заветный диск в преддверии цифровой эпохи. Тем не менее проект Темплтона далеко опередил своё время, и поэтому, к сожалению, так и не нашёл отклика в обществе.
В начале 2000-х я открыл для себя сайт TeleRead, посвящённый электронной литературе. Сначала я просто читал и комментировал записи, а затем по просьбе основателя Дэвида Ротмана стал сам писать статьи. Ротман одним из первых предложил идею создания «национальной цифровой библиотеки с большой базой данных» и более десяти лет продвигал её в журнале Computerworld и других периодических изданиях. Я был рад наконец встретить человека, разделяющего моё мнение о колоссальном потенциале электронных книг.
Вскоре оказалось, что ту же самую цель преследовал Ларри Пейдж, выпускник Стэнфордского университета и сооснователь Google. Он, как и Дэвид, грезил о появлении цифровой библиотеки, где хранились бы все книги на свете, с функцией поиска нужного произведения. Со временем у него появилась возможность воплотить эту мечту. В Google разработали устройства, способные сканировать целые тома с помощью нескольких камер и датчиков. В 2002 году аппараты заработали на полную мощность. Пейдж начал с Мичиганского университета, где получал высшее образование, а затем взялся за крупнейшие исследовательские библиотеки в США и Великобритании. Сегодня в базе данных Google Books насчитывается более 30 миллионов книг.
Очень скоро фантазия стала реальностью. Несмотря на то, что базу данных угрожали заблокировать за нарушение авторских прав, библиотека будущего всё-таки увидела свет. Я стал размышлять над тем, как доказать людям ценность этого изобретения и показать его возможности. С чего начать, если перед вами – вся языковая история? Например, искать слова и фразы, которые помогли бы установить связь между цитатами. Но что можно узнать?
С целью проверить эффективность системы поиска, я решил изучить историю происхождения проклятия, которое лишь звучит как благословение:
Чтоб ты жил в интересные времена!
Как раз в тему, не правда ли? В 1966 году Роберт Кеннеди употребил, как он сам выразился, «китайское проклятие» во время публичного выступления в Кейптаунском университете. Другие просто называли высказывание «древним». Недавно оно появилось в автобиографии Хиллари Клинтон «Живая история» (Living History).
Приступив к исследованию в 2007 году, я понял, что многие уже пытались узнать происхождение этой фразы до меня. Редакторы «Википедии» создали обсуждение, где датировали источник 1950 годом. Я подумал: если мне удастся доказать, что высказывание появилось раньше 1930 года, я напишу статью для TeleRead о потенциале и эффективности поисковой системы Google Books. Потребовалась всего пара кликов. Выяснилось, фраза упоминалась в литературном сборнике «Удивительная научная фантастика» (Astounding Science Fiction) ещё в 1930 году. Неужели «Википедия» в подмётки не годится? Конечно же, нет. Мой тернистый путь только начался. Процесс поиска в огромных текстовых базах данных наподобие Google Books гораздо сложнее. Оказалось, что рассказ Данкана Монро «Разворот» (U-Turn), в котором система обнаружила совпадение, был на самом деле опубликован в 1950 году. Это меня серьёзно озадачило. Почему в Google Books указана неверная дата? Дело в строгих ограничениях, наложенных на цифровую библиотеку в связи с законом об авторском праве: он по-прежнему распространялся на интересующий меня выпуск, поэтому отображался не весь текст, а лишь фрагменты в виде фотокопии. В конце концов я узнал, что серию «Удивительная научная фантастика» стали выпускать в 1930-м, поэтому база данных ошибочно присвоила этот год многим выпускам, не учитывая реальную дату публикации (подобного рода ошибки часто встречались в Google Books в 2007 году, однако со временем ситуация заметно улучшилась).
Я отбросил неподходящие варианты и отобрал несколько источников, в том числе произведение «Американский персонаж» (The American Character) Дениса Уильяма Брогана, опубликованное в 1944 году. На этот раз я столкнулся с другим типом ошибок: Google Books заметила совпадение на странице 169, однако в книге, согласно метаданным, было всего 168 страниц. Я сходил в ближайшую библиотеку и взял печатное издание 1956 года, но в нём выражения не было вовсе! Тогда я отправился в другую библиотеку за оригинальным изданием 1944 года. На странице 169 была напечатана та самая фраза:
Как мне сказали, одно из самых страшных китайских проклятий – пожелать врагу «жить в интересные времена». Мы живём в очень интересное время, и нет никакой простой формулы, которая позволила бы сделать его ещё лучше.
Объединив результаты исследования, я с гордостью опубликовал статью в TeleRead под названием «Правда ли, что знаменитое “древнее китайское проклятие” на самом деле появилось в 1950-м году? Расследование с помощью поисковой системы Google Books».
В ходе работы я усвоил четыре важных урока:
1. База данных Google Books – чрезвычайно мощный и полезный инструмент для исследователей.
2. Иногда в Google Books указаны неверные даты и другие элементы метаданных.
3. В ходе исправлений и дополнений книги при перевыпуске может измениться дата публикации. Достоверные сведения о каждом издании нужно собирать самостоятельно.