Современная языковая ситуация, и в частности потребности записи человеческого знания в память компьютера, в огромной степени изменили лексический мир языка. Можно считать, что здесь уже сложилась и развивается целая лингвистическая наука.
Компьютерная техника широко проникает в традиционную сферу лексикографии, то есть, в составление словарей, заменяя собой традиционную ручную картотеку и привнося новые методы и возможности в веками устанавливавшуюся технологию.
В области компьютерной лексикографии выделяют две основных проблемы, тесно связанных друг с другом: создание словарей, предназначенных для человека, и использование в интеллектуальных системах специальных машинных словарей естественных языков. Роль словаря в таких системах огромна – начиная с распознавания лексических единиц на уровне ввода и морфологического анализа и заканчивая моделированием элементов понимания и мышления.
Таким образом, в методологических целях следует разграничить вычислительную (компьютерную) лексикографию как часть обычной лексикографии, занимающуюся составлением обычных, бумажных словарей для использования их человеком и вычислительную лексикографию как науку о машинных словарях естественных языков, используемых в памяти компьютера для решения задач, требующих искусственного интеллекта.
Возможности компьютера в традиционной лексикографии чрезвычайно велики, поскольку они избавляют лексикографа от огромного многолетнего труда по сбору, расписыванию на карточки и анализу лексического материала. Например, можно создать справочник, в котором все словники наиболее значительных словарей были бы объединены. Таким справочником является Сводный словник словарей русского языка (Рогожникова 1986: 58-67). С помощью такого словника можно решать большое количество разного рода теоретических и практических задач. Так, можно выявить наиболее употребительную лексику современного русского языка и отобрать ее в словари различных объемов. Это важно при составлении толковых словарей, общего и учебного типа, для отбора лексики в русскоязычные словари других типов и т.д.
Применение интерактивных методов позволяет исследователю-лингвисту использовать компьютер даже в тех случаях, когда какие-то языковые факты трудно или невозможно формализовать: при помощи диалога с компьютером появляется возможность найти достаточно обоснованные и приемлемые приблизительные решения.
Ю.Н. Марчук в своей работе «Вычислительная лексикография» (Марчук 1976: 83) определил основные отличия машинных словарей от обычных. Кратко говоря, эти отличия заключаются в следующем: если обычный, традиционный, «бумажный» словарь комплементарен к знаниям, имеющимся у человека-пользователя, т.е. он дает некоторую дополнительную информацию к той, которая у человека уже есть, то машинный словарь в функции информирования автономен, т.е. он должен содержать всю необходимую для «искусственного интеллекта» машины информацию. Машинный словарь в применении в автоматизированных системах не может рассчитывать на то, что компьютер располагает «фоновым» знанием, необходимым для пользования словарем.
Машинный словарь должен содержать всю информацию, необходимую для работы с данным словом. Всякая неопределенность, неоднозначность, и т.п. сохранятся в выдаче, если в алгоритме работы с текстом не будут предусмотрены соответствующие процедуры.
1. История развития лексикографии
Лексикография (греч. lexikos – 'относящийся к слову' и grajw – 'пишу') – это научная дисциплина, занимающаяся теорией и практикой составления словарей. Еще в рукописях XI века (на полях или в самом тексте) можно встретить пояснения непонятных слов, чаще всего иноязычных или вышедших из употребления. Эти пояснения назывались глоссами, а собрания глосс, так называемые глоссарии, представляли собой первые небольшие словарики. В древнерусской лексикографии возникло несколько типов словарей: 1) словари собственных имен, содержащие в основном имена, упоминаемые в Библии (ономастиконы); 2) словари, охватывающие слова со сложным символическим смыслом (приточники); 3) словари, толкующие непонятные (церковно-славянские) слова книжной речи – "Толкование неудобь познаваемом речем"; 4) первые переводные словари, например, "Речь тонкословия греческого". Затем в XVI-XVII вв. появляются более полные собрания слов, расположенных в строгом алфавитном порядке, – азбуковники. Первый печатный словарь ("Лексис" Лаврентия Зизания) вышел в Вильно в 1596 году. Постепенно возникает интерес не только к старинным иностранным и старославянским словам, но и к словам современных иностранных языков, – начинают выходить многочисленные переводные словари: русско-иноязычные, иноязычно-русские. К 30-м годам XVIII века уже ощущалась потребность в толковом словаре русского языка, и с учреждением Российской Академии наук началось составление толкового "Словаря Академии Российской". В XIX веке было создано множество словарей самого различного характера, что обеспечило прекрасные предпосылки для развития лексикографии в XX веке – поистине, веке лексикографии, поскольку никогда еще эта дисциплина не развивалась столь успешно>1. Самая трудная часть работы историка-лексикографа – установление значения (семантики) слова. Для создания словаря необходимо провести отбор источников, анализ текстов, составление словников и словоуказателей, анализ словоупотреблений и т. д. Традиционно основой лексикографической технологии были рукописные картотеки (библиографические описания источников, цитат, словарных статей и т. п.). Благодаря чудовищной трудоемкости этой работы, помноженной на ответственность за ее результаты, словари часто называют по имени их создателя – Словарь Дашковой, Даля, Срезневского, Фасмера и т. д.>2
2. Истоки компьютерной лексикографии
Компьютерная лексикография возникла сравнительно недавно, и сейчас это быстро развивающаяся отрасль компьютерной индустрии – ведь "ословаривание" научного знания является одним из основных современных способов его проявления и распространения. Компьютерная лексикография – это также и становящаяся прикладная научная дисциплина в языкознании (лингвистике). Она изучает методы использования компьютерной техники для составления словарей. Это – временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям. Первые плоды развития этой дисциплины – встроенные в текстовые процессоры орфографические словари, а также многие другие информационно-программные продукты, активно использующиеся как в письменном, так и разговорном языковом творчестве.
Рассмотрим лишь один пример внедрения компьютерных технологий в современную лексикографию.