Сдам Сам

ПОЛЕЗНОЕ


КАТЕГОРИИ







О «ПОДВОДНЫХ КАМНЯХ» В КОМПЬЮТЕРНЫХ СИСТЕМАХ ПРОВЕРКИ ПРАВОПИСАНИЯ





 

В своей статье Э. К. Лавошникова рассматривает проблемы, возникающие при создании машинных словарей, обслуживающих компьютерные системы проверки правописания, на примере наиболее распространенного спеллера, «спелл чекера»/ «спел-чекера»/ автокорректора текстового редактора MS WORD 2000.

1. Вначале автор приводит список схожих по звучанию слов из основного словаря автокорректора ОРФО, т.е. системы проверки правописания (например, адАптация и адОптация), которые в академических словарях часто снабжены разными толкованиями. Так, в «Грамматическом словаре» А. А. Зализняка к термину адоптация дано толкование «принятие». Т. о. подобный кажущийся «плюрализм» в написании слов может привести к пропуску ошибок, ведь не каждый пользователь станет обращаться к академическим словарям.

2. Далее автор в качестве иллюстрации дает специально придуманные предложения с «разрезаниями» слов (дефисом или пробелами), со «склеиваниями», с удвоением или пропуском букв и проч. Так как в системе редактора содержатся слова типа «закрай», «аль», «нети: в нетях» и т.п. автокорректор ОРФО не выдает никаких замечаний к предложениям с ними.

3. Затем автор говорит о перегруженности словаря автокорректора ОРФО архаичной и редко употребляемой лексикой, которая выдается в перечне вариантов для некоторых слов с ошибками.

Лавошникова отмечает, что автокорректор WORD не исправляет ошибки, возникшие при сканировании (со сгиба развернутой книги в память компьютера могут не считаться первые или последние символы строки).

К представленным в основном словаре автокорректора ОРФО узкоспециальным терминам, «похожим» на более употребительные словоформы и конструкции, подсказка ОРФО предупреждения не выдает.

Автор отмечает, что в идеале пользователям должны предоставляться дополнительно различные тематические словари. Однако и в данных версиях текстового редактора есть возможность завести свой небольшой личный словарь.

4. Исследователь обращает внимание на то, что многие употребительные местоимения и другие короткие слова нередко совпадают с началами или концами более длинных словоформ и могут при случайных разбиениях слова пропускаться.

Помимо прочего словаре автокорректора ОРФО имеется множество диалектных, областных, устаревших, возвышенно-поэтических слов. В случае опечатки вместо исправленного варианта спеллер может предложить малоупотребительную форму, т. о. пропустив ошибку. В статье приводится множество примеров, подтверждающих мысль автора.

По мнению Лавошниковой, удобнее было бы убрать из словаря автокорректора малоупотребительные формы, т.к. он все же нацелен на обнаружение ошибок в текстах массового пользователя.

Также автор отмечает, что некоторые слова жаргонной, разговорной, просторечной или экспрессивной лексики вызывают подсказку ОРФО, списки таких помеченных слов в системе ОРФО не достаточно полны.

5. Автор считает, что слова, «слишком похожие» на другие (станица/ страница), желательно было бы на этапе создания машинных словарей снабжать особыми пометами. Во избежание ошибок, опечаток, по мнению Лавошниковой, желательно было бы предусмотреть особое сообщение системы: «Это ли слово имелось в виду?».

Фразеологизмы (устойчивые обороты речи) требуют особой обработки из-за присутствия в них устаревших, архаичных слов, замена которых приводит к искажению значения.

Некоторые сокращения, которые не могут стоять в начале предложения, автокорректор должен был бы проверять на заглавную букву, чтобы впредь не пропускалось: «Проч.», «Др.», «Т.д.», «Т. п.».

6. Несмотря на кажущееся богатство словаря автокорректора ОРФО, он не может претендовать на какую-то полноту и всеохватность.

Не находятся и подчеркиваются красным слова, ставшие популярными в последнее время, но не всегда имеющиеся даже в сравнительно новых изданиях словарей.

Зачастую в словаре ОРФО не находятся слова, образованные от известной автокорректору лексемы (подчеркиваются как ошибки). Т. е. включение механизмов словообразования — задача для будущих версий автокорректора.

Отсутствуют в словаре и многие неологизмы, что объясняется, по мнению автора, консерватизмом специалистов, отвечающих за пополнение словарной базы спеллера, их осторожностью.

В системе ОРФО иногда не обнаруживаются и давно известные и привычные слова, если не всегда имеющиеся в наиболее доступных изданных в разное время словарях, то довольно часто встречающиеся в газетных текстах.

В системе ОРФО нет некоторых образований с префиксами (приставками) и префиксоидами.

В итоге частые необоснованные подчеркивания из-за недостаточной полноты словаря автокорректора приводят к тому, что пользователь перестает обращать на них внимание и в результате может пропускать слова с ошибками.

7. Слова, начинающиеся с заглавной буквы, если они не найдены в основном словаре, проверяются по словарю имен собственных.

В системе ОРФО нет многих топонимов (Смоленщина, Рязанщина, Алания, Астана и др.).

В словаре имен собственных ОРФО отсутствуют многие популярные имена, отчества.

Не обнаруживаются прилагательные лермонтовский, тургеневский, достаточно частотное слово сталинизм.

8. Образование превосходной степени от большинства прилагательных не вызывает трудностей. Однако в системе ОРФО некоторые прилагательные в превосходной степени объявляются ошибочными (подчеркиваются красным), хотя соответствующие исходные формы в словаре ОРФО представлены.

Для автокорректора ОРФО неизвестны многие слова с отрицательной частицей «не-».

В системе ОРФО в разных контекстах пропускаются без замечаний сомнительные сращения кратких страдательных причастий с отрицательной частицей «не».

9. Автокорректор ОРФО пропускает без замечаний даже при настройке на деловую переписку стилистические варианты слов и падежных окончаний (-ей/ -ею), которые следовало бы сопровождать соответствующими предупреждениями.

10. Автокорректор WORD подчеркивает как неправильные формы некоторых слов, имеющиеся в академических словарях. В словаре спеллера даны неполные парадигмы многих глаголов и существительных.

Из фразеологизма «ни зги не видно» автокорректор производит словоформы, которые в современном русском языке не употребляются: зга, згу, згой, згою и т.д.

В словаре автокорректора ОРФО имеются такие словоформы, которые с гораздо большей вероятностью могут получиться в результате склеивания при невнимательном редактировании текста или при сканировании.

11. Если в словах типа отряд, подотряд по «техническим причинам» пропадет конечная буква «д», то автокорректор ОРФО воспримет получившиеся «словоформы» отря и подотря как деепричастия от глаголов отереть и подтереть. В системе ОРФО «узаконено» множество более чем странно звучащих деепричастий от глаголов совершенного и несовершенного вида.

С другой стороны, многие из тех деепричастий прошедшего времени, которые даны в «Грамматическом словаре» А. А. Зализняка (растерев, вытерев, отперев, замерев), в системе ОРФО не образуются и подчеркиваются как неправильные.

Образование таких сомнительных в стилистическом плане грамматических форм, по мнению автора, не только засоряет подсказку, но может приводить и к пропуску ошибок.

В «Грамматическом словаре» А. А. Зализняка особыми символами отмечены прилагательные, краткие формы от которых почти никогда не употребляются. Однако в системе ОРФО такие краткие формы образуются и пропускаются без замечаний. Очевидно, что эти слова в современных текстах с большей вероятностью могут быть получены в результате обрезания «по техническим причинам» последней буквы.

Часто в тех случаях, когда в словаре А. А. Зализняка даются указания, что какие-либо формы из парадигмы слова затруднены или избегаются, в словаре автокорректора ОРФО они порождаются и пропускаются без замечаний.

С другой стороны, парадигмы некоторых слов необоснованно сокращены. Многие существительные пропускаются в данной системе только в единственном числе, остальные формы слова подчеркиваются как ошибочные.

12. По мнению автора, подсказка автокорректора ОРФО пока оставляет желать лучшего. Часто слово просто подчеркивается красной чертой без дополнительных объяснений.

В заключении автор приходит к следующим выводам. Во-первых, чем объемнее основной словарь автокорректора, тем больше ошибок пропускается, чем он меньше, тем больше «ложных тревог».

Во-вторых, желательно, чтобы в каждой очередной версии словарь пополнялся новыми словами. С другой стороны, в основном словаре должны быть выявлены малоупотребительные слова и словоформы, которые могут совпасть с искаженными (в результате наиболее вероятных ошибок и опечаток) достаточно употребительными словоформами. Такие «подводные камни» могли бы снабжаться особыми пометами или выноситься в дополнительные компьютерные словари.

 

А. И. Левинзон







ЧТО И КАК ПИСАЛИ О МОДЕ В ЖУРНАЛАХ НАЧАЛА XX ВЕКА Первый номер журнала «Аполлон» за 1909 г. начинался, по сути, с программного заявления редакции журнала...

Что делать, если нет взаимности? А теперь спустимся с небес на землю. Приземлились? Продолжаем разговор...

Конфликты в семейной жизни. Как это изменить? Редкий брак и взаимоотношения существуют без конфликтов и напряженности. Через это проходят все...

Живите по правилу: МАЛО ЛИ ЧТО НА СВЕТЕ СУЩЕСТВУЕТ? Я неслучайно подчеркиваю, что место в голове ограничено, а информации вокруг много, и что ваше право...





Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:


©2015- 2024 zdamsam.ru Размещенные материалы защищены законодательством РФ.