Сдам Сам

ПОЛЕЗНОЕ


КАТЕГОРИИ







Пролегомены к проекту Генерального интернет - корпуса русского языка (ГИКРЯ)





 

По мнению авторов статьи, современная лингвистика и лексикография являются в значительной степени корпусной, т.к. корпуса текстов на сегодняшний день — важнейшие источники сведений о живом языке. Поэтому исследования вопросов, связанных с адекватностью методик корпусных исследований, правильностью устройства самих корпусов и эффективностью инструментов доступа к ним являются крайне актуальными.

1.1. Содержательные и технологические проблемы существующих корпусов

По мнению авторов, формально корпус — любое собрание текстов с определенными создателями критериями отбора, позволяющими оценить соответствие замысла и исполнения. Среди корпусов можно выделить «универсальные» (содержат языковой материал, подходящий для практически любых исследовательских задач), о которых далее и пойдет речь.

Авторы условно выделяют три основных типа с т. з. зрения состава и функционала:

1) «Закрытые» корпуса, составленные вручную. Наиболее функционально развиты: исследователю может предоставляться возможность работать с подкорпусами, на которых произведено ручное снятие омонимии или проведена разметка, включая синтаксическую и семантическую. Такие подкорпуса позволяют искать и собирать статистику не только для отдельных слов, но и для выделенных при разметке лексических значений, синтаксических конструкций, целых семантических полей. Эти же размеченные подкорпуса используются для машинного обучения систем автоматического анализа текстов. Однако, не совсем ясны границы корпусов данного типа.

2) «Открытые» корпуса, создаваемые без определенного плана (интернет). Из-за большого объема могут считаться универсальными. Однако, функциональность интернета не высока: индексирование поисковиками, подсчеты частот, обработка запросов проводится не на лингвистических основаниях.

3) «Автоматическое получение корпусов из Интернета» — некий компромисс между двумя подходами. В лучшем случае составители подвергают корпуса, собранные с помощью запросов по ключевым словам, автоматической жанровой классификации, а затем используют как универсальные ресурсы для лингвистических исследований (Sharoff, 2010; Bidhauer, 2012). Именно это направление и развивает предлагаемый проект.

1.2. Проблемы закрытых корпусов

По мнению авторов статьи, текстовые корпуса обеспечивают удобное пространство для решения проблем грамматики. Что касается исследования лексики, результаты часто выглядят довольно поверхностными.

Основной недостаток закрытых корпусов — «типологическая» неполнота или несбалансированность, случайность в отборе текстов и небольшой объем (особенно размеченной их части). По мнению авторов, не следует решать с помощью закрытых корпусов следующие задачи: лексикосемантические и сильно лексикализованные синтаксические явления на языковой периферии; динамика языковых изменений; социальная и региональная дифференциальная лексикография; исследование терминологии; сравнительные исследования текстов разных жанров; фиксация и отслеживание языковой нормы.

1.3. Множественность нормы. Корпус и норма

Исследование узуса и выявление нормы, кодификация до появления источников электронных текстов были субъективными. Однако, отождествлять замкнутые универсальные корпуса (например, НКРЯ) с «нормой языка», по мнению авторов, можно лишь с оговорками.

Текстовое пространство сегментировано, и каждый сегмент, социальный или географический, имеет свою норму.

1.4. Охота на корпусных снарков

Авторы для удобства называют малоизученные объекты, быстро меняющие свое поведение (в том числе — появляющиеся и исчезающие), склонные к вариативности или очень неравномерно распределенные корпусными снарками. Охота на снарков в замкнутом корпусе является по определению делом достаточно безнадежным.

Типичными представителями корпусных снарков являются: единицы региональной лексики; общая лексика за пределами частотного словаря в 30–40 тыс. слов; новые значения и новые модели управления; объекты актуального паремийного фонда; социолекты; распределение конкурирующих способов выражения (включая явления в грамматике) и др.

Очевидно, что корпусные снарки являются одновременно и словарными: относительно них нет и не может быть и надежных словарных фиксаций.

1.5. Проблемы открытых ресурсов

В определенных случаях исследователям удается, опираясь на недокументированные возможности поисковых систем и/или во взаимодействии с их разработчиками, решать некоторые из указанных проблем, но систематического их решения ожидать вряд ли стоит.

1.6. Проблемы поиска стандартными поисковиками

Проблемы с использованием стандартных поисковиков широко известны:

1) Надежность выдаваемой статистики. Результат зависит от множества разных факторов, не имеющих отношения к частоте употребления слов и конструкций.

2) Ненадежность в интерпретации результатов поиска.

3) Снятие омонимии, синтаксическая разметка решаются только параллельным снятием омонимии в запросе и в найденном тексте.

1.7. История с географией

Для исследований регионального языка следует опираться на надежно установленные языковые региональные особенности, а не (только) на реалии, топонимы и проч.

1.8. Проблемы дублирования и скрытого цитирования

Исследователю, работающему с открытым корпусом, должны быть ясны принципы, на которых поисковик относит тексты к дублетам. Проблему, какие дубли возможны и важны, а какие должны удаляться, мы полагаем совершенно нерешенной.

1.9. Неполнота и непоследовательность метатекстовой разметки

Печальным недостатком Интернета как открытого корпуса является отсутствие метатекстовой разметки. Даже дата создания является крайне ненадежным параметром, поскольку время публикации только для определенных сегментов Интернета совпадает с датой написания.

1.10. Структурная неоднородность страниц

Страница Интернета является сложно устроенным документом, с большим многообразием типов структур. Помимо существенной для анализа информации на странице также содержится реклама, новости, общая для нескольких страниц служебная информация. К сожалению, страницы часто индексируются целиком.

2.1. Программа проекта

Перечисленные выше проблемы можно решить только с помощью корпусов нового типа, сочетающих необходимую полноту исследовательского материала с наличием релевантной лингвистической разметки и основанной на ней надежной статистики.

И эта статистика очень важна для социолингвистики. Основной проблемой применения метода сегментной статистики является отсутствие подходящего инструмента для автоматической обработки данных. До недавнего времени такая задача казалась неразрешимой, однако, авторы статьи полагают, что сегодня имеются уже все основания для успешной реализации проекта, отвечающего нуждам лингвистов, и такой проект для русского языка (Генеральный интернет-корпус РЯ) должен быть обязательно запущен.

Если обобщить все претензии и пожелания к имеющимся ресурсам и инструментам доступа к ним, то получится следующая программа для проекта.

1) Генеральный корпус должен быть настолько большим, чтобы быть релевантным для решения задач дифференциальной лингвистики и лексикографии (лексикографии жанровых, социальных и региональных различий).

2) Этот корпус должен представлять все существенные социальные, жанровые, тематические сегменты Интернета и давать статистически достоверную картину относительного распространения текстов данного сегмента в сети.

3) Генеральный корпус должен обновляться синхронно с обновлением Интернета (постоянно). Для целей обучения могут фиксироваться некоторые его версии.

4) Интерфейс к корпусу должен обеспечивать поиск и подсчет частот с учетом любых параметров метатекстовой разметки.

5) Поиск должен обеспечиваться технологиями статической (на уровне индекса) и динамической (на уровне обработки выдачи по покрывающему запросу) автоматической лингвистической разметки, позволяющей искать и статистически оценивать любые параметры языковых структур.

6) Корпус должен предоставлять возможность использовать для динамической разметки альтернативные лингвистические модели.

Далее авторы рассматривают, насколько достижимы эти цели.

2.2. Получение корпуса нужного объема и состава

Генеральный корпус должен быть открытым подмножеством Рунета, постоянно подпитывающимся новыми образцами. Получение сбалансированного корпуса нужного объема потребует многих итераций работы краулера на основании параллельно модифицируемого сегментного классификатора и сегментной карты Интернета.

Термин сегмент, по мнению авторов, применяется для указания на хорошо выделяемые и однородные в отношении некоторых параметров метатекстовой разметки подмножества текстов в Интернете. Сегменты могут быть физически компактными (электронные библиотеки или блоги), или виртуальными, распределенными по интернету. Наиболее эффективна, считают авторы, работа с компактными сегментами, которые систематически пополняются релевантными текстами.

2.3. Метатекстовая классификация и разметка

Частично классификация может вестись по материалам метаданных в отдельных ресурсах (пол, регион, возраст автора, время создания/ перевода текста в литературных коллекциях), но основу метатекстовой разметки в корпусе такого объема может составить только автоматическая классификация страниц.

В настоящее время достаточно хорошо себя зарекомендовали методы классификации по темам и жанрам, использующие самые простые и доступные признаки, такие как частота морфологических тегов или символьных N-грамм (Sharoff, 2010; Sharoff, et al, 2010).

В этом вопросе, однако, у авторов нет полного согласия.

В интерфейсе также предполагается визуализация различий между исследуемыми группами текстов.

2.4. Автоматическая лингвистическая разметка

По мнению авторов, нужны новые инструменты, позволяющие производить автоматическую лингвистическую разметку (лемматизация, аннотирование частеречных признаков и синтаксический анализ) текстов, не связанную уже с ограничением на объем.

Современные технологии морфологического и синтаксического анализа могут успешно работать на корпусе в 1–2 миллиарда словоформ.

Генеральный корпус должен быть физически размечен признаками, с которыми готовы работать большинство исследователей. Что касается логического уровня, то он обеспечивается динамической постобработкой базового запроса на основании лингвистической модели разметки, которая может иметь альтернативы. Так, вряд ли можно говорить о едином синтаксическом представлении.

Системы семантической разметки еще сложнее унифицировать. Назовем для примера разметки на основе PropNet, систему разметки, основанную на модели Смысл-Текст (Apresjan et al. 2006), автоматическую семантическую разметку в системе Compreno (Selegey, 2012).

2.5. Очистка и структурирование страниц

Очистка страницы имеет несколько уровней: от избавления от форматирующей информации до определения подструктур документа (см. выше про неоднородность).

В данном случае помогает доступная HTML-разметка.

2.6. Новые типы информации, представляемые корпусом

Лингвистическая и метатекстовая разметка позволяют решать задачи, которые сегодня еще не доступны исследователям, работающим с корпусами. Переход в оценке от отдельных вхождений к числу страниц и далее — документов, был очень важен. Но все же наиболее надежная из всех видов статистики — авторская. Особенно эффективно инкорпорированность лексики в идиолекты можно оценивать в блогосфере. Использование поэтических и песенных сайтов дает возможность выявления фонетической специфики

2.7. Открытые вопросы для изучения

Переход к открытым исследовательским корпусам с автоматической разметкой порождает новые важные вопросы:

1) В какой степени корпуса, размеченные автоматически, пригодны для целей лингвистики и лексикографии, и как следует оценивать качество их разметки.

2) Обоснование выбора языков разметки. В современной корпусной лингвистике давно уже принят подход, различающий физическую разметку корпуса и его логические разметки. Важно, чтобы проект Генерального интернет-корпуса предусматривал возможность добавления альтернативных разметок.

3) Изучение вопроса выделения исследовательского подкорпуса — такого, на котором наиболее эффективно проводить конкретное исследование, включая и машинное обучение.

В заключении авторы статьи говорят о том, что проект ГИКРЯ не является альтернативой проектам создания образцовых замкнутых условно универсальных корпусов русского языка (например, НКРЯ) или специализированных корпусов, ориентированных на исследование определенных явлений (референции, афазии и др.).

По мнению авторов, реализация проекта ГИКРЯ невозможна без широких обсуждений и участия заинтересованных исследователей.

 

Э. К. ЛАВОШНИКОВА







Что вызывает тренды на фондовых и товарных рынках Объяснение теории грузового поезда Первые 17 лет моих рыночных исследований сводились к попыткам вычис­лить, когда этот...

ЧТО ТАКОЕ УВЕРЕННОЕ ПОВЕДЕНИЕ В МЕЖЛИЧНОСТНЫХ ОТНОШЕНИЯХ? Исторически существует три основных модели различий, существующих между...

Что способствует осуществлению желаний? Стопроцентная, непоколебимая уверенность в своем...

ЧТО И КАК ПИСАЛИ О МОДЕ В ЖУРНАЛАХ НАЧАЛА XX ВЕКА Первый номер журнала «Аполлон» за 1909 г. начинался, по сути, с программного заявления редакции журнала...





Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:


©2015- 2024 zdamsam.ru Размещенные материалы защищены законодательством РФ.