Корпус текстів з комп’ютерної лінгвістики

Abstract – The aim of the decision was to compile a corpus of computational linguistics texts and to study it’s applications in linguistics and lexicography studies. The corpus includes the texts of handbooks, articles in English, Russian and Ukrainian about 500 thousand word-forms in each language. The Corpus is used in linguistics studies: statistical research of functioning of words, grammar forms and collocations in scientific texts.  A software package was developed to study the texts of the Corpus. The standard principles of text coding compilation were revised. The glossary for searching about thousand computational linguistics terms was designed. This tool includes an explanation of the term, its Russian and Ukrainian translations, and contexts in all sub-corpora.

I. Вступ

Останнім часом корпуси текстів знаходять широке практичне застосування у комп’ютерній лексикографії, розробці систем автоматичного аналізу тексту, машинному перекладі, інформаційно-пошукових системах.

Метою пропонованого дослідження є розробка принципів побудови тримовного корпусу текстів з комп’ютерної лінгвістики, а також виявлення можливостей його застосування в лінгвістичних дослідженнях.

Актуальність пропонованого дослідження пояснюється, насамперед, необхідністю систематизації  і стандартизації термінології з комп’ютерної лінгвістики, яка функціонує в досліджуваних фахових текстах.

При створенні даного корпусу текстів було враховано досвід існуючих в Україні корпусів української мови, зокрема УНЛК [1], попередньої власної розробки англо-українського корпусу паралельних текстів офіційних документів [2] й підкорпусів текстів публіцистичного стилю й поетичної мови [3].

II. Етапи створення корпусу

Створюваний в лабораторії комп’ютерної лінгвістики Київського національного лінгвістичного університету корпус є тримовним і синхронним з точки зору хронології, функціонального стилю й тематики текстів.

В основу розробки корпусу текстів з комп’ютерної лінгвістики було покладено основні вимоги до корпусних об’єктів, а саме: відібраність лінгвістичного матеріалу, репрезентативність, скінченність обсягу, машиночитаність, стандартність і дослідна зорієнтованість [4].

Матеріал пропонованого дослідження становлять зібрання англо-, україно- та російськомовних текстів з комп’ютерної лінгвістики обсягом близько 500.000 слововживань кожне. Створюваний корпус базується на текстах підручників, довідників і наукових статей з комп’ютерної лінгвістики. Так, наприклад, основу англомовного підкорпусу текстів становлять матеріали підручника “The Oxford Handbook of Computational Linguistics” [5], а також статей збірників “Computational Linguistics”, “Text, Speech and Language Technology”, “The Prague Bulletin of Mathematical Linguistics” та ін. Україномовний підкорпус базується на текстах підручників “Комп’ютерна лінгвістика” [6] й “Традиційна та комп’ютерна лексикографія” [7].

Для формування кожного підкорпусу обиралися автентичні тексти в межах останніх десяти років. Застосування різножанрового тримовного матеріалу дає можливість уключити лексику різних лінгвістичних галузей (теоретичної, структурної, прикладної лінгвістики) й репрезентувати різні школи (американську, європейські, київську, московську, санкт-петербурзьку та ін.). До корпусу включено повні тексти документів, що забезпечує їх структурну й лексичну завершеність.

Для створення корпусу було розроблено допоміжну програму адресації, яка дозволяє опрацьовувати тексти за вихідними даними. У відповідні поля програми вводяться необхідні відомості про опрацьовуваний текст: назва тексту, прізвище та ініціали автора, назва видавництва й рік видання. Окремо вводиться анотація до цього тексту. Після цього програма заносить інформацію до відповідних таблиць у базі даних. Кодування анотацій до текстів дає можливість у майбутньому створити на базі корпусу автоматичну систему реферування фахових текстів.

Нижче подано схему бази даних створюваного корпусу текстів з комп’ютерної лінгвістики.

Найістотнішими у структурі бази даних є таблиці “text_table_ukr” і “main_table_ukr”.

     “main_table_ukr”: містить тексти, поділені на окремі слова, їх леми та граматичні коди. Крім того, для кожного слова вказано номер речення, де воно зустрілося, поле з позначками про його форматування та зовнішній ключ-номер тексту з цим словом.

     “text_table_ukr: включає інформацію про тексти (дату публікації, тему, інформацію про те, хто додав цей текст до бази даних, більший текст, фрагментом якого є даний), а також зовнішні ключі для зв’язку з таблицями списку авторів, видавництв, стилів і т.ін.

     “author_list_ukr”,“author_table_ukr: забезпечує деревовидну структуру даних про авторів текстів, що дає змогу для кожного тексту вказати необмежену кількість авторів.

     “styles_table_ukr: містить інформацію про стиль тексту, яка для зручності винесена в окрему таблицю.

     “publisher_table_ukr: включає дані про всі видавництва.

     “group_func_ukr”: у цій таблиці для кожної групи слів можна вказати їх функцію.

 

 

Рис.1 Структура БД корпусу

 

На сучасному етапі в корпусі здійснено напіватоматичне морфологічне кодування, укладено частотні словники словоформ і глосарій термінів з комп’ютерної лінгвістики.

Корпус з морфологічною розміткою на сьогодні є найбільш поширеним серед інших типів корпусів. При цьому кодування включає не тільки ознаки частиномовної приналежності, а також і коди граматичних категорій, властивих для цієї частини мови. Результатом частиномовного кодування є текст, що містить однозначні морфологічні маркери. Причому у більшості сучасних корпусів для морфологічного кодування використовуються наявні в інтернет-мережі програми.

У створюваному корпусі використовуються авторські програми: 1) морфологічного кодування англійського дієслова на основі 15 диференційних ознак [8]; 2) пошуку слова в підкорпусі за словоформою, лемою та граматичним кодом. Створення уніфікованої системи кодів для англо-українсько-російського корпусу текстів пов’язано з об’єктивними труднощами, які пояснюються, насамперед, різними типологічними характеристиками досліджуваних мов.

Відомо, що в українській і російській мовах граматичне значення виражається переважно синтетично: за допомогою закінчення, суфікса, префікса, зміни наголосу, внутрішньої флексії, суплетивної видозміни. На відміну від вищесказаного в англійській мові переважає аналітичний спосіб вираження граматичного значення – за межами слова: за допомогою прийменників, сполучників, артиклів, допоміжних дієслів, інших службових слів і порядку слів у реченні.

Зокрема, особливої уваги потребує система форм англійського дієслова, яка порівняно з українською і російською системами характеризується значною складністю й розгалуженістю. Для забезпечення можливості ефективної роботи корпусу необхідно, щоб усім дієслівним словоформам в тексті були приписані правильні морфологічні коди. Програма автоматичного морфологічного кодування дієслівних форм здійснює лише первинне розмічування. Отримані результати первинного опрацювання тексту потребують ручного редагування й виправлення помилок, допущених програмою.

У корпусі текстів з комп’ютерної лінгвістики використовується стандартний набір програм морфологічного кодування, лематизації, здійснення пошуку за словоформою, лемою та граматичним кодом й  укладання конкордансу. Розглянемо більш детально принципи роботи програм морфологічного кодування форм англійського дієслова. Для цього застосовуються такі допоміжні програми:

1. Автоматичного визначення однозначних дієслівних форм – переважної більшості з загального списку в 526 форм.

2. Розпізнання випадків граматичної омонімії дієслівних форм Past Simple і Past Participle. У цьому разі користувачеві надсилається запит для зняття омонімії вручну.

3. Лематизації, яка приписує усім дієслівним формам їх леми.

Зазначені програми базуються на опрацюванні бази даних, в якій міститься понад 1500 англійських дієслів з їх основними формами. При морфологічному кодуванні також застосовуються прийоми контекстного аналізу.

Описані програми суттєво полегшують для дослідника процес приписування морфологічних кодів англійських дієслів, а зручний інтерфейс максимально спрощує процес корегування помилок, допущених при автоматичній розмітці.

III. Глосарій термінів з комп’ютерної лінгвістики

Кінцевою метою створення тримовного корпусу текстів з комп’ютерної лінгвістики є укладання перекладного словника термінів, для чого корисним є досвід створених на сьогодні в Україні одномовних термінологічних словників, таких як: “Інформаційно-пошукова система (тезаурус) з лінгвістичної термінології” [3], “Вибрані топіки та лексикон сучасної лінгвістики” [9] і “Словник з української термінології прикладної (комп’ютерної) лінгвістики” [10].

За основу реєстру створюваного тримовного глосарія термінів з комп’ютерної лінгвістики було прийнято реєстр англійських термінів з дефініціями, поданий в підручнику “The Oxford Handbook of Computational Linguistics” [1].  Це пояснюється тим, що українська й російська термінологія з комп’ютерної лінгвістики значною мірою поповнюється через переклад, калькування або транслітерацію відповідних англійських термінів.

Укладання тримовного глосарія на базі корпусу текстів з комп’ютерної лінгвістики здійснено через поєднання системного й текстоорієнтованого підходів. Побудований за алфавітним принципом глосарій термінів є тлумачним.

В укладеному створюваному глосарії подаються дефініції українських і російських відповідників англійських термінів, виявлені в текстах підкорпусів. Причому розробники відмовилися від узгодження поданих різними мовами дефініцій, оскільки це дає можливість виявити відмінності в розумінні термінів різними лінгвістичними школами.

Для показу реального функціонування термінів в глосарії наводяться приклади їх вживань у текстах підкорпусів. У якості прикладів вживання термінів користувачеві пропонуються повні речення, відібрані з аналізованих текстів.

Глосарій англійських термінів з комп’ютерної лінгвістики містить близько 1000 реєстрових слів. Розроблене програмне забезпечення дозволяє здійснювати пошук англійського терміна, переглядати його дефініцію англійською мовою й усі приклади вживань в англійському підкорпусі текстів.

 

 

Рис.2 Приклад словникової статті глоссарія термінів

 

Для перегляду дефініції користувач може ввести певний англійський термін з комп’ютерної лінгвістики вручну або вибрати його з реєстру. При натисканні нижче подається дефініція терміна англійською мовою, а справа – його еквіваленти українською й російською. Обираючи іншу робочу мову, користувач має змогу переглянути приклади вживань еквівалента англійського терміна в українському або російському підкорпусі.

Збереження глосарія у вигляді бази даних дозволяє додавати нові терміни до сформованого реєстру. Введення й опрацювання нових текстів корпусу автоматично збільшує кількість прикладів вживань термінів.

Висновок

Упровадження корпусного підходу в сучасні лінгвістичні дослідження дає якісно нові можливості оптимізації й об’єктивізації лінгвістичних даних.

За способом використання створений в лабораторії комп’ютерної лінгвістики КНЛУ тримовний корпус текстів є дослідним та ілюстративним.Матеріал підкорпусів текстів з комп’ютерної лінгвістики дає можливість для подальших лексико-граматичних, лексикографічних і зіставно-типологічних досліджень англійської, української і російської мов.Укладений на базі корпусу текстів з комп’ютерної лінгвістики глосарій термінів може бути використаний як довідкова система з джерельною базою даних або допоміжний модуль системи машинного перекладу фахової літератури.

Література

  1. 1.О.В. Бугаков,“Использование УНЛК в лингвистических исследованиях”,Труды международной конференции «Корпусная лингвистика – 2008»,с.89-96.СПб,2008.
  2. 2.В.І. Перебийніс, Т.В. Бобкова,Л.М. Гриднєва,К.М.  Лебедєв,“Морфологічне кодування англо-українського корпусу паралельних текстів офіційних документів”,Науковий вісник Чернівецького університету № 441-443,с.166-171.  Чернівці: “Рута”, 2009.
  3. 3. www.mova.info
  4. 4.О.Демська-Кульчицька,“Основи національного корпусу української мови”,с. К., 2005.
  5. 5.R..Mitkov(ed.),“The Oxford Handbook of Computational Linguistics”.Oxford:Oxford University Press,2003.
  6. 6.Н.П.Дарчук,“Комп’ютерна лінгвістика”.К.,ВПЦ“Київський університет”, 2008.
  7. 7.В.І.Перебийніс,В.М.Сорокін, “Традиційна та комп’ютерна лексикографія”.К.,2009.
  8. 8.V.Perebyiniss(ed.),“Morphology of English Verb:System and functioning”,pp. 18-19.M.: RGDO,2008.
  9. 9.І.Б.Штерн,“Вибрані топіки та лексикон сучасної лінгвістики”.К.,1998.
  10. 10.С.М.Дерба,“Словник з української термінології прикладної (комп’ютерної) лінгвістики”.К.,2007.

 

Get the CSIT'2009 button!
You can help us to promote the conference by adding our button to your website or blog!

CSIT'2009: International Conference on Computer Science and IT

Here is the button code: