АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Історія створення лінгвістичних корпусів

Читайте также:
  1. Аналіз існуючих теоретико-практичних розробок створення інформаційних систем для вирішення обраної проблеми.
  2. Банківські об'єднання: порядок створення та їх типи
  3. Ведення даних для створення плакату
  4. Визначення конструкції (структури) та асортименту порід для створення захисних смуг на присітковому фонді.
  5. Використання форм і звітів для створення застосувань в MS Access
  6. Гроші, виникнення грошей, історія виникнення грошей
  7. Екологічна стежка: передумови виникнення, історія.
  8. З дисципліни «Історія економіки та економічної думки»
  9. З курсу «Історія України»
  10. ЗАВДАННЯ 2. Уважно вивчіть методичні рекомендації стосовно створення завдання на виконання друку документів на мережному принт-сервері.
  11. Загальна характеристика особливих типів корпусів.
  12. Захплююча історія виникнення декупажу

Лінгвісти зібрали перші корпуси комп'ютеризованих текстів в 1960 -і роки. Перший комп'ютеризований корпус - Браунівський корпус (The Brown Corpus) - включає 500 текстів з американських книг, газет, журналів, вперше опублікованих у США в 1961 році. Кожен текст в Браунівському корпусі має довжину 2000 слів (мається на увазі слововживань - tokens), і все зібрання включає 1 млн. слів (500 текстів по 2000 слів у кожному). Автори корпусу У. Френсис (W. Francis) і Г. Кучера (H. Kucera) супроводили його великою кількістю матеріалів первинної статистичної обробки: частотним і алфавітно- частотним словником, різноманітними статистичними розподілами.

Мета створення Браунівського корпусу - забезпечити системне вивчення окремих жанрів письмової англійської мови і порівняння жанрів. Його поява викликала загальний інтерес і жваві дискусії. У першу чергу, вони торкнулися принципів відбору текстів і складу потенційно розв'язуваних на такому корпусі завдань. З одного боку, він будувався на основі статистичних процедур; з іншого боку, статистика застосовувалася у поєднанні з вольовими рішеннями авторів корпусу, що базуються на професійній інтуїції. Для досягнення максимальної об'єктивності цього складного процесу вимагалося побудова максимально формалізованих, прозорих для перевірки та контролю процедур [31].

Пізніше європейські дослідники склали корпус текстів, вперше опублікованих у Великобританії в 1961 році, слідуючи тим же принципам: 15 жанрів (регістрів), 500 текстів по 2000 слів (слововживань). Він включав 1 млн. слів британського варіанту англійської мови, і його назвали корпусом Ланкастер - Осло - Берген (The Lancaster - Oslo - Bergen Corpus, за назвами британського і двох норвезьких університетів, або коротко LOB). Збалансовані корпуси типу Браунівського дуже важливі для дослідників, чиї інтереси лежать в галузі лінгвістики і які хочуть використовувати корпус в цілях лінгвістичного опису та аналізу.

Отже, два самих ранніх великих корпусу - це корпуси письмовій промови американського і британського варіантів англійської мови. Обидва корпуси залишаються корисними і зараз, на них грунтуються численні дослідження англійської мови.

За десятиліття, що минули з моменту створення цих корпусів, комп'ютери стали дешевше і набагато могутніше, крім того, недорогі й надійні сканери зробили необов'язковим набір текстів на комп'ютері за допомогою клавіатури. Ці винаходи полегшили процес створення корпусів, і останні з них містять вже мільярди слів (слововживань).

До 1990 року вже було зафіксовано більше 600 комп'ютерних корпусів. По роках складання вони були розподілені приблизно наступним чином [ 44 ]:

-1965 10 1966-1970 20

1971-1975 30 1976-1980 80

1981-1985 160 1986-1990 320

Очевидно, що в наступні роки кількість і різноманіття створюваних корпусів йшли по наростаючій.

Серед сучасних корпусів англійської мови (як британського, так і американського варіанту) найбільш відомі Британський національний корпус (British National Corpus - BNC), Міжнародний корпус англійської мови (International Corpus of English - ICE), лінгвістичний Банк англійської мови (Bank of English), корпус сучасного американського англійського (Corpus of Contemporary American English - COCA) та ін В даний час корпуси створені для багатьох мов світу (див. Додаток 1).

У першій половині 1990 -х років корпусні лінгвістика остаточно сформувалася як окремий напрямок науки про мову. «Корпусні лінгвістика досягла зрілості» - так Я. Свартвік озаглавив в 1992 році передмову до матеріалів першого Нобелівського симпозіуму з корпусних лінгвістиці [60]. Корпусні лінгвістика тісно взаємодіє з комп'ютерною лінгвістикою, використовуючи її досягнення і, в свою чергу, збагачуючи її.

 

 


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.)