АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Как осуществлять поиск на этом сайте?

Читайте также:
  1. Автоматизированная информационная поисковая система правовой информации
  2. Автоматизированные информационно-поисковые системы
  3. Автоматический поиск инструмента и его кодирование
  4. Античность: поиски «вещественных» первоначал
  5. Быстрый поиск (выполнить 3 пункта)
  6. В ПОИСКАХ ЗОЛОТОЙ СЕРЕДИНЫ
  7. В сумерки хищник отправился на поиски пищи. Сначала он обследовал места по соседству, затем, убедившись, что поблизости нет добычи, углубился в лес.
  8. В12. Поиск информации в базе данных по сформулированному условию
  9. Відповідальність та сенс життя (Франкл В. Человек в поисках смысла)
  10. Вывод: рациональнее осуществлять закупки яблочного концентрата у местных поставщиков, а сахар у прежних.
  11. Выделяют методы поиска
  12. Геохимические критерии поисков залежей УВ

Основные цели, задачи и корпусной лингвистики Корпусная лингвистика – это раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использованием лингвистических корпусов (корпусов текстов). Она содержит два аспекта: во-первых, создание и разметка (аннотирование) корпусов текстов и разработка средств поиска по ним и, во-вторых, собственно лингвистический - экспериментальные исследования на базе корпусов.

 

Корпусная лингвистика призвана ответить на следующие вопросы: какие принципы лежат в основе устройства корпусов, как должна быть устроена стандартизованная разметка корпуса относительно различных языковых параметров (жанровая и стилевая разметка текстов, морфологическая разметка и т.п.), какие лингвистические и литературоведческие задачи можно решать с помощью корпусов,

как пользоваться корпусами используя специальные языки запросов к корпусам.

 

 

Сравнительный анализ:

1 – Ruscorpora (Национальный корпус русского языка):

Как осуществлять поиск на этом сайте?

 

Для начала поиска следует выбрать по каким признакам будет осуществлен поиск. Есть несколько параметров поиска: по составу и структуре, по статистике, с построением графиков частотности, по морфологии, по оборотам, по синтаксису, по семантике, а также по параметрам текстов.

 

 

Для описания возможностей такого поиска возьмем 6 слов – устаревших и вышедших из употребления с приведением семантики и графиков частотности.

 

Злыдни — в мифологии украинцев и белорусов демонические существа, враждебные человеку, его недоля, беда. Они невидимы и обитают в доме или сидят на плечах человека.

 

Из таблицы частотности видно, что пик употребления был в 1931 году, а также что оно до сих пор используется.

 

Кросна ― ручной ткацкий станок, характерный для белорусского народного ткачества

 

Пик употребления – с 1891 по 1893 г.

Полностью вышло из речи в 2008 г.

 

Кармазин — пищевая добавка, относящаяся к группе красителей.

Существовало с 2000 года по 2007.

 

Мотыга — сельскохозяйственный инструмент.

График показывает довольно интересную картину – слово используется лавинообразно и каждый раз идет на спад. На данный момент не используется.

 

Студенец - колодец со студеной водой

Пик употребления с 1877г. по 1880г.

Перестало использоваться в 2008 году.

 

 

Сусек — забранное досками в виде неподвижного ларя место в амбаре, житнице. Предназначено для ссыпки зерна или хранения муки, закладки овощей и т. д. Дно сусека делается горизонтальным или наклонным к выпуску. В картофеле- и овощехранилищах между досками оставляются пространства для циркуляции воздуха вокруг хранимого продукта.

Пик употребления 1797 г.

Полностью вышло из употребления в 2004 г.

 

Это не все возможности поиска. Искать можно и тематически – через разделы по словам, грамматико-семантическим признакам, словообразованию, и т.д.

Например, в историческом разделе через подраздел берестяных грамот можно получить информацию по этим документам:

 

При нажатии на определенный текст выводится подробная информация о нем.

 

Объем некоторых разделов и подразделов:

В настоящее время произошли следующие изменения в объеме:

Объём акцентологического корпуса увеличен до 30 млн словоупотреблений. Пополнены устный корпус (до 11,3 млн словоупотреблений) и мультимедийный корпус (до 4,3 млн). Для общего доступа открыт корпус региональной и зарубежной прессы. Объём корпуса — более 13 млн словоупотреблений. Пополнен поэтический корпус: общий объем составляет 10,9 млн. Обновлён синтаксический корпус, его объём теперь составляет более 860 тыс. словоупотреблений. Пополнен параллельный корпус: объём корпуса теперь превышает 54 млн словоупотреблений. Пополнение основного корпуса на 20 млн словоупотреблений (полный объём 230 млн словоупотреблений).

Общий объем более 500 млн слов.

 

2 - http://corp.hum.sdu.dk/ (Corpuseye):

 

При разборе этой базы корпусов сразу бросается в глаза ее многоязычие. Стоит отметить, что при выборе раздела в процессе поиска может понадобится ввод пароля, то есть некоторые разделы не являются свободными для исследования.

Особенности поиска:

Выбор на главной странице падает не только на язык, но и версию интерфейса.

Вот пример старой версии германского корпуса:

 

В ней лишь два корпуса с учетом количества слов – газетный и смешанный. Можно выбрать в каком именно корпусе осуществлять поиск.

 

Здесь видно где в каком корпусе собрано словоупотреблений. Так, в газетном разделе собрано 4 миллиона слов, а в смешанном лишь 2,5 миллиона.

 

 

А это новый интерфейс:

 

В нем намного больше корпусов, объем их словоупотреблений варьируется от 34 миллионов до 2, а это значит что в зависимости от выбранного раздела функциональность может быть ниже или выше.

Справка спрятана в виде ссылки снизу, и если не знать где она находится - запросто можно достаточно долго ее искать. Но даже это не конец поисков из-за того, что она делится еще на несколько.

 

Также есть два экспериментальных корпуса: Исландский (1 миллион слов) и Фарерский (1-ый раздел – 112 тысяч слов, 2-ой раздел – 94 тысячи слов).

Интерфейс у них совпадает с новым.

 

Поиск можно осуществлять также через “дерево корпусов” объединяющее обе версии интерфейса.

 

Для приведения примера возьмем Шведский корпус и слово nord (peoples from north german sept)

 

Поиск можно отфильтровать по релевантности, частоте, и сортировке.

При наведении курсора на интересующий объект появляется краткая информация о нем. Текст с информацией о предложении можно экспортировать или получить более подробную информацию:

 

 

В отличие от ruscorpora данный корпус достаточно сырой.

 

 

Инструкция по работе с ресурсом находится на этой странице:

http://corp.hum.sdu.dk/corpmanual.html

 

 

Технология разметки текстов на сайте http://opencorpora.org/:

 

Для разметки текстов на данном сайте надо на нем зарегистрироваться и зайти в систему. После этого, собственно, переходим к самой разметке:

Задания маркированы цветом по сложности – от зеленого к серому.

Выбираем задание и отвечаем на вопросы:

Важно понимать, что эта разметка призвана помочь сайту, поэтому если вы не уверены просто пропустите то в чем сомневаетесь. После разметки вы через некоторое время сможете увидеть результат в статистике.

 

 


1 | 2 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.007 сек.)