Создаются корпусы текстов на двух языках

Сегодня стали создавать топированные корпусы текста. Слова такого корпуса получают буквенные и цифровые индексы, которые обозначают их грамматические, лексические, семантические, структурные признаки.

Письменный лексикон представлен одноязычными и многоязычными лексиконами (словарями). В многоязычных словарях дается перевод значения исходного языка на один или несколько иностранных языков.

Фонетические лингвистические ресурсы

Письменные текстовые массивы

Письменный лексикон

В компьютерной лингвистике используются следующие типы одноязычных словарей:

- частотно-алфавитные словари словоформ какого-либо текста

- словари-словоуказатели, где указывается частота, номер страницы и строки, на которой встретилось слово

- конкордансы – в них каждая словоформа характеризуется численными показателями и некоторым контекстом. Контекст дается – три предложения слева и справа.

- словари-энциклопедии

Энциклопедия – это словарь, содержащий характеристики не слова, а обозначенного им предмета, факта или явления.

- словари-тезаурусы, где указываются семантические связи между определенной частью его лексических единиц. 1852 г.

- терминологические словари – основная единица-термин

Термин – это слово или словосочетание, имеющее специальное значение, выражающее и формирующее профессиональное понятие и применяемое в процессе познания и освоения научных и профессионально-технических объектов. Используются при переводе текстов с одного языка на другой, для создания учебников.

2. Письменные текстовые массивы (корпусы текстов) – совокупность текстов, являющаяся достаточной для обеспечения надежности научных выводов о некотором языке, подъязыке, диалекте. Суть сводится к тому, что достоверные данные о морфологической, фонетической, синтаксической и семантической структуре языка и речи могут быть получены из достаточно большого массива текстов.

Могут быть использованы:

- в лексикологии – для составления различных словарей, выделения терминов, определения значения многозначных слов

- в грамматике – для определения частоты употребления грамматических морфем, для выявления наиболее употребляемых типов словосочетаний и предложений

- в лингвистике – для дифференцирования типов текста, создания конкорданса при машинном переводе.

3. Фонетические лингвистические ресурсы – это корпусы устной речи. Главная трудность создания корпуса устной речи связана с необходимостью транскрибирования устной речи. Несмотря на трудности, в мире существуют достаточно много фонетических корпусов, которые широко используются для:

- сопоставления изучения устной и письменной формы языка

- для изучения грамматических и лексических особенностей устной речи

- для создания компьютерных систем, используемых с целью распознавания и синтеза устной речи

Возможности современного ПК

Сопоставление принципов характеристиками возможности компа значительно превосходят возможности человека:


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: