Синонимен речник. Тезаурус: какво е това

Катедра TAOI KemGUKI

Тезауруси за извличане на информация:

структура, предназначение и процедура за разработване

1. Тезаурусът като начин за систематично представяне на знания и

вид идеографски речник.

2. Тезауруси за търсене на информация: същност и предназначение

3. IPT структура

4. Процедурата за разработване, проверка, регистрация и поддържане на ИПТ.

Библиография

1. GOST 7.74 – 96. Езици за извличане на информация. Термини и дефиниции [Текст]. – Влез. 01.07.1997 г. – Минск: Междудържавен съвет по стандартизация, метрология и, 1997. – 34 с. (Система от стандарти за информация в библиотечното и издателското дело) ТК 191.

2. ГОСТ 7.25-2001. Едноезичен тезаурус за извличане на информация. Правила за разработване, структура и форма на представяне [Текст]. – ГОСТ 7.25-80; Въведете. 2002-07-01. – М.: Издателство на IPK Standards, 2001. – 16 с. МТК 191.

3. GOST 7.24-2007 Многоезичен тезаурус за търсене на информация. Състав, устройство и основни изисквания към конструкцията. – Вместо GOST 7.24-90; вход 2008-07-01. / Междудържавен съвет по стандартизация, метрология и сертификация. – М.: Стандартинформ, 2008. – 7 с. (Система от стандарти за информация, библиотечно дело и издателска дейност)

4. Баранов, О. С. Идеографски речник на руския език / О. С. Баранов. – М.: Издателство ETS, 1995. – 820 с.

5. Жмайло, С. В. По въпроса за дефинирането на тезауруса [Текст] / С. В. // НТИ. сер. 1 Организация и информационна работа. – 2003. – № 12. – С.20 – 25.

6. Жмайло, С. В. Към развитието на съвременните тезауруси за търсене на информация [Текст] / С. В. Жмайло // НТИ. сер. 1 Организация и методика на информационната работа. –2004. – № 1. – С.23 – 31.

Така в идеографския речник на руския език на О. С. Баранов (4) са идентифицирани 12 по-високи раздела на идеографския речник, сред които: „ред, природа, дейност, култура“ и др., Всеки от които е разделен на групи , подгрупи, отдели, секции . Всички думи в този речник са събрани в гнезда според тяхното значение и са групирани по определено понятие, с което най-често са свързани чрез видови отношения. Гнездата са групирани в подсекции и т.н. На този моментречникът съдържа 5923 гнезда, 7 нива на разделяне (според www.rifmovnik.ru/thesaurus.htm към 16.02.2010 г.). Ето пример за речников запис от този речник:

178.4.7 аромат ▲ - приятна миризма (например миризма на цветя, трева, сено. деликатен #. опияняващ #). ароматизиране . . кехлибар. тамян.

Кодът за думата „аромат“ отразява идеографската класификация, приета в този случай, по-специално връзката на тази дума с категорията „178-Усещания“.

Така термините „тезаурус“, „идеографски речник“, „речник от тезаурусен тип“ на първо място означават, че съвкупността от думи на езика в тях е представена по такъв начин, че една група думи включва думи, които са подобни по смисъл. Основната цел на идеографските речници е колекция от лексикални единици, обединени от обща концепция; Това улеснява читателя да намери най-подходящото средство за адекватно изразяване на мисли и насърчава активното овладяване на езика.

Из историята на тезаурусите

ЯКЕТА 2302

в продукти за костюми

Палто продукти

Шивашки продукти

n Двуредно сако

Комбинирано яке

Спортно яке

в мерките за опаковане

Остатъчен материал

Отпадъчен материал

Лексикална бележка;

Аскриптори или синонимни дескриптори;

По-висши дескриптори;

Подчинени дескриптори;

Асоциативни дескриптори;

Дескриптори, свързани с други типове връзки.

Във всяка група от LE, свързани с главния дескриптор чрез един тип парадигматична връзка, трябва да има азбучен ред на подреждане. Например:

АЛГОРИТМИЧНИ ЕЗИЦИ

с алгоритмични езици

машинно ориентирани езици

проблемно ориентирани езици

в СОФТУЕР

ФОРМАЛНИ ЕЗИЦИ

n АВТОКОДОВЕ

АЛГОРИТМИ

ПРОГРАМИРАНЕ cf изкуствени езици

Статия с аскриптор се състои от аскриптор и дескриптори или комбинация от дескриптори, които го заместват при обработката и извличането на информация. Ето примери за статии с аскриптор:

Буквено-цифрови знаци

Испански ОФИЦИАЛНИ ЕЗИЦИ

ЕСТЕСТВЕНИ ЕЗИЦИ

вижте АЛГОРИТМИЧНИ ЕЗИЦИ

Запис в речника може също да включва:

Честота на използване на дескриптора;

Кодов номер на дескриптор;

Код на дескриптор на систематичен индекс;

Класификационни индекси;

Допълнителни семантични и лексикографски бележки;

Чуждоезикови еквиваленти.

Качеството на лексико-семантичния индекс се определя от пълнотата на включените в него лексикални единици. се разбира като вероятността за включване в тезауруса на всяка информативно значима дума за дадена тематична област. Пълнотата на лексико-семантичния индекс и следователно на целия тезаурус оказва значително влияние върху резултатите от индексирането на документи и заявки.

Допълнителните части могат да включват систематични, пермутационни, йерархични и други индекси и списъци на специални категории лексикални единици.

Систематичният индекс е индекс, в който дескрипторите са групирани според категориите, приети в IPT. Систематичният индекс определя тематично направлениетезаурус, разкрива неговото съдържание и отразява онези отрасли на науката и технологиите, в които е възможно да се извършва търсене с различна степен на детайлност. Необходимостта от него като част от IPT се дължи на факта, че дава ясна представа за общо състояниетерминология в определена област на знанието, ви позволява да изградите последователен терминологичен модел и, ако е възможно, всички термини и понятия, които трябва да намерят място в тезауруса. Предназначен е да улесни търсенето на термини при компилиране на изображения за търсене на документи и заявки чрез организиране на набор от дескриптори и аскриптори по предмет.

Систематичният индекс е по същество класификационна схема за попълване на тезаурус с терминология, тъй като е изграден чрез организиране на набор от дескриптори в предметни области.

Систематичните индекси на IPT са разделени на три вида:

тематичен,

Смесени.

Това разделение отразява принципа за изграждане на класификационна схема за систематичен индекс.

Основните функции, изпълнявани от систематичния индекс на IPT:

Използване като спомагателно средство по време на индексиране, осигуряващо като цяло търсене на дескриптори за индексиращи понятия, които не са изрично представени в тезауруса (функция за търсене);

Използване на тезаурус в процеса на поддържане (функция на поддържане на IPT);

Използване на ИПТ като структурна основа, като управление на нейното развитие (конструктивна функция).

В съответствие с GOST 7.25-2001 (2), когато конструирате систематичен индекс от тематични и смесени типове в неговата тематична част, трябва да използвате заглавията на междудържавния рубрикатор на NTI или рубрикатора на конкретен ASNTI, съвместим с рубрикатора на междудържавния NTI . При изграждането на систематичен индекс от категориален и смесен тип, в неговата категориална част трябва да се намират следните общи категории:

Наименования на дисциплини и отрасли на дейност;

Предмети, материали;

Методи, процеси, операции, явления;

Свойства, количества, параметри, характеристики;

Отношения, структури, модели, закони, правила, абстрактни понятия.

Йерархичен индекс. Йерархичният индекс е индекс, който дава списък от списъци с дескриптори, като всеки списък започва с дескриптор, който няма по-висши. Той отразява пълната структура на йерархичните връзки в IPT. След всеки дескриптор се дават самите дескриптори, като се посочва нивото им в йерархията чрез номериране или графично обозначение на нивото:

Необходимостта от разработване на йерархичен индекс на IPT се дължи на факта, че цялата система на подчинение на понятията не е фиксирана в речниковите записи на IPT, т.к. това би довело до значително увеличение на лексико-семантичния индекс. необходимо е да се разработи независима секция на IPT - йерархичен индекс, който да отразява цялата йерархична командна верига от дескриптори до дъното.

Пермутационният индекс е индекс, в който по азбучен ред са изброени всички отделни думи, включени в компонентите на фрази, обозначаващи дескриптори, и за всеки от тях са посочени всички дескриптори, които включват тези думи. Следователно всеки термин се появява в индекса на пермутация толкова пъти, колкото има значими думи, които съдържа. Целта на пермутационния индекс е да осигури търсене на дескрипторни фрази по всяка дума, включена в техния състав, включително тези, които не се появяват в началото на лексикалната единица. Тя ви позволява да групирате думи с един и същи корен на едно място.

По правило пермутационният индекс се компилира по автоматизиран начин и обикновено приема формата на индекс от типа KWIC (Ключова дума – в контекста), в който всичко смислени думи– термини – са подредени по азбучен ред. в индекса на пермутация се намира в центъра на колоната, която се формира от микроконтексти на терминни елементи, а частта от термините, която не е на място, се премества в лявата страна на същия ред:

оптичен квант

вълнение

електрически

със зависимо възбуждане

Смущения ГЕНЕРАТОРИ

ГЕНЕРАТОРИ сериен

DC ГЕНЕРАТОРИ

Ще са необходими DC ГЕНЕРАТОРИ.

4. Ред за разработване, проверка, регистрация и поддържане на ИПТ

Понастоящем процедурата за разработване, проверка и регистрация на IPT се определя от два стандарта: GOST 7.25-2001 „Едноезичен тезаурус за извличане на информация. Правила за разработване, структура, състав и форма на представяне" и GOST 7.24-2007 "Многоезичен тезаурус за търсене на информация. Състав, устройство и основни изисквания към конструкцията." В съответствие с тези стандарти функциите по проверка и регистрация на IPT се изпълняват от национални и международни депозитни фондове.

Националният депозитен фонд на IPT на руски (включително IPT, съдържащ еквивалентни дескриптори на руски) се намира във ВИНИТИ.

Има и два международни депозитарни IPT:

1) международен депозитен фонд IPT за английски език, включително IPT, съдържащи еквивалентни дескриптори на английски език. Намира се в Торонто, в библиотеката на Факултета по информационни науки на Университета в Торонто (Thesaurus Clearinghouse - „изчисление“, The Library, Faculty of Information Studies, University of Toronto, TORONTO, Canada);

2) международен депозитен фонд IPT на всички други езици с изключение на английски. Намира се в , във Варшава, в научна и технико-икономическа информация (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, WARSZAW A, Полша.).

Пълните адреси на тези организации са дадени в GOST 7.25-2001.

GOST 7.25-2001 и GOST 7.24-2007 определят действията на разработчиците на IPT, както следва:

1. Преди да започне работа по създаването на IPT, разработчикът трябва да се свърже със съответния национален или международен депозитен фонд, за да определи наличието на регистрирани тезауруси по дадена тема. При наличие на такива тезауруси се преценява възможността за въвеждането им в дадена система. Ако такива тезауруси не бъдат намерени, може да се създаде IPT. В същото време цялата технология за създаване на IPT трябва стриктно да отговаря на GOST 7.25-2001 и GOST 7.24-2007

2. Готовият (разработен) IPT трябва да бъде подложен на проверка за съответствие с GOST 7.25-2001. отговарят на стандарта, тогава Националният го издава на разработчика. Този IPT се депозира (депозира) в съответния национален или един от международните депозитни фондове (в Торонто или Варшава).

Националните депозитари разпространяват информация за състава на фонда от депозирани IPT и ги предоставят на разработчиците на нови IPT, за да заемат елементи и да осигурят съвместимост на езиковата поддръжка за различни информационни системи. По този начин те изпълняват функциите на преглед, регистрация, съхранение на IPT и информиране за съществуващите IPT.

Много операции за управление на IPT);

Преходът на AIS от независима работа към работа в мрежов режим (когато се използва IPT в една рамка, трябва да се съгласуват принципите на тяхната работа).

Процедурата за поддържане на IPT в работно състояние се нарича поддържане или коригиране на тезауруса. Обикновено включва следното:

Промяна на лексикалния състав на IPT: въвеждане на нови лексикални единици, тях, промяна на статуса на лексикални единици (превод на ключова дума в дескриптори и обратно);

Промяна на парадигмалните отношения в IPT (засилване, отслабване);

Поддържането на IPT включва задължителното използване на инструменти за автоматизация, които ви позволяват бързо да извършвате такива трудоемки операции като азбучно сортиране на речника, речника, проверка на реципрочността и последователността на препратките, с помощта на които парадигматичните отношения се записват в IPT и т.н. .

Концептуална система предметна областВ основата на всяка предметна област е системата от понятия в тази област. Дефиниция на понятието: Понятието е мисъл, която отразява в обобщен вид обекти и явления от действителността чрез фиксиране на техните свойства и отношения; последните (свойства и отношения) се появяват в понятието като общи и специфични характеристики, съотнесени с класове обекти и явления (Лингвистичен речник)


Понятия и термини За изразяване на концепцията за предметна област в текстовете се използват думи или фрази, наречени термини. Наборът от термини на една предметна област образува нейната терминологична система. Връзката на конкретен термин с други термини от терминосистемата на предметната област се уточнява с дефиниция


Дефиниции на термина? Дума (или комбинация от думи), която е точно обозначение на конкретно понятие от всяка специална област на науката, техниката, изкуството, социалния живот и др. || Специална дума или израз, използван за обозначения за нещо. в една или друга среда, професия (Голям обяснителен речник на руския език)


Термини - точни имена на понятия Обикновено на всяко понятие от полето отговаря поне едно еднозначно разбрано понятие, чието значение е това понятие. - термини, в смисъла на традиционната теория на терминологията Свойства на термините - точни имена на понятията - терминът трябва да се отнася пряко към понятието, трябва да изразява ясно понятието; - значението на термина трябва да е точно и да не се припокрива по смисъл с други термини; - значението на термина не трябва да зависи от контекста. Термините, които точно назовават понятие, са обект на изследване от теорията на терминологията, терминолозите


Текстови термини В реалните текстове от предметната област, за обозначаване на понятие, освен основни термини, могат да се използват много различни езикови изрази, които наричаме текстови термини: - синтактични и словообразувателни варианти: получател на бюджетни средства - бюджет получател; - лексикални варианти – директно отписване, безспорно отписване; - двусмислени изрази, в зависимост от контекста, служещи за препратка към различни концепцииобласти, например думата валута в различен контекст може да означава национална валута или чуждестранна валута.














Дескриптори с маркировки Отпадък - част от името на дескриптора кранове (повдигащо оборудване) срещу кранове (птици) черупки (конструкции) – сравнение на различни тезауруси Предпочитания за фрази: – Грамофонни записи vs. плочи (фонограф) Ноти и множествено число: Дърво (материал) Гори (залесени площи)






Включване на дескриптори въз основа на многословни изрази Разделянето на термин увеличава неяснотата: растителна храна Значението на израза зависи от словореда: информационна наука - научна информация Една от съставните думи е извън обхвата на тезауруса или е твърде обща: първа помощ Отношенията на дескриптора не следват от неговата структура: –Изкуствени бъбреци, статут на бежанец, светофар




Асоциативни връзки Сфера на дейност – актьор – Математика – математик Дисциплина – обект на изследване – Неврология – нервна системаДействие - агент или инструмент - Лов - ловец Действие - резултат от действие - Тъкане - плат Действие - цел - Подвързване - книга Причина-следствие - Смърт - погребение Магнитуд - единица за измерване - Сила на тока - ампер Действие - контрагент - Алерген - антиалергично лекарство и т.н.


Тезауруси за извличане на информация: етапи на развитие Първи етап: индексаторите описват основната тема на текста, използвайки произволни думи и фрази Термините, получени от много текстове, се обединяват Сред термините, които са сходни по значение, се избира най-представителният. Някои от останалите стават условни синоними, останалите се изтриват Специфичните термини обикновено не се включват


Тезауруси за извличане на информация: изкуството на разработката Дескрипторите са термини, които са необходими за изразяване на основната тема на документа. Синонимите включват само най-необходимите (например започващи с различна буква), за да не усложняват работата на индексатора Свързани термините трябва да бъдат сведени до един термин, за да се избегне субективното индексиране Нива на йерархия, включването на специфични термини е ограничено


Тезаурус за извличане на информация: изкуството на разработване - 2 В сложни случаи дескрипторите се доставят с маркировки и коментари –LIV: бомбардиране – бомбардиране – Полисемантични термини: едно значение в тезауруса (главна), не се вписват в тезауруса, маркировки !!! Традиционният тезаурус за извличане на информация е изкуствен език, изграден на базата на реални термини




Традиционен IPT: приложение при автоматична обработка Липса на знания за истинския език на софтуера Липса на знания за реалния език на софтуера Лексика за законодателно индексиране: Речник за законодателно индексиране: – в текста ВОЙСКИ – в тезауруса ВОЕННИ СИЛИ – в текста ГЛАВЕН – главен, в тезауруса само главен Препоръчва се: всеки дескриптор се допълва със списъци с думи и термини Предлага се: всеки дескриптор се допълва със списъци с думи и термини Но: полисемия или свързан с различни дескриптори. Но: полисемия или свързаност с различни дескриптори. Разрешаване на нееднозначност Разрешаване на нееднозначност


Традиционен IPT: автоматично разширяване на заявката Проблем с асоциациите Предложено: въведете тегла, въведете тегла, въведете имена на отношения: обект, свойство и т.н. въведете имената на връзките: обект, свойство и др. ЗАКЛЮЧЕНИЕ: трябва да се научите как да създавате езикови ресурси специално за автоматична обработка на текстови колекции


Тезаурус EUROVOC – многоезичен тезаурус на Европейската общност Тезаурус на 9 езика Руска версия на EUROVOC – +5 хиляди понятия, отразяващи руската специфика Многоезичен тезаурус – Дескриптор – имена на различни езици–Аскриптори – за някои езици


Автоматично индексиране според тезауруса EUROVOC, базирано на правила (Hlava, Heinebach, 1996) Примерно правило: IF (близо до „Технология“ И с „Развитие“) USE Програма на Общността USE помощ за развитие ENDIF 40 хиляди правила. Тестване: 20 най-чести дескриптора в текста, генерирани автоматично - 42% пълнота, в сравнение с ръчната рубрикация


Автоматично индексиране въз основа на установяване на тегла на съответствие между думи и дескриптори (Steinberger et al., 2000) Етап 1 - установяване на съответствие между текстови думи и присвоени дескриптори въз основа на статистически мерки (хи-квадрат или логаритмична вероятност) Дескриптор за УПРАВЛЕНИЕ НА РИБНИЯТ - следните думи (в низходящ ред на тегло): риболов, риба, запаси, риболов, опазване, управление, кораб и др. Самото индексиране на етап 2 - сумиране на логаритмите на теглата или като скаларно произведение на вектори


Комбинация от безплатни заявки и заявки, базирани на тезаурус за извличане на информация Ръчно индексирана колекция – установяване на корелации Потребител задава заявка на естествен език Заявката се разширява от дескрипторите на тезауруса, които са най-силно свързани със заявката (Petras 2004 ; Петрас 2005). Например при заявка Неплатежоспособни компании може да се получи списък с дескриптори ликвидност, задлъжнялост, предприятие, фирма., и заявката може да бъде разширена.Точността в експеримента се повишава с 13%.



Разделът е много лесен за използване. Просто въведете желаната дума в предоставеното поле и ние ще ви дадем списък с нейните значения. Бих искал да отбележа, че нашият сайт предоставя данни от различни източници - енциклопедични, обяснителни, словообразувателни речници. Тук можете да видите и примери за употребата на въведената от вас дума.

Значението на думата тезаурус

тезаурус в речника на кръстословицата

Обяснителен речник на руския език. С.И.Ожегов, Н.Ю.Шведова.

тезаурус

[те], -а, м. (специален).

    Речник на език, който има за цел да отразява напълно целия му речник.

    Речник или набор от данни, който напълно покрива термини и концепции от някакъв вид. специално поле.

    прил. тезаурус, -ая, -ое.

Нов тълковен речник на руския език, Т. Ф. Ефремова.

тезаурус

    Речник някакъв език, представящ пълноценно речника му.

    Пълен систематизиран набор от данни за нещо. област на знанието, която позволява на човек или компютър да се ориентира в нея (в компютърните науки).

Енциклопедичен речник, 1998

тезаурус

ТЕЗАУРУС (от гръцки thesauros - съкровище)

    речник, в който думите на даден език са представени възможно най-пълно с примери за употребата им в текста (напълно осъществимо е само за мъртви езици).

    Речник, в който думите, свързани с която и да е област на знанието, са подредени според тематичен принцип и семантични връзки (родово-видови, синонимни и др.) между лексикални единици. В тезаурусите за извличане на информация лексикалните единици на текста се заменят с дескриптори.

Тезаурус

(от гръцки thesaurós ≈ съкровище, съкровищница), набор от семантични единици на език със система от семантични (вж. Семантика) отношения, посочени в него. Т. всъщност определя семантиката на даден език (национален език, език на конкретна наука или формализиран език за автоматизирана система за управление). Първоначално T. се разглежда като едноезичен речник, в който семантичните отношения се определят чрез групиране на думи в тематични заглавия. Например английски T. (автор P. M. Roget), публикуван през 1962 г. (1-во издание 1852 г.), съдържа 1040 заглавия, в които са разпределени около 240 000 думи. Индексът (ключът) към тази Т. съдържа азбучен списък от думи, указващ заглавията и подзаглавията, към които принадлежи всяка дума. Има традиционни общоезикови текстове (описания на семантичните системи на отделните езици) за английски, френски, испански езици. Едноезичните речници, които уточняват изразите на основните семантични параметри на всяка дума, са много близки до Т., например речникът на руски език от С. И. Ожегов.

През 70-те години 20-ти век Широко разпространени са технологиите за извличане на информация.В тези системи се идентифицират специални лексикални единици - дескриптори, които могат да се използват за автоматично търсене на документна информация. Всяка дума от такъв Т. е свързана със синонимен дескриптор (вж. Синонимия), а семантичните връзки са изрично посочени за дескрипторите: род ≈ вид, част ≈ цяло, цел ≈ средство и т.н. Обикновено е обичайно да се прави разлика между родоспецифични (йерархични) и асоциативни връзки. Така „Тезаурусът за извличане на информация в компютърните науки“, публикуван в СССР през 1973 г., предоставя всеки дескриптор речников запис, където отделно са посочени синонимни ключови думи, родови, специфични и асоциативни дескриптори. За по-добра ориентация в асоциативните връзки между дескрипторите към този T са приложени семантични карти на тематични класове. По време на автоматизирано извличане на информация се търсят документи, чийто индекс съдържа не само дескриптори на заявки, но и тези дескриптори, които са в определени семантични връзки с тях. Понякога е полезно да се подчертаят специфични асоциативни връзки в речника, които са специфични за дадена тематична област: заболяване ≈ патоген, устройство ≈ цел (или измерена стойност) и т.н. Позицията на лексикална единица (дума, фраза) в речника характеризира значението му в езика ; познаването на системата от семантични отношения, в които влиза дадена дума (включително категориите, в които е включена), ни позволява да преценим значението на тази дума.

IN в широк смисълТ. се тълкува като описание на системата от знания за реалността, притежавана от отделен носител на информация или група носители. Тази среда може да изпълнява функциите на приемник на допълнителна информация, в резултат на което се променя и нейната Т. Оригиналната Т определя възможностите на приемника при получаване на семантична информация. В психологията и в изучаването на системите с изкуствен интелектразгледайте свойствата на възприятията и разбирането на информацията от индивидите. В социологията и теорията на комуникацията те изучават свойствата на комуникацията на индивиди и групи, които осигуряват възможността за взаимно разбирателство въз основа на общността на комуникацията.В тези ситуации комуникацията трябва да включва сложни изявления и техните семантични връзки, които определят състава информация, достъпна за сложна система. Т. всъщност съдържа не само информация за реалността, но и метаинформация (информация за информация), което прави възможно получаването на нови съобщения.

Лит.: Черни А.И., Обща техникаизграждане на тезауруси, “Научно-техническа информация. сер. 2", 1968, §5; Варга Д., Методика за изготвяне на информационни тезауруси, прев. [от унгарски], М., 1970; Шрейдер Ю. А., Тезауруси в компютърните науки и теоретичната семантика, „Научна и техническа информация. сер. 2", 1971, ╧ Z.

Ю. А. Шрадер.

Уикипедия

Тезаурус

Тезаурус, в общ смисъл - специална терминология, по-стриктно и конкретно - речник, колекция от информация, корпус или код, обхващащи изцяло понятия, дефиниции и термини от специална област на знанието или сфера на дейност, които трябва да допринесат за правилно лексикално, Корпоративна комуникация; V съвременна лингвистика - специален сортречници, които показват семантични връзки (синоними, антоними, пароними, хипоними, хипероними и др.) между лексикалните единици. Тезаурусите са един от най-ефективните инструменти за описание на отделни предметни области.

За разлика от обяснителния речник, тезаурусът ви позволява да идентифицирате значението не само чрез определение, но и чрез съпоставяне на дума с други понятия и техните групи, поради което може да се използва за попълване на базите от знания на системите с изкуствен интелект.

В миналото терминът тезаурусречници бяха определени предимно, представящи лексиката на езика с максимална пълнота с примери за използването му в текстове.

Също термин тезаурусизползва се в теорията на информацията за обозначаване на съвкупността от цялата информация, притежавана от субекта.

В психологията тезаурусът на индивида се характеризира с възприемането и разбирането на информация. Теорията на комуникацията също разглежда общия тезаурус сложна система, благодарение на което неговите елементи си взаимодействат.

Тезаурус (многозначност)

Тезаурус:

  • Тезаурусът е речник, колекция от информация, обхващаща понятия, определения и термини от специална област на знанието или сфера на дейност.
  • Тезаурусът на Роджър е един от първите в историята и най-известните идеографски речници днес.

Примери за използване на думата тезаурус в литературата.

За възприемане и съвместно създаване определен оптимален тезаурус, не малко, но не и много голямо.

С неограничено количество входяща информация, значително надвишаващо тезаурус, стойността му не зависи от тази величина и е изцяло определена тезаурусом

Многостранността и системността на изкуството води до неравномерно възприемане на произведението като цяло: за възприемането на някои аспекти на стиха тезаурусоптимален, за други е недостатъчен или твърде голям.

защото тезаурусрасте и се променя, повторното запознаване с работата може да означава получаване на нова ценна информация.

Желанието на детето да препрочита любимата си приказка много пъти е разбираемо: той тезаурусрасте бързо и способността му за съвместно творчество и асоциативна фантазия е особено голяма.

Този аспект на въпроса е по-променлив и субективен от тезаурус, а в търсене на обективна естетическа оценка на едно произведение следва да се сведе до минимум.

Той прониква тезауруспоет и се обръща към превода тезаурусот чуждоезичен читател.

Най-важното е да определите колко голям е вашият тезаурус, T.

Не, просто собственият му багаж е оскъден, той е неразвит, негов тезаурусе в начален стадий и ако той не разбира това тезаурустрябва да се увеличи, тогава във всеки случай на тази жена ще й е трудно с него.

Богат тезаурус, основан на истинско знание, позволява на човек, в общуването с друг човек, включително и в най-близкото общуване с най-близкия човек, да реагира правилно на всичко, което се случва.

Очевидно е, че падането на стойността на информацията нараства с нарастване тезаурустрябва да зависи от връзката тезаурусспрямо количеството получена информация.

Очевидно оптималната стойност на художествената информация съответства на близостта тезаурусчитател и тезауруспоет.

Можем да кажем, че съвместното творчество, както и творчеството, изисква вдъхновение, тоест приобщаване тезаурусв широкия смисъл на думата.

Такова вътрешно повторение на ярка образност и ярък звук, оставайки в рамките на съществуващото тезаурус, го обогатява със същия естетически момент на повторение.

В този момент тезаурусНабоков и Пришвин трябва да се считат за антиподи на Платонов, а Марина Цветаева може да се смята за подобна на него.

Н. В. Лукашевич

[имейл защитен]

Б. В. Добров

Изследователски изчислителен център на Московския държавен университет. М. В. Ломоносов;

АНО Център за информационни изследвания

[имейл защитен]

Ключови думи:тезаурус, извличане на информация, автоматична обработка на текст,

По-голямата част от технологиите, работещи с големи колекции от текстове, се основават на статистически и вероятностни методи. Това се дължи на факта, че лексикалните ресурси, които могат да се използват за обработка на текстови колекции с помощта на лингвистични методи, трябва да имат обем от десетки хиляди речникови статии и да имат редица важни свойства, които трябва да бъдат специално наблюдавани при разработването на ресурса. В доклада разглеждаме основните принципи на разработване на лексикални ресурси за автоматична обработка на големи текстови колекции, използвайки примера на тезауруса на руски език за компютърна обработка на текст RuTez, създаден през 1997 г., който в момента е йерархична мрежа от повече от 42 хиляди понятия . Ние описваме текущото състояние на тезауруса въз основа на сравнение на неговия лексикален състав и текстовия корпус на Университетската информационна система РУСИЯ (www.cir.ru) - 400 хиляди документа. Обсъждат се примери за използване на тезаурус в различни приложения за автоматична текстообработка.

  1. Въведение

В момента милиони документи са станали достъпни в електронен вид, създадени са хиляди информационни системи и електронни библиотеки. В същото време информационните системи, които използват лексикални и терминологични ресурси за търсене, се изчисляват в части от процента. Това се дължи на сериозните предизвикателства пред създаването на подобни езикови ресурси за автоматизирана обработка на съвременни колекции от електронни документи.

Първо, тези колекции обикновено са много големи; ресурсът трябва да включва описания на хиляди думи и термини. На второ място, колекциите са набор от документи с различни структури с разнообразие от синтактични конструкции, което затруднява автоматичната обработка на текстови изречения. Освен това важната информация често се разпределя между различни изречения на текста.

Всичко това остро поставя въпроса какъв трябва да бъде езиковият ресурс, който, от една страна, би бил полезен за автоматична обработка и търсене в електронни колекции, от друга страна, би могъл да бъде създаден в обозримо време и да се поддържа с относително малко средства. усилие.

В тази статия ще разгледаме основните принципи на разработване на лексикални ресурси за автоматична обработка на големи текстови колекции. Тези принципи ще бъдат разгледани на примера на тезауруса на руски език, създаден от Центъра за информационни изследвания на ANO от 1997 г. за компютърна обработка на текст RuTez. В момента RuTez е йерархична мрежа от повече от 42 хиляди понятия, която включва повече от 95 хиляди руски думи, изрази и термини. Ще опишем текущото състояние на тезауруса въз основа на сравнение на неговия лексикален състав и речника на текстовия корпус на Университетската информационна система РУСИЯ, поддържана от Изследователския изчислителен център на Московския държавен университет. М. В. Ломоносов и ANO TSII. UIS RUSSIA (www.cir.ru) съдържа 400 хиляди документа на обществено-политически теми (около 3 GB текстове, 200 милиона думи). Статията ще обсъди и примери за използване на тезаурус в различни приложения за автоматична текстообработка.

  1. Принципи за разработване на езиков ресурс

за задачи за извличане на информация

За да се осигури ефективна автоматична обработка на електронни документи (автоматично индексиране, категоризиране, сравнение на документи), е необходимо да се изгради база за тяхното сравнение - списък на това, което е споменато в документа. За да бъде такъв индекс по-ефективен от индекса дума по дума, е необходимо да се преодолее лексикалното разнообразие на текста: синоними, многозначност, части на речта, стилистика и да се сведе до инвариант - понятие, което става основата за сравняване на различни текстове. По този начин понятията трябва да станат основата на езиков ресурс, а езиковите изрази: думи, термини - да станат само текстови входове, които инициализират съответната концепция.

За да могат да се сравняват различни, но сходни понятия, трябва да се установят връзки между тях. Традиционно лингвистичните ресурси за автоматична обработка на текстове на естествен език използват определени набори от семантични отношения, като напр. част, източник, причинаи така нататък. Въпреки това, когато работим с големи и разнородни текстови колекции, трябва да разберем, че с текущото състояние на текстообработващата технология компютърната система няма да може надеждно да открие тези връзки в текста, за да изпълни процедурите, които сме асоциирали с тези или други отношения. Следователно връзките между понятията трябва преди всичко да описват определени инвариантни свойства, които не зависят или слабо зависят от темата на конкретния текст, в който се споменава понятието.

Основната функция на тази връзка е да отговори на следния въпрос:

ако се знае, че текстът е посветен на обсъждане на C1, а C2 е свързано

поведениеРс C1, можем ли да кажем, че темата на текста(*)

свързани с C2?

Когато създаваме езиков ресурс за автоматична обработка, е важно да определим кои свойства на понятията C1 и C2 ни позволяват да установим правилни (*) връзки между тях.

Така например, независимо за какви текстове се пише брези,винаги можем да кажем, че тези текстове са за дървета.Но въпреки популярността и честото обсъждане на връзката дървокато част гори, много малко текстове за дървета са текстове за гори. Имайте предвид, че проблемът не е свързан с името на връзката. Така поляната е част от гората, а текстовете за сечища са текстове за гори.

Инвариантността на отношенията по отношение на спектъра от възможни теми на текстове в дадена тематична област до голяма степен се определя от по-дълбоки свойства от тези, отразени от имената на отношенията, а именно неговия квантор и екзистенциални свойства. Така че свойствата на квантора на отношенията описват дали всички примери на концепцията имат това отношение, дали тази връзка продължава през целия жизнен цикъл на примера. Проблем с използването на релация дървогораТова се дължи именно на факта, че не всяко конкретно дърво се намира в гората, но сечището не може да бъде извън гората.

Пример за описание на екзистенциалните свойства на отношенията - следва ли от съществуването на понятието C1 съществуването на понятието C2 (например съществуването на понятието ГАРАЖизисква наличието на понятие АВТОМОБИЛ) или съществуването на примери C1 зависи от съществуването на примери C2 (толкова специфични НАВОДНЕНИЕнеотделима от конкретен пример РЕКИ). Обсъждането в текста на зависимото понятие C2, особено в зависимост от примера, предполага, че текстът е свързан и с основното понятие C1.

Нека разгледаме връзката между понятията ГОРА и ДЪРВОв детайли. Всъщност част от концепцията ГОРАе ДЪРВО В ГОРАТА, докато ги има СВОБОДНО СТОЯЩО ДЪРВО,ДЪРВО В ГРАДИНАТАи т.н. Във всеки случай е необходимо да се прекъсне връзката на подчинение на понятието ДЪРВОконцепция ГОРА.

От друга страна, ГОРАе вид КОЛЕКЦИИ ОТ ДЪРВЕТА, не съществува без дървета (както и ГРАДИНА). По този начин концепцията ГОРАтрябва да е във връзка с концепцията ДЪРВО. Започвайки с анализ на конкретни нужди приложни проблемиСтигнахме до заключението, че е важно да опишем дълбоките свойства на отношенията, които преди това бяха много малко отразени в езиковите ресурси, но които са от първостепенно значение за задачата за автоматична обработка на големи текстови колекции, а може би и за много други задачи .

Сега моделираме описанието на квантора и екзистенциалните свойства на понятията с набор от традиционни тезаурусни отношения ГОРЕ-ДОЛУ (66% от всички отношения), ЧАСТ-ЦЯЛО (30% от отношенията), АСОЦИАЦИЯ (4%), в комбинация с определен набор от допълнителни модификатори (20% от отношенията са маркирани). Имайте предвид, че връзките ЧАСТ-ЦЯЛО и АСОЦИАЦИЯ се интерпретират, като се вземе предвид правилото (*). Общо са описани около 160 хиляди преки връзки между понятията, което, като се вземе предвид преходността на отношенията, дава общ брой различни връзки от повече от 1350 хиляди връзки, т.е. средно всяко понятие е свързано с 30 други .

  1. Тезаурус на RuTez: обща структура

Тезаурусът RuTez е йерархична мрежа от понятия, съответстващи на значенията на отделни думи, текстови изрази или синонимни серии. По този начин основните елементи на тезауруса са понятия, езикови изрази, връзки между езикови изрази и понятия и връзки между понятия.

Тезаурусът обединява в единна система както лингвистични знания - описания на лексеми, идиоми и техните връзки, традиционно свързани с лексикални, семантични знания, така и знания за термини и отношения в предметни области, традиционно свързани със сферата на дейност на терминолозите, описани в тезауруси за извличане на информация. Тезаурусът описва предметни области като икономика, законодателство, финанси, международни отношения, които са толкова важни за Ежедневиетолице, че имат значително лексикално представителство в традиционните тълковни речници. В тях лексикалното и терминологичното са тясно взаимосвързани и силно взаимодействат помежду си.

Езиковите изрази са отделни лексеми (съществителни, прилагателни и глаголи), номинални и глаголни групи. По този начин тезаурусът в момента не включва наречия и функционални думи като езикови изрази. Многословните групи могат да включват термини, идиоми, лексикални функции ( влияниед).

За всеки езиков израз е описано следното:

Неговата полисемия е връзка с едно или повече понятия, което означава, че даден езиков израз може да служи като текстов израз на това понятие. Приписването на езиков израз на различни понятия също е имплицитна индикация за неговата многозначност;

Морфологичният му състав (част на речта, число, падеж);

Характеристики на писане (например с главна буква) и др.

Всяко понятие от тезауруса има уникално име, списък с езикови изрази, с които това понятие може да бъде изразено в текста, и списък от връзки с други понятия.

Едно от неговите недвусмислени текстови изрази обикновено се избира като уникално име за концепция. Но името на едно понятие може да бъде образувано и от двойка негови двусмислени текстови изрази - синоними, написани разделени със запетаи и недвусмислено го определящи (например понятието ДЕБЕЛ). Двусмислен текстов израз на името на концепция може също да бъде снабден с маркировка или съкратен фрагмент от тълкуване, например концепция ТЪЛПА (ГРУПА ХОРА).

  1. Примерен речников запис

Избрахме като пример речниковия запис за понятието ГОРА, отговарящ на едно от значенията на думата гора. Тази речникова статия е интересна, защото включва различни видове знания, традиционно класифицирани като лексикални (семантични) знания и енциклопедични знания (познания за предметната област, терминология).

Синоними на понятието ГОРА(общо 13):

гора(М), горска зона, горска среда,

гора, горски квартал, горски пейзаж,

горска местност, гориста местност, гориста местност,

горска площ, малка гора,

масив от гори.

По-долу понятия със синоними:

ДЖУНГЛА(джунгла);

ГОРСКИ ПАРК(градска градина, зелена площ,

зелена площ, горски парк,

лесоустройство, лесопарк

колан, парк(М), паркова зона);

ГОРСКО СТОПАНСТВО;

ЛИСТНА ГОРА(меколистна гора, твърдолистна

гора);

ГОРИЧКА(дъбова горичка);

ИГЛОЛИСТНА ГОРА (иглолистна гора, тъмна иглолистна гора)

Понятия-части със синоними:

WINDBREAK(неочакван прилив, неочакван прилив);

РЯЗАНЕ(площ на рязане);

ГОРСКА КУЛТУРА(горски видове, лесовъдство

култура);

ГОРСКИ ЗЕМИ (горски земи; земи покрити

гора; горски земи, горска територия;

залесена земя, залесена

■ площ);

ГОРСКИ НАСАДЕНИЯ(горски насаждения, горски насаждения,

залесяване);

КРАЙ НА ГОРАТА(ръб, ръб);

ПОДЛЕЗЕН (подраст);

ПРОСЕКА;

СУХИ ДЪРВА(мъртва дървесина).

Тук символите (M) отразяват забележка относно неяснотата на въведения текст.

Концепция ГОРАТой има и други връзки, така наречените отношения на зависимост (в съвременната версия те се наричат ​​ASC 2 - асиметрична асоциация): ГОРСКИ ПОЖАРИ(горски пожар, пожар в гората; ПОЛЗВАНЕ НА ГОРАТА (ползване на горите, ползване на територии от горския фонд); ГОРСКО СТОПАНСТВО; ЛЕСОНАУКА (наука за горите). Както вече беше отбелязано в параграф 2, концепцията за ГОРА зависи от концепцията за ДЪРВО, което в тезауруса се обозначава с връзката ASC 1.

Пълна концепция ГОРАе свързан директно с 28 други понятия, като се вземе предвид преходността на отношенията - с 235 понятия (общо повече от 650 текстови входа).

  1. Оценка на текущото състояние

Тезаурус на руски език rutez

5.1. Лексикален състав

В момента тезаурусната мрежа включва повече от 95 хиляди езикови израза, от които 61 хиляди са еднословни.

Този обем работа ни принуди да решим какви думи и езикови изрази трябва да бъдат включени в описанията на тезауруса. Естественото желание беше да се види как са представени най-често срещаните думи в руския език в тезауруса. За целта е използвана текстовата колекция на Университетската информационна система РУСИЯ (400 хиляди документа). Колекцията съдържа официални документи от различни органи Руска федерация(55 хиляди документа от 1992 г.), както и материали от пресата от 1999 г. (вестници Известия, Независимая газета, Комсомолская правда, Аргументи и факти, сп. Експерт и др.), материали научни списания(„Бюлетин на Московския университет“, „Социологически журнал“). Направено е сравнение между списъка с леми, включени в тезауруса, и списъка с най-често срещаните 100 000 леми в колекцията от текстове (честота над 25).

Полилексемното маркиране на списъка показа, че сред тези сто хиляди леми 35 хиляди са описани в RuTez, само около 7 хиляди лексеми заслужават включване в тезауруса, останалите са лемматични варианти на различни собствени имена. Следователно попълването е престанало да бъде приоритетна задача и се извършва постепенно, като се започне с най-честите думи. Предполага се, че веднага щом този списък бъде почти изчерпан, ще бъде направено ново сравнение с текстовия масив на информационната система, ще бъдат избрани нови лексеми с честота над 25. След това се предполага, че прагът на видимост ще бъде намален. . Наличието в текстовата колекция на голямо количество текстови примериви позволява бързо да реагирате на „лексикални иновации“ (напр. инсталация,блокбъстър, бомонд, трилър) и ги включете на подходящите места в йерархичната система на тезауруса.

Постоянната работа с текуща текстова колекция предоставя уникални възможности за проверка на значимостта и качеството на лексикалните описания, предложени в речниците. Например необичайно висока честота на използване на думата Майка Виж(повече от 400 пъти). Проверката на масива показа, че думата наистина често се използва като синоним на думата Москва, докато тълковните речници често отбелязват тази дума като остаряла. Друг пример за често използвана дума (повече от 300 пъти), отбелязана като остаряла в речниците, е думата блажен.

5.2 Описание на значенията на думите

Сравнението с текстовата колекция показва, че много от често срещаните думи в масива са добре представени в тезауруса в поне едно от техните (обикновено основни) значения. Да разберем до каква степен спектърът от значения на многозначните думи в руския език е представен в тезауруса е нашата основна задача в момента.

Както е известно, често различните речникови източници дават различен набор от значения за многозначните думи, подчертават нюансите на значението и един и същи тип многозначност може да бъде описан по различен начин за различни думидори в същия речник. Следователно задачата за последователно и представително описание на значенията на лексемите е важна задача за създателите на всеки речников ресурс.

Ако обаче ресурсът е предназначен за автоматична обработка, тогава задачата за балансирано описание на стойностите става много по-важна. Прекомерното увеличаване на стойността може да доведе до невъзможност на компютърната система да избере желаната стойност, което от своя страна води до значително намаляване на производителността на системата за автоматична текстообработка. И така, един от недостатъците на ресурса WordNet като ресурс за автоматична текстообработка е прекомерният брой значения, описани за някои думи (в WordNet 1.6: 53 значения за бягам, 47 фор играяи така нататък.). Тези значения са трудни за разграничаване дори за хората, когато семантично анотират текстове. Ясно е, че компютърната система също не може да се справи с избора на подходящата стойност. Ето защо различни авториоферта различни начиникомбиниране на стойности за подобряване на качеството на обработка.

В същото време действа и обратният фактор: ако значенията наистина се различават в техния набор от речникови връзки (в нашия случай тезаурусни връзки) - те не могат да бъдат слепени в една единица (едно понятие) - това също ще доведе до влошаване на качеството на автоматичната обработка.

Да вземем пример с думите училищеИ църква, всяка от които може да се разглежда като организация и като сграда.

всеки училищна организацияима сграда (най-често такава). Всички части на училищната сграда (класни стаи, дъски) са свързани с училищекак да една организация. Няма специфични видове училищни сгради. Следователно описанието училищаКато сгради е неуместно да се отделят в отделна концепция. Въпреки това, описанието на такова колективно понятие УЧИЛИЩЕкато организация и като сграда трябва да има специално проектирана връзка с концепцията СГРАДА. Когато се описват такива връзки в тезауруса, се използва знак за връзката - модификаторът „А“ („аспект“; по време на автоматичен анализ е необходимо „потвърждение“ от други понятия, за да се вземе предвид тази връзка).

УЧИЛИЩЕ

ПО-ВИСОК ОБРАЗОВАТЕЛНА ИНСТИТУЦИЯ

НАД А ОБЩЕСТВЕНА СГРАДА

Съответни значения на думата църкване толкова близо. ЦърквиКато организация може да има голям брой църковни сгради на различни места, а също така има много други сгради. Строителство на църквае тясно свързано с религията и изповеданието, но може да променя принадлежността си църковни организации. Църква-организацияИ църковно-строителенимат различни подвидове. Ето защо ЦЪРКВА (ОРГАНИЗАЦИЯ) И ЦЪРКВА (СГРАДА)са представени в RuTez като различни концепции.

Значителното разминаване в тезаурусните връзки корелира по интересен начин със способността на денотатите, съответстващи на значенията, да съществуват отделно едно от друго. По този начин една църковна сграда не престава да съществува и дори да се нарича църква, дори когато предназначението й се промени, за разлика от училищната сграда.

Процесът на проверка на представянето на стойностите в тезауруса е в ход непрекъснато, като се започне с най-честите леми. За всяка честотна лексема се проверява как нейните значения са описани в тълковните речници, какви значения са използвани в сборника и как са представени в Тезауруса. В резултат на това вече е оформен списък от 10 000 лексеми, чиято неяснота все още изисква или допълнителен анализ, или допълнително описание. Списъкът е получен въз основа на 30 хиляди от най-често срещаните леми.

Трябва да се отбележи, че в тезауруса проблемът с полисемията е частично премахнат поради факта, че тезаурусните връзки могат да бъдат описани между различни значения на една дума и следователно най-високото понятие в йерархията може да бъде избрано по подразбиране. Определено беше обсъдено в текста. Например думата снимкаима три значения: фотография като сфера на дейност, фотография като фотографско изображение, фотография като фото студио:

ФОТОГРАФИЯ(фотографиране, фото бизнес, ..., снимка )

ЧАСТ ФОТОГРАФСКО ИЗОБРАЖЕНИЕ

(снимка, снимка, снимка )

ЧАСТ ФОТО СТУДИО (снимка ).

По този начин, ако не беше възможно да се разбере какво значение е използвана думата снимка, по подразбиране се приема, че е направена снимка (на процес, резултат или местоположение), което е достатъчно за много приложения за автоматична обработка на текст.

  1. Приложение на тезауруса RuTez

за автоматична обработка на текст

От 1995 г. социално-политическата терминология RuTez (социално-политически тезаурус) се използва активно и успешно за различни приложения на автоматична обработка на текст, като автоматично концептуално индексиране, автоматично рубрикиране с помощта на няколко рубрикатора, автоматично анотиране на текстове, включително на английски език нечий. Социално-политически тезаурус (27 хиляди понятия, 62 хиляди текстови записа) е основен инструмент за търсене в системата за търсене на UIS RUSSIA (www.cir.ru).

Целият речник на тезауруса на RuTez се използва в процедури за автоматично категоризиране на текстове с помощта на сложни йерархични рубрикатори. В съществуващата технология всяка категория се описва като булев израз на термини, след което оригиналната формула се разширява по протежение на йерархията на тезауруса. Полученият булев израз може вече да включва стотици и хиляди конюнкти и дизюнкти.

Нека дадем като пример фрагмент от описание, използващо тезаурусни понятия (и езикови изрази след разширяване на формулата) на рубриката „Образ на жена“ на рубрикатора SOFIST 2, използван от VTsIOM за класифициране на въпросници за проучване на общественото мнение:

(ЖЕНА[N]

|| МОМИЧЕ[N]

|| РОДНИНА [L] (баба, внучка, братовчедка,

дъщеря, снаха, майка, мащеха, снаха, доведена дъщеря, ...))

(ЧЕРТА НА ХАРАКТЕРА[L] (пестелив, безсърдечен, забравящ,

несериозен, подигравателен, нетолерантен, общителен, ...)

|| ИЗОБРАЖЕНИЕ[E] (представяне, външен вид, външен вид,

външен вид, външен вид, изображение, вид)

|| ПРИЯТНО [L] (..., интересно, красиво, сладко,

привлекателен, сладък, привлекателен, ...)

|| НЕПРИЯТЕН[L] (несимпатичен, груб, гаден, ...)

|| ОЦЕНЯВАМ [L] (да почитам, обожавам, обожавам,

обожавам, обожавам, ...)

|| ПРЕДПОЧИТА[N]

Символът “E” означава пълно разширяване по йерархията на тезауруса, символът “L” - според родовите отношения (“ДОЛУ”), символът “N” - не се разширява.

Провеждат се изследвания за разработване на комбинирана технология за автоматично категоризиране на текстове, съчетаваща знания за тезауруса и процедури за машинно обучение.

Проучват се проблемите с използването на тезаурус за разширяване на заявка, формулирана на естествен език (в момента само социално-политическата част на тезауруса се използва за разширяване на терминологична заявка в системата за извличане на информация на UIS РУСИЯ) и търсенето на отговори на въпроси в големи колекции от текстове.

7. Заключение

Статията представя основните принципи на разработване на езикови ресурси за автоматична обработка на големи текстови колекции. Създаденият лингвистичен ресурс - Тезаурус на руския език RuTez - е предназначен за използване в такива приложения за автоматична обработка на текст като концептуално индексиране на документи, автоматично рубрикиране според сложни йерархични рубрикатори, автоматично разширяване на заявки на естествен език.

Тази работа е частично подкрепена от грант на Руската хуманитарна фондация № 00-04-00272a.

Литература

  1. Лукашевич Н.В., Салий А.Д., Представяне на знания в системата за автоматична обработка на текст //НТИ, Сер.2. 1997. № 3. С. 1-6.
  2. Журавлев С.В., Юдина Т.Н., Информационна система РУСИЯ //НТИ, Сер.2. 1995. № 3. С. 18-20.
  3. Уинстън М., Чафин Р., Херман Д., Таксономия на отношенията част-цяло // Когнитивната наука. 1987. бр. 11. С. 417-444.
  4. Priss U.E., Формализацията на WordNet чрез методи за релационен концептуален анализ // WordNet. Електронна лексикална база данни/Изд. от C. Fellbaum. Кеймбридж, Масачузетс, Лондон, Англия.: The MIT Press 1998. P. 179-196.
  5. Guarino N., Welty C., Формална онтология на свойствата // Доклади на семинара ECAI-00 за приложения на онтологии и методи за решаване на проблеми. Берлин: 2000. С. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Някои онтологични принципи за проектиране на лексикални ресурси от по-високо ниво // First Int. конф. на Езикови ресурси и оценка. 1998.

  1. Лукашевич Н.В., Добров Б.В., Модификатори на концептуални отношения в тезауруса за автоматично индексиране // НТИ, Сер.2. 2000, № 4, стр. 21-28.
  2. Голям обяснителен речник на руския език / Изд. S.A. Кузнецова. СПб.: Норинт, 1998.
  3. Ожегов С.И., Шведова Н.Ю., РечникРуски език - 3-то издание. М.: Аз, 1996.
  4. Апресян Ю.Д., Избрани произведения, том I. Лексикална семантика: 2-ро изд. М .: Школа „Езици на руската култура“, Изд. Фирма "Източна литература" РАН, 1995 г.
  5. Г. Милър, Р. Бекуит, К. Фелбаум, Д. Грос и К. Милър, Пет статии за WordNet, Доклад на CSL 43. Лаборатория за когнитивни науки, Принстънски университет, 1990 г.
  6. Chugur, J. Gonzalo и F. Verdjeo, Sense distinctions in NLP applications // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. София: OntoTextLab. 2000 г.
  7. Лукачевич Н., Добров Б., Базирано на тезаурус структурно тематично резюме в многоезични информационни системи // Преглед на машинния превод. 2000. бр. 11. С. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Тезаурус на руски език за обработка на естествен език

на големи текстови колекции

Наталия В. Лукачевич, Борис В. Добров

Ключови думи:тезаурус, обработка на естествен език, извличане на информация

В нашата презентация разглеждаме основните принципи на разработване на лексикални ресурси за автоматична обработка на големи текстови колекции и описваме структурата на тезауруса на руския език, който се разработва от 1997 г. специално като инструмент за автоматична обработка на текст. Сега тезаурусът е йерархична мрежа от 42 хиляди понятия. Ние описваме настоящия етап от развитието на тезауруса в сравнение със 100 000 най-често срещани леми от текстовата колекция на Университетската информационна система РУСИЯ (www.cir.ru), включително 400 хиляди документа. Също така разглеждаме използването на тезауруса в различни приложения за автоматична обработка на текст.

Една от новите основни концепции, възникнали в резултат на развитието на машинни методи за обработка на информация, по-специално при превод от един език на друг, търсене на научна и техническа информация и създаване на информационен моделпредприятия в автоматизирани системи за управление се появи концепцията за тезаурус на информационната система. Терминът „тезаурус“ предполага набор от знания за външния свят - това е така нареченият тезаурус на света Т. Всички понятия външен свят, изразени с помощта на естествен език, представляват тезаурус, от който частните тезауруси могат да бъдат разграничени чрез йерархично разделение, като се вземе предвид подчинеността на отделните понятия или чрез изолиране на части от общия тезаурус на света. Тезаурусът в системите за търсене на информация играе важна роля при търсенето необходимия документпо ключови думи. Следователно изграждането на тезаурус е сложна и отговорна задача. Но тази задача може да бъде и автоматизирана.

Класификацията в нейната най-обща дефиниция е разделяне и подреждане на множества. Нарича се разпределение на обекти в класове въз основа на обща черта, присъщи на тези явления или обекти и разграничаващи ги от обектите и явленията, съставляващи други класове. Ако е необходимо, всеки клас може да бъде разделен на подкласове. Рубрикаторът е специален вид класификация. Следователно те се основават на общи разпоредби:
 научна основа за изграждане на класификацията;
- отражение съвременно ниворазвитие на науката;
 наличието на система от връзки и препратки, както и справочен и справочен апарат (CCA).

Рубрикаторът обаче е прагматична класификация, създадена на базата на информационните потоци и нуждите на специалистите. Това е неговата разлика от априорни класификации, като UDC и IPC.

Основните функции на класификациите и по-специално на рубрикатора са следните:
 тематично обособяване на информационните подсистеми;
 формиране на информационни масиви по всякакви критерии;
 систематизиране на информационни материали и публикации;
 текущо и ретроспективно търсене;
 индексиране на документи и заявки;
 връзка с други класификационни схеми;
- нормативни функции.

Те се изграждат чрез разделяне на понятия - обекти на класификация въз основа на установени връзкимежду характеристиките на тези обекти в съответствие с определени логически принципи. Характеристиката, по която се извършва класификацията, се нарича основа за разделяне на класификацията. Класификациите широко използват методи на дедукция и индукция, за да фиксират групи, класове и да идентифицират връзките между тях. Това е характерно за йерархичните класификации. Дълбочината на класификация (броят йерархични нива) може да варира в зависимост от целта. Един от широко използваните рубрикатори е Държавният рубрикатор за научна и техническа информация (GRNTI).

Рубрикаторът GRNTI е проектиран по такъв начин, че е възможно да се споделянес други класификации като UDC и IPC. Универсалната десетична класификация (UDC) съществува повече от 70 години, но все още няма равна на себе си по широта на разпространение и се използва в много страни по света. УДК обхваща цялата вселена от знания и се използва успешно за систематизиране и последващо търсене на голямо разнообразие от източници на информация.

Освен УДК в практиката широко приложение намира и библиотечно-библиографската класификация (ББК). BBK е изградена на принципите на логическото подчинение и представлява класификация от приложен тип.
В Руската федерация за класифициране на изобретенията и систематизиране на местни колекции от описания на изобретения се използва международната патентна класификация - доста сложна многоаспектна класификация, изградена на функционално-индустриален принцип. Същите технически концепции могат да бъдат намерени в IPC или специални класове (по индустрия) или във функционални класове (по принцип на работа). Секторният принцип на разпределение на понятията включва класификация на обекти в зависимост от тяхното приложение в определен исторически установен отрасъл на техниката и технологиите.

Сравнителни характеристики на рубрикаторите на SRNTI, UDC, BBK и IPC са дадени в таблица 1.

маса 1
Характеристика на рубрикатора на СРНТИ, УДК, ББК и ИПК

Име

Структура

Принципът на поставяне на раздели

Схема за изграждане на преграда

Йерархичен

Индустрия

От общо към конкретно

Йерархичен

Тематичен

Йерархичен

Функционално-отраслови

От общо към конкретно

BBK за научни библиотеки

Йерархичен

Индустрия

От общо към конкретно, по видове


По този начин можем да подчертаем основните отличителни черти на рубрикаторите и класификаторите:
- характеризират се с приложен характер и индустриална насоченост;
- това е отворени системи, в зависимост от развитието на науката и технологиите, потребностите и заявките на специалистите;
- неорганични системи, тъй като обектите възникват и се развиват в заобикаляща средаи от него идват в тях. Елементите са способни да съществуват независимо извън системата. Тази черта е тясно свързана с втората черта;
- минималният елемент е понятието, свързано с околната среда. Понятието представлява система от определения;
 възникват връзки между понятията както „вертикално” (род-вид, цяло-част), така и „хоризонтално” (вид-вид, част-част), което показва йерархията на системите.

Следователно структурата и принципите на организация на класификациите и рубрикаторите позволяват автоматизирането на процеса на конструиране на тезаурусите на предметната област, като се използва методът на дедукцията. Алгоритъмът за конструиране на тезаурус с помощта на метода на дедукцията е показан на фиг. 1.

Основата за формиране на тезаурус е търсено изображение на документ, задача или приложение за търсене на информация, попълнено от оператора. Следователно, първата стъпка е да проучите и анализирате приложението. На първия етап операторът посочва темата или проблема от интерес, възможни ключови думи и техните синоними. В резултат на това получаваме повърхностно разбиране на предметната област.

Ориз. 1. Алгоритъм за конструиране на тезаурус по метода на дедукцията

Освен това се формира тезаурус ключови думи CS, използвайки метода на приспадане, за което ви трябва:
 KS масив, който се задава от самия потребител, обозначен на фигура 1 като MP;
 KS масив, извлечен от задачата за търсене, съответно MZ.

Въпреки това, за по-пълно и задълбочено разбиране на предметната област, ние използваме съществуващите рубрикатори и класификационни схеми (GRNTI, UDC, BBK, IPC). За да се постигне максимално покритие на тематичната област, е необходимо да се прегледат всички налични. Масивът от рубрикатори представлява MR. Алгоритъмът за търсене на приспадане се състои от две стъпки:
1. Намиране на родови понятия (фиг. 2);
2. Намиране на специфични термини в родовите понятия (фиг. 3).


Ориз. 2. Обработка на родовото понятие

Зареждаме първия рубрикатор от масива и организираме цикъл на проверка на наличието на CS, въведени от потребителя в рубрикаторите. Всеки KS се търси в рубрикатора и се сравнява с родово понятие или „гнездо“, след което условието се проверява, за да се види дали има връзка към конкретни термини. Ако такава връзка е налична, тогава KS се сравнява с конкретните условия. Ако не бъде намерена връзка, преминете към следващата обща концепция. Когато се видят въведените от оператора ключови думи на CS, преминаваме към масива от CS, извлечен от задачата. Процедурата за проверка е подобна - търсим KS, съответстващи на общи понятия, а след това техните връзки към конкретни термини.


Ориз. 3. Обработка на конкретни термини

Имайте предвид, че в рамките на всяка обща концепция е важно да прегледате всички налични специфични термини, за да получите максимално разбиране на проблемната област. Резултатът от тези действия е формирането на масив от KS ключови думи, който е пълен тезаурус, съответстващ на задачата за търсене на информация или изображението за търсене на документ.

Въз основа на пълен набор от изображения за търсене на документи (нека ги обозначим) е възможно да се създадат индустриални тезауруси и унифициран библиотечен класификатор. Очевидно самият пълен набор от  представлява прост тезаурус.

Въпреки това, използвайки критерия за избор
, (1)
можем да изградим тезауруси в индустрията. В този случай наборът от всички индустриални тезауруси образува пълен тезаурус
, (2)
разделите на които могат да бъдат йерархично структурирани в съответствие с изискванията на GOST според основните класификатори (GRNTI, UDC, BBK, MPK) или според вътрешен унифициран класификатор.

Автоматизирането на процеса на конструиране на тезаурус и класификация дава възможност да се улесни максимално работата на оператор, работещ с разпределени данни. информационни ресурси.

В допълнение към конструирането на тезаурус, базиран на изображение за търсене на документ, предложеният подход може да се използва за автоматично абстрахиране на документи и групиране на текст.

Резюмето на документи е една от задачите, насочени към предоставяне на експертни специалисти с надеждна информация, необходима за вземане на управленски решения относно стойността на документите, получени от Интернет. Реферирането е процес на трансформиране на документна информация, завършващ с изготвянето на резюме, а резюмето е семантично адекватно представяне на основното съдържание на първичния документ, характеризиращо се с икономичен символен дизайн, постоянство на езикови и структурни характеристики и предназначено да изпълнява разнообразие от информационни и комуникационни функции в системата на научната комуникация. Алгоритъмът за абстрахиране на документа е представен на фиг. 4.


Ориз. 4. Алгоритъм за абстракция на документ

Като цяло алгоритъмът включва следните основни етапи.
1. Изреченията се извличат от документ, изтеглен от интернет и намиращ се в хранилището на данни, чрез маркиране на препинателни знаци и се съхраняват в масив.
2. Всяко изречение се разделя на думи чрез избиране на разделители и ние ги записваме в масив, като масивът е различен за всяко изречение.
3. За всяко изречение, за всяка дума от това изречение, броим броя на думите в други изречения (преди и след). Сумата от повторенията за всяка дума (преди и след) ще бъде теглото на това изречение.
4. За резюмето се подбират зададен брой изречения с максимален коефициент на тежест по реда на поява в текста.

Предложеният модел за изграждане на тезаурус и тематични каталози на информационна система е теоретична основаза автоматизиране на семантичното търсене и позволява на експерт не само да извършва работа по търсене, но и в автоматизиран режим, абстрактни документи, получени в резултат на търсене в разпределени информационни системиИнтернет мрежи.

Литература:
1. Барушкова Р.И. Класификационни схеми на научна и техническа информация. Учебник надбавка. - М., 1981. - 80 с.
2. Барушкова Р.И. Рубрикатор като класификационна схема на научна и техническа информация. Инструментариум. - М., 1980. - 38 с.
3. Трусов A.V., Babarykin E.P. Оценка на границите на домейна на тематична информационна заявка в разпределени информационни системи. Материали на Всеруския (с международно участие) конференция "Информация, иновации, инвестиции", 24-25 ноември 2004 г., Перм / Перм CSTI. - Перм, 2004. - С.76-79.
4. Яцко В.А. Логико-лингвистични проблеми на анализа и резюмирането на научен текст. - Абакан: Хакаско държавно издателство. университет, 1996. - 128 с.