tezaurusy. Tezaurus: co to jest

Departament TAOY KemGUKI

Słowniki wyrazów bliskoznacznych do wyszukiwania informacji:

struktura, cel i procedura rozwoju

1. Tezaurus jako sposób usystematyzowanej reprezentacji wiedzy i

rodzaj słownika ideograficznego.

2. Tezaurusy wyszukiwania informacji: istota i cel

3. Struktura IPT

4. Procedura rozwoju, badania, rejestracji i utrzymania IPT.

Bibliografia

1. GOST 7.74 - 96. Języki wyszukiwania informacji. Terminy i definicje [Tekst]. - Wejście. 1997-07-01. - Mińsk: Międzypaństwowa Rada ds. Normalizacji, Metrologii i, 1997. - 34 s. (System standardów informacji, bibliotekarstwa i wydawnictwa) TC 191.

2. GOST 7.25-2001. Wyszukiwanie informacji tezaurusa jednojęzyczne. Zasady rozwoju, struktura i forma prezentacji [Tekst]. – GOST 7,25-80; Wstęp 2002-07-01. - M.: IPK Wydawnictwo Norm, 2001. - 16 s. MTK 191.

3. GOST 7.24-2007 Wielojęzyczny tezaurus wyszukiwania informacji. Skład, struktura i podstawowe wymagania dotyczące konstrukcji. - Zamiast GOST 7.24-90; wejście. 2008-07-01. / Międzypaństwowa Rada ds. Normalizacji, Metrologii i Certyfikacji. - M.: Standartinform, 2008. - 7 s. (System norm dotyczących informacji, bibliotekarstwa i wydawnictwa)

4. Baranow, O. S. Słownik ideograficzny języka rosyjskiego / O. S. Baranow. - M.: Wydawnictwo ETS, 1995. - 820 s

5. Zhmailo, S. V. O definicji tezaurusa [Tekst] / S. V. // NTI. Ser. 1 Praca organizacyjna i informacyjna. - 2003. - nr 12. – str. 20 – 25.

6. Zhmailo, SV Rozwój nowoczesnych tezaurusów wyszukiwania informacji [Tekst] / SV Zhmailo // NTI. Ser. 1 Organizacja i metodyka pracy informacyjnej. -2004. - Nr 1. – str. 23 – 31.

Tak więc w ideograficznym słowniku języka rosyjskiego O. S. Baranowa (4) wyróżnia się 12 wyższych sekcji słownika ideograficznego, w tym: „porządek, natura, aktywność, kultura” itp., z których każda jest podzielona na grupy, podgrupy, działy, sekcje. Wszystkie słowa w tym słowniku są pogrupowane w gniazda zgodnie z ich znaczeniem i są pogrupowane według pewnego pojęcia, z którym są najczęściej kojarzone przez relacje gatunkowe. Gniazda są pogrupowane w podsekcje i tak dalej. NA ten moment w słowniku jest 5923 gniazd, 7 poziomów podziału (wg www.rifmovnik.ru/thesaurus.htm na dzień 16.02.2010). Oto przykład wpisu słownika z tego słownika:

178.4.7 aromat ▲ - przyjemny zapach (na przykład zapach kwiatów, trawy, siana. delikatny #. odurzający #). aromatyzacja . . . bursztyn. kadzidło.

Kod słowa „aromat” odzwierciedla przyjętą w tym słowie klasyfikację ideograficzną, w szczególności korelację tego słowa z kategorią „178-Sensacje”.

Zatem terminy „tezaurus”, „słownik ideograficzny”, „słownik typu tezaurus” oznaczają przede wszystkim, że całość słów języka jest w nich przedstawiona w taki sposób, że jedna grupa słów obejmuje słowa o podobnym znaczeniu . Głównym celem słowników ideograficznych jest zbiór jednostek leksykalnych połączonych wspólnym pojęciem; ułatwia to czytelnikowi znalezienie najodpowiedniejszych środków do odpowiedniego wyrażenia myśli i sprzyja aktywnej znajomości języka.

Z historii tezaurusów

KURTKI 2302

w garniturach

Produkty płaszczowe

Produkty do szycia

n Dwurzędowa marynarka

Kurtka łączona

Sportowa kurtka

w środkach pakowania

Pozostały materiał

Marnować materiały

Uwaga leksykalna;

Askryptory lub deskryptory-synonimy;

Nadrzędne deskryptory;

Deskryptory niższego rzędu;

deskryptory asocjacyjne;

Deskryptory połączone innymi rodzajami relacji.

W obrębie każdej grupy jednostek logicznych powiązanych z głównym deskryptorem przez jeden rodzaj paradygmatycznej relacji, musi istnieć alfabetyczny porządek ułożenia. Na przykład:

JĘZYKI ALGORYTMICZNE

z językami algorytmicznymi

języki zorientowane maszynowo

języki specyficzne dla domeny

w OPROGRAMOWANIU

JĘZYKI FORMALNE

n AUTOKODY

ALGORYTMY

PROGRAMOWANIE por. języki sztuczne

Pozycja askryptora składa się z deskryptora i deskryptorów lub kombinacji deskryptorów, które go zastępują podczas przetwarzania i wyszukiwania informacji. Oto przykłady artykułów przypisujących:

Znaki alfanumeryczne

hiszpański JĘZYKI FORMALNE

JĘZYKI NATURALNE

patrz JĘZYKI ALGORYTMICZNE

Hasło słownikowe może również zawierać:

Jak często używany jest deskryptor;

Numer kodu deskryptora;

Kod deskryptora zgodnie z indeksem systematycznym;

wskaźniki klasyfikacyjne;

Dodatkowe znaki semantyczne i leksykograficzne;

zagraniczne odpowiedniki.

Jakość indeksu leksyko-semantycznego zależy od kompletności zawartych w nim jednostek leksykalnych. rozumiane jest jako prawdopodobieństwo wpisania do tezaurusa dowolnego wyrazu o znaczeniu informacyjnym dla danej dziedziny. Kompletność indeksu leksyko-semantycznego, a co za tym idzie całego tezaurusa, ma istotny wpływ na wyniki indeksowania dokumentów i kwerend.

Dodatkowe części mogą zawierać indeksy systematyczne, permutacyjne, hierarchiczne i inne oraz wykazy specjalnych kategorii jednostek leksykalnych.

Indeks systematyczny to indeks, w którym deskryptory są pogrupowane zgodnie z nagłówkami przyjętymi w IPT. Indeks systematyczny określa kierunek tematyczny tezaurus, ujawnia jego treść i odzwierciedla te gałęzie nauki i technologii, które można przeszukiwać z taką czy inną głębią szczegółów. Zapotrzebowanie na to jako część IPT wynika z faktu, że daje wizualną reprezentację ogólne warunki terminologii z określonej dziedziny wiedzy, pozwala na zbudowanie spójnego modelu terminologicznego oraz w miarę możliwości wszystkich terminów i pojęć, które powinny znaleźć się w tezaurusie. Ma to na celu ułatwienie wyszukiwania terminów podczas kompilowania wyszukiwanych obrazów dokumentów i zapytań poprzez uporządkowanie zestawu deskryptorów i askryptorów według tematu.

Indeks systematyczny jest zasadniczo schematem klasyfikacji służącym do wypełniania tezaurusa terminologią, ponieważ jest tworzony poprzez uporządkowanie zestawu deskryptorów według obszarów tematycznych.

Systematyczne indeksy IPT dzielą się na trzy typy:

Tematyczny,

Mieszany.

Podział ten odzwierciedla zasadę konstruowania schematu klasyfikacyjnego indeksu systematycznego.

Główne funkcje pełnione przez indeks systematyczny IPT:

Użyj jako pomocy w indeksowaniu, zapewniając łącznie wyszukiwanie deskryptorów dla indeksowania pojęć, które nie są wyraźnie reprezentowane w tezaurusie (funkcja wyszukiwania);

Wykorzystanie w procesie prowadzenia tezaurusa (funkcja utrzymania IPT);

Wykorzystanie jako strukturalna podstawa IPT, jako zarządzanie jego rozwojem (funkcja konstruktywna).

Zgodnie z GOST 7.25-2001 (2), przy konstruowaniu systematycznego indeksu typów tematycznych i mieszanych w jego części tematycznej należy stosować rubryki rubrykatora Interstate NTI lub określonego rubrykatora ASNTI kompatybilnego z rubrykiem Interstate NTI. Podczas konstruowania systematycznego indeksu typów kategorycznych i mieszanych w jego części kategorycznej następują następujące kategorie ogólne:

Nazwy dyscyplin i dziedzin działalności;

Przedmioty, materiały;

Metody, procesy, operacje, zjawiska;

Właściwości, wartości, parametry, cechy;

Relacje, struktury, modele, prawa, reguły, pojęcia abstrakcyjne.

Indeks hierarchiczny. Indeks hierarchiczny to indeks zawierający listę list deskryptorów, z których każda zaczyna się od deskryptora, który nie ma elementu nadrzędnego. Odzwierciedla pełną strukturę relacji hierarchicznych w IPT. Po każdym deskryptorze podane są deskryptory bezpośrednio ze wskazaniem ich poziomu w hierarchii za pomocą numeracji lub graficznego oznaczenia poziomu:

Potrzeba opracowania hierarchicznego indeksu IPT spowodowana jest tym, że cały system podporządkowania pojęć nie jest utrwalony w hasłach słownikowych IPT, gdyż wiązałoby się to ze znacznym wzrostem indeksu leksyko-semantycznego. istnieje potrzeba opracowania niezależnej sekcji IPT - hierarchicznego indeksu, który odzwierciedlałby cały hierarchiczny łańcuch podporządkowania deskryptorów do dołu.

Indeks permutacji to indeks, który wymienia w porządku alfabetycznym wszystkie pojedyncze słowa, które wchodzą w skład składowych fraz oznaczających deskryptory i dla każdego z nich wskazane są wszystkie deskryptory, które zawierają te słowa. Dlatego każdy termin pojawia się w indeksie permutacyjnym tyle razy, ile zawiera znaczące słowa. Indeks permutacyjny ma na celu umożliwienie wyszukiwania deskryptorów-fraz według dowolnego słowa wchodzącego w ich skład, w tym również tych, które nie pojawiają się na początku jednostki leksykalnej. Pozwala na grupowanie słów jednordzeniowych w jednym miejscu.

Z reguły indeks permutacyjny tworzony jest w sposób zautomatyzowany i zwykle ma postać indeksu typu KWIC (Key Word - In Context - „Keywords in Context”), w którym wszystkie sensowne słowa terminy ułożone są w porządku alfabetycznym. w indeksie permutacji znajduje się w środku kolumny, którą tworzą mikrokonteksty elementów terminów, a część terminów, która nie pasuje, jest przenoszona na lewą stronę tego samego wiersza:

kwant optyczny

pobudzenie

elektryczny

ze wzbudzeniem zależnym

Generatory zakłóceń

GENERATORY SZEREGOWE

GENERATORY PRĄDU STAŁEGO

GENERATORY DC okazują się niezbędne.

4. Procedura rozwoju, badania, rejestracji i utrzymania IPT

Obecnie procedurę opracowywania, badania i rejestracji IPT określają dwa standardy: GOST 7.25-2001 „Jednojęzyczny tezaurus wyszukiwania informacji. Zasady rozwoju, struktura, skład i forma prezentacji” oraz GOST 7.24-2007 „Wielojęzyczny tezaurus wyszukiwania informacji. Skład, struktura i podstawowe wymagania dotyczące konstrukcji. Zgodnie z tymi standardami funkcje badania i rejestracji IPT pełnią krajowe i międzynarodowe fundusze depozytowe.

Fundusz Krajowego Depozytu IPT w języku rosyjskim (w tym IPT zawierający odpowiedniki deskryptorów w języku rosyjskim) znajduje się pod adresem , w VINITI.

Istnieją również dwa międzynarodowe depozytariusze IPT:

1) Międzynarodowy Fundusz Depozytowy IPT dla język angielski, w tym IPT zawierające angielskie odpowiedniki deskryptorów. Znajduje się w Toronto, w bibliotece Wydziału Informatyki Uniwersytetu w Toronto (Thesaurus Clearinghouse – „settlement”, The Library, Faculty of Information Studies, University of Toronto, TORONTO, Canada);

2) Międzynarodowy Fundusz Depozytowy IPT we wszystkich językach innych niż angielski. Siedziba mieści się w Warszawie, w informacji naukowo-technicznej i gospodarczej (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Izba Rozliczeniowa, WARSZAW A, Polska.).

Pełne adresy tych organizacji podano w GOST 7.25-2001.

GOST 7.25-2001 i GOST 7.24-2007 określają działania programistów IPT w następujący sposób:

1. Przed przystąpieniem do prac nad stworzeniem IPT deweloper musi wystąpić do odpowiedniego krajowego lub międzynarodowego funduszu depozytowego w celu ustalenia dostępności zarejestrowanych tezaurusów na dany temat. W przypadku występowania takich tezaurusów dokonywana jest ocena możliwości ich wprowadzenia do danego systemu. Jeśli nie zostaną znalezione takie tezaurusy, utworzenie IPT może być możliwe. Jednocześnie cała technologia tworzenia IPT musi być ściśle zgodna z GOST 7.25-2001 i GOST 7.24-2007

2. Gotowy (opracowany) IPT musi przejść badanie na zgodność z GOST 7.25-2001. spełniają normę, a następnie krajowy wystawia dewelopera. niniejszego IPT jest zdeponowany (zdeponowany) we właściwym krajowym lub jednym z międzynarodowych funduszy depozytowych (w Toronto lub w Warszawie).

Krajowe depozyty udostępniają informacje o składzie funduszu zdeponowanych IPT i przekazują je twórcom nowych IPT w celu wypożyczenia elementów i zapewnienia kompatybilności obsługi językowej różnych systemów informatycznych. Pełnią więc funkcje badania, rejestracji, przechowywania IPT oraz informacji o dostępnych IPT.

wiele operacji związanych z zarządzaniem IPT);

Przejście AIS z samodzielnej pracy do pracy sieciowej (w przypadku korzystania z IPT w ramach jednej zasady ich utrzymania muszą być uzgodnione).

Proces utrzymywania IPT w dobrym stanie nazywany jest utrzymywaniem lub dostosowywaniem tezaurusa. Zwykle obejmuje:

Zmiana składu leksykalnego IPT: wprowadzenie nowych jednostek leksykalnych, ich, zmiana statusu jednostek leksykalnych (tłumaczenie słowa kluczowego na deskryptory i odwrotnie);

Zmiana relacji paradygmatycznych w IPT (wzmocnienie, osłabienie);

Utrzymanie IPT wiąże się z obowiązkowym korzystaniem z narzędzi automatyzacji, które pozwalają na szybkie wykonywanie tak pracochłonnych operacji, jak sortowanie alfabetyczne słownika, słownictwa, sprawdzanie wzajemności i spójności odniesień, za pomocą których ustalane są relacje paradygmatyczne w ITP itp. .

System koncepcyjny Tematyka Podstawą każdego obszaru tematycznego jest system pojęć tego obszaru. Definicja pojęcia: Pojęcie to myśl, która odzwierciedla przedmioty i zjawiska rzeczywistości w uogólnionej formie, ustalając ich właściwości i relacje; te ostatnie (właściwości i relacje) pojawiają się w pojęciu jako cechy ogólne i specyficzne skorelowane z klasami przedmiotów i zjawisk (Słownik językowy)

Pojęcia i terminy Aby wyrazić pojęcie danej dziedziny w tekście, stosuje się słowa lub wyrażenia zwane terminami. Zbiór terminów przedmiotu tworzy jego system terminologiczny. Związek określonego terminu z innymi terminami systemu terminologicznego obszaru przedmiotowego określa definicja

Definicje terminu? Słowo (lub kombinacja słów), które jest dokładnym określeniem pewnej koncepcji dowolnej specjalnej dziedziny nauki, techniki, sztuki, życia społecznego itp. || Specjalne słowo lub wyrażenie przyjęte dla oznaczenie czegoś. w określonym środowisku, zawodzie (Big Explanatory Dictionary of the Russian Language)

Pojęcia - dokładne nazwy pojęć Zwykle każdemu pojęciu obszaru odpowiada co najmniej jedno jednoznacznie rozumiane pojęcie, którego znaczeniem jest to pojęcie. - terminy w rozumieniu tradycyjnej teorii terminologii Właściwości terminów - dokładne nazwy pojęć - termin musi odnosić się bezpośrednio do pojęcia, musi je jasno wyrażać; - znaczenie terminu musi być precyzyjne i nie może pokrywać się znaczeniowo z innymi terminami; - znaczenie terminu nie powinno zależeć od kontekstu. Terminy, które trafnie nazywają pojęcie, są przedmiotem badań teorii terminologii, terminologów

Terminy tekstowe W prawdziwych tekstach z danej dziedziny, oprócz głównych terminów, można użyć wielu różnych wyrażeń językowych na określenie pojęcia, które nazywamy terminami tekstowymi: - opcje składniowe i słowotwórcze: odbiorca środków budżetowych - odbiorca budżetu; - warianty leksykalne - zapis bezpośredni, zapis niepodważalny; - wyrażenia wielowartościowe, w zależności od kontekstu, służące jako odniesienie do różnych koncepcji regionu, np. słowo waluta w różnych kontekstach może oznaczać walutę narodową lub walutę obcą.

Etykietowane deskryptory Etykiety – część nazwy deskryptora żurawie (urządzenia dźwigowe) vs żurawie (ptaki) muszle (konstrukcje) – porównanie różnych tezaurusów Preferencje dotyczące fraz: –Nagrania fonograficzne vs. płyty (fonograf) mnogi: Drewno (materiał) Lasy (obszary zalesione)

Włączenie deskryptorów opartych na wyrażeniach wielowyrazowych Podział terminu zwiększa niejednoznaczność: pokarm roślinny Znaczenie wyrażenia zależy od kolejności wyrazów: informacja naukowa - informacja naukowa Jedno ze słów składowych wykracza poza zakres tezaurusa lub jest zbyt ogólne: pierwszy Z jego struktury nie wynikają zależności deskryptora pomocy: –Sztuczne nerki, status uchodźcy, sygnalizacja świetlna

Relacje asocjacyjne Dziedzina działalności - charakter - Matematyka - matematyk Dyscyplina - przedmiot badań - Neurologia - system nerwowy Akcja - agent lub narzędzie - Polowanie - myśliwy Akcja - wynik akcji - Tkanie - tkanina Akcja - cel - Wiązanie - książka Przyczyna-skutek - Śmierć - pogrzeb Wartość - jednostka miary - Siła prądu - amper Akcja - kontrahent - Alergen - anty- lek na alergię itp.

Tezaurusy wyszukiwania informacji: etapy rozwoju Etap pierwszy: indeksatorzy opisują główny temat tekstu dowolnymi słowami i wyrażeniami Terminy uzyskane z wielu tekstów są łączone Spośród terminów o zbliżonym znaczeniu wybierany jest najbardziej reprezentatywny Niektóre z pozostałych stają się synonimy warunkowe, pozostałe są usuwane Określone terminy zwykle nie są uwzględniane

Tezaurusy wyszukiwania informacji: sztuka projektowania Deskryptory to terminy, które są potrzebne do wyrażenia głównego tematu dokumentu Synonimy zawarte są tylko te najbardziej potrzebne (np. rozpoczynające się na inną literę), aby nie utrudniać pracy indeksatora Podobne terminy należy zredukować do jednego terminu, aby uniknąć subiektywnego indeksowania Poziomy hierarchii, włączenie określonych terminów jest ograniczone

Tezaurus wyszukiwania informacji: sztuka rozwoju - 2 W złożonych przypadkach deskryptory są dostarczane z etykietami i komentarzami -LIV: bombardowanie - bombardowanie -Niejednoznaczne terminy: jedna wartość w tezaurusie (wielka litera), nie mieszczą się w tezaurusie, etykiety!! ! Tradycyjny tezaurus wyszukiwania informacji - sztuczny język zbudowany na podstawie rzeczywistych terminów

Tradycyjny IPT: zastosowanie w przetwarzaniu automatycznym Brak znajomości rzeczywistego języka oprogramowania Brak znajomości rzeczywistego języka oprogramowania WIELKA – duża litera, w tezaurusie tylko duża litera Sugerowane: uzupełnienie każdego deskryptora listami słów i terminów Sugerowane: uzupełnienie każdego deskryptora listami słów i terminów Ale: polisemia lub powiązane z różnymi deskryptorami. Ale: polisemia lub odniesienie do różnych deskryptorów. Rozwiązywanie niejednoznaczności Rozwiązywanie niejednoznaczności

Tradycyjny IPT: automatyczne rozszerzanie zapytań Problem z asocjacjami Sugerowane: podaj wagi podaj wagi podaj nazwy relacji: obiekt, właściwość itp. wprowadź nazwy relacji: obiekt, właściwość itp. WNIOSEK: musisz nauczyć się budować zasoby językowe specjalnie do automatycznego przetwarzania zbiorów tekstowych

Tezaurus EUROVOC – wielojęzyczny tezaurus Wspólnoty Europejskiej Tezaurus w 9 językach Rosyjska wersja EUROVOC – +5 tys. pojęć odzwierciedlających rosyjską specyfikę inne języki–Askryptory – dla niektórych języków

Automatyczne indeksowanie oparte na regułach w tezaurusie EUROVOC (Hlava, Heinebach, 1996) Przykład reguły: JEŚLI (w pobliżu „Technologia” ORAZ z „Rozwój”) USE program wspólnotowy USE pomoc rozwojowa ENDIF 40 tys. reguł. Testowanie: 20 najczęściej występujących deskryptorów w tekście, generowanych automatycznie - 42% kompletności w porównaniu z ręcznym rubrykowaniem

Indeksowanie automatyczne na podstawie ustalenia wag zgodności między słowami i deskryptorami (Steinberger et al., 2000) Etap 1 - ustalenie zgodności między słowami w tekście a przypisanymi deskryptorami na podstawie miar statystycznych (chi-kwadrat lub log-wiarygodność) Deskryptor ZARZĄDZANIA RYBOŁÓWSTWEM - następujący słowa (w porządku malejącym według wagi): rybołówstwo, ryby, stado, rybołówstwo, ochrona, zarządzanie, statek itp. Samo indeksowanie II stopnia - sumowanie logarytmów wag lub jako iloczyn skalarny wektorów

Kombinacja zapytań tezaurusa luźnych i wyszukiwania informacji Kolekcja ręcznie indeksowana - korelacje Użytkownik ustawia zapytanie w języku naturalnym Zapytanie jest rozszerzane o deskryptory tezaurusa najsilniej skorelowane z zapytaniem (Petras 2004; Petras 2005). Np. na prośbę firm niewypłacalnych (spółki niewypłacalne) można uzyskać listę deskryptorów płynność, zadłużenie, przedsiębiorstwo, firma., a zapytanie zostanie rozszerzone. Dokładność w eksperymencie wzrosła o 13%.

Sekcja jest bardzo łatwa w użyciu. W proponowanym polu wystarczy wpisać żądane słowo, a my podamy listę jego znaczeń. Chciałbym zauważyć, że nasza strona dostarcza danych z różnych źródeł - słowników encyklopedycznych, objaśniających, słowotwórczych. Tutaj możesz również zapoznać się z przykładami użycia wpisanego słowa.

Znaczenie słowa tezaurus

tezaurus w słowniku krzyżówkowym

Słownik wyjaśniający języka rosyjskiego. SI Ozhegov, NYu Shvedova.

słownik wyrazów bliskoznacznych

[te], -a, m. (specjalny).

Słownik języka, który stawia sobie za zadanie pełne odzwierciedlenie całego jego słownictwa.

Słownik lub zestaw danych, który w pełni obejmuje terminy, pewnego rodzaju koncepcje. specjalny obszar.

przym. tezaurus, cz, cz.

Nowy słownik wyjaśniający i pochodny języka rosyjskiego, T. F. Efremova.

słownik wyrazów bliskoznacznych

Dowolny słownik. język, reprezentując w pełni jego słownictwo.

Kompletny, systematyczny zestaw danych o a dziedzina wiedzy pozwalająca na poruszanie się w niej osobie lub komputerowi (w informatyce).

Słownik encyklopedyczny, 1998

słownik wyrazów bliskoznacznych

TEZAURUS (z greckiego tezaurosu - skarb)

słownik, w którym możliwie najpełniej przedstawiono słowa danego języka wraz z przykładami ich użycia w tekście (jest to w pełni wykonalne tylko dla języków martwych).

Słownik, w którym słowa związane z dowolną dziedziną wiedzy są ułożone zgodnie z zasadą tematyczną, a relacje semantyczne (rodzajowe, synonimiczne itp.) są pokazane między jednostki leksykalne. W tezaurusach wyszukiwania informacji leksykalne jednostki tekstu są zastępowane deskryptorami.

Słownik wyrazów bliskoznacznych

(z gr. tezaurós ≈ skarb, skarbiec), zbiór jednostek semantycznych określonego języka z podanym w nim systemem relacji semantycznych (zob. Semantyka). T. faktycznie określa semantykę języka (języka narodowego, języka określonej nauki lub języka sformalizowanego dla zautomatyzowanego systemu sterowania). Początkowo T. był uważany za słownik jednojęzyczny, w którym relacje semantyczne są określane przez grupowanie słów według nagłówków tematycznych. Na przykład angielski T. (autor P. M. Roget), opublikowany w 1962 r. (1. wydanie 1852 r.), Zawiera 1040 nagłówków, wśród których rozmieszczonych jest około 240 000 słów. Indeks (klucz) do tego T. zawiera alfabetyczną listę słów wskazującą nagłówki i podtytuły, do których należy każde słowo. Istnieją tradycyjne słowniki języka ogólnego (opisy systemów semantycznych poszczególnych języków) dla języka angielskiego, francuskiego, hiszpański. Słowniki jednojęzyczne, które definiują wyrażenia głównych parametrów semantycznych każdego słowa, są bardzo zbliżone do T., na przykład słownik języka rosyjskiego autorstwa S. I. Ozhegova.

w latach 70. XX wiek rozpowszechniły się tomy wyszukiwania informacji.W tomach tych zidentyfikowano specjalne jednostki leksykalne lub deskryptory, które można wykorzystać do automatycznego wyszukiwania informacji dokumentalnych. Każde słowo takiego terminu jest powiązane z synonimem deskryptora (patrz Synonimia), a relacje semantyczne są wyraźnie wskazane dla deskryptorów: rodzaj ≈ gatunek, część ≈ całość, cel ≈ środki itp. Zwykle zwyczajowo oddziela się rodzaj- relacje gatunkowe (hierarchiczne) i asocjacyjne. Tak więc „Tezaurus wyszukiwania informacji w informatyce”, opublikowany w ZSRR w 1973 r., Zapewnia dla każdego deskryptora hasło słownikowe, które osobno wskazuje synonimiczne słowa kluczowe, deskryptory rodzajowe, specyficzne i asocjacyjne. Dla lepszej orientacji w powiązaniach asocjacyjnych między deskryptorami, do tego T. dołączone są mapy semantyczne klas tematycznych. W automatycznym wyszukiwaniu informacji wyszukiwane są dokumenty, których indeks zawiera nie tylko deskryptory zapytań, ale także te deskryptory, które pozostają z nimi w określonych relacjach semantycznych. Czasami przydatne jest wyodrębnienie w T. specyficznych dla danego obszaru tematycznego relacji asocjacyjnych: choroba ≈ czynnik sprawczy, urządzenie ≈ cel (lub wartość mierzona) itp. Pozycja jednostki leksykalnej (słowo, fraza) w T. charakteryzuje jego znaczenie w języku; Znajomość systemu relacji semantycznych, w które wpisuje się dane słowo (w tym rubryk, w których występuje), umożliwia ocenę znaczenia tego słowa.

W szerokim znaczeniu T. interpretuje się jako opis systemu wiedzy o rzeczywistości, jakim dysponuje pojedynczy nośnik informacji lub grupa nośników. Nośnik ten może pełnić funkcje odbiornika dodatkowych informacji, w wyniku czego zmienia się również jego T. Początkowy T. określa możliwości odbiornika, gdy odbiera on informacje semantyczne. W psychologii i badaniu systemów ze sztuczną inteligencją brane są pod uwagę właściwości T. jednostek, które przejawiają się w postrzeganiu i rozumieniu informacji. W socjologii i teorii komunikacji badają właściwości T. jednostek i grup, które dają możliwość wzajemnego zrozumienia w oparciu o ogólność T. W takich sytuacjach T. musi zawierać złożone zdania i ich powiązania semantyczne, które determinują zasób informacji, który posiada złożony system. T. faktycznie zawiera nie tylko informacje o rzeczywistości, ale także metainformacje (informacje o informacjach), które dają możliwość otrzymywania nowych komunikatów.

Dosł.: Cherny A. I., Metodologia ogólna konstrukcja tezaurusów, „Informacje naukowo-techniczne. Ser. 2", 1968, ╧5; Varga D., Metodologia sporządzania tezaurusów informacyjnych, przeł. [z Węgier], M., 1970; Shreider Yu. A., Tezaurusy w informatyce i semantyce teoretycznej, „Informacje naukowe i techniczne. Ser. 2", 1971, ╧ Z.

Yu A. Schreider.

Wikipedii

Słownik wyrazów bliskoznacznych

Słownik wyrazów bliskoznacznych, w znaczeniu ogólnym – terminologia specjalistyczna, ściślej i merytorycznie – słownik, zbiór informacji, korpus lub kod obejmujący w pełni pojęcia, definicje i terminy z określonej dziedziny wiedzy lub dziedziny działalności, który powinien przyczynić się do poprawna komunikacja leksykalna, korporacyjna; V współczesna lingwistyka - specjalna odmiana słowniki wskazujące związki semantyczne (synonimy, antonimy, paronimy, hiponimy, hipernimy itp.) między jednostkami leksykalnymi. Tezaurusy są jednym z najskuteczniejszych narzędzi opisu poszczególnych obszarów tematycznych.

W przeciwieństwie do słownika objaśniającego, tezaurus umożliwia ujawnienie znaczenia nie tylko za pomocą definicji, ale także poprzez skorelowanie wyrazu z innymi pojęciami i ich grupami, dzięki czemu może być wykorzystany do wypełnienia baz wiedzy sztucznych systemy wywiadowcze.

W przeszłości termin słownik wyrazów bliskoznacznych wyznaczono głównie słowniki, reprezentujące słownictwo języka z przykładami jego użycia w tekstach o maksymalnej kompletności.

Również termin słownik wyrazów bliskoznacznych używane w teorii informacji w odniesieniu do całości wszystkich informacji, które posiada podmiot.

W psychologii tezaurus jednostki charakteryzuje postrzeganie i rozumienie informacji. Teoria komunikacji uwzględnia również ogólny tezaurus skomplikowany system poprzez które wchodzą w interakcję jego elementy.

Tezaurus (ujednoznacznienie)

Słownik wyrazów bliskoznacznych:

Tezaurus – słownik, zbiór informacji obejmujących pojęcia, definicje i terminy ze specjalnej dziedziny wiedzy lub dziedziny działalności.
Tezaurus Rogera jest jednym z pierwszych i najbardziej znanych słowników ideograficznych w historii.

Przykłady użycia słowa tezaurus w literaturze.

Dla percepcji i współtworzenia, niektóre optymalne słownik wyrazów bliskoznacznych Nie mały, ale też nie za duży.

Z nieograniczoną ilością napływających informacji, znacznie przekraczającą słownik wyrazów bliskoznacznych, jego wartość nie zależy od tej ilości i jest całkowicie określona przez słownik wyrazów bliskoznacznych om.

Wszechstronność, systemowość sztuki prowadzi do nierównego postrzegania dzieła jako całości: do postrzegania niektórych aspektów wiersza słownik wyrazów bliskoznacznych optymalny, dla innych niewystarczający lub zbyt duży.

Ponieważ słownik wyrazów bliskoznacznych rośnie i zmienia się, ponowne zapoznanie się z dziełem może oznaczać otrzymanie nowych cennych informacji.

Chęć dziecka do wielokrotnego czytania bajki, którą polubiło, jest zrozumiała: jego słownik wyrazów bliskoznacznych jego zdolność do współtworzenia, fantazjowania asocjacyjnego jest szczególnie wielka.

Ta strona sprawy jest bardziej zmienna i subiektywna niż słownik wyrazów bliskoznacznych, a w poszukiwaniu obiektywnej oceny estetycznej dzieła należy ją sprowadzić do minimum.

Wnika w słownik wyrazów bliskoznacznych poeta i odnosi się do tłumaczenia słownik wyrazów bliskoznacznych od zagranicznego czytelnika.

Najważniejszą rzeczą jest określenie, jak duży jest twój słownik wyrazów bliskoznacznych, T.

Nie, po prostu jego własny bagaż jest skąpy, on jest nierozwinięty, swój słownik wyrazów bliskoznacznych jest w powijakach i jeśli tego nie rozumie słownik wyrazów bliskoznacznych powinien zostać zwiększony, to w każdym razie ta kobieta będzie miała z nim trudności.

Bogaty słownik wyrazów bliskoznacznych, oparta na prawdziwej wiedzy, pozwala osobie w komunikacji z drugą osobą, w tym w najbliższej komunikacji z najbliższą osobą, prawidłowo reagować na wszystko, co się dzieje.

Oczywiście spadek wartości informacji wraz ze wzrostem słownik wyrazów bliskoznacznych powinno zależeć od związku słownik wyrazów bliskoznacznych do ilości otrzymanych informacji.

Oczywiście optymalna wartość informacji artystycznej odpowiada bliskości słownik wyrazów bliskoznacznych czytelnik i słownik wyrazów bliskoznacznych poeta.

Można powiedzieć, że współtworzenie, podobnie jak twórczość, wymaga inspiracji, czyli inkluzji słownik wyrazów bliskoznacznych w najszerszym tego słowa znaczeniu.

Takie wewnętrzne powtórzenie jasnego obrazu i jasnego dźwięku, pozostające w obrębie istniejącego słownik wyrazów bliskoznacznych, wzbogaca ją o ten sam estetyczny moment powtórzenia.

w tym momencie słownik wyrazów bliskoznacznych Nabokowa i Priszwina należy uznać za antypody Płatonowa, a Marinę Cwietajewą można uznać za podobną do niego.

NV Łukaszewicz

[e-mail chroniony]

B. V. Dobrow

Centrum Informatyki Badawczej Moskiewskiego Uniwersytetu Państwowego MV Łomonosow;

Centrum Badań Informacyjnych ANO

[e-mail chroniony]

Słowa kluczowe: tezaurus, wyszukiwanie informacji, automatyczne przetwarzanie tekstu,

Zdecydowana większość technologii, które działają z dużymi zbiorami tekstów, opiera się na metodach statystycznych i probabilistycznych. Wynika to z faktu, że zasoby leksykalne, które mogłyby służyć do przetwarzania zbiorów tekstowych metodami lingwistycznymi, powinny mieć objętość kilkudziesięciu tysięcy haseł słownikowych i posiadać szereg ważnych właściwości, które należy szczególnie monitorować przy opracowywaniu zasobu. W raporcie rozważamy podstawowe zasady tworzenia zasobów leksykalnych do automatycznego przetwarzania dużych zbiorów tekstowych na przykładzie tworzonego od 1997 roku tezaurusa języka rosyjskiego do komputerowego przetwarzania tekstów RuThez, który jest obecnie hierarchiczną siecią ponad 42 tysięcy pojęć . Obecny stan tezaurusa opisujemy na podstawie porównania jego składu leksykalnego i korpusu tekstowego Uniwersyteckiego Systemu Informacyjnego ROSJA (www.cir.ru) - 400 tys. dokumentów. Omówiono przykłady wykorzystania tezaurusa w różnych aplikacjach do automatycznego przetwarzania tekstu.

Wstęp

Obecnie udostępniono miliony dokumentów w formie elektronicznej, powstały tysiące systemów informatycznych i bibliotek elektronicznych. Jednocześnie systemy informacyjne wykorzystujące zasoby leksykalne i terminologiczne do wyszukiwania są obliczane w ułamkach procenta. Wynika to z poważnych problemów tworzenia takich zasobów językowych do automatycznego przetwarzania współczesnych zbiorów dokumentów elektronicznych.

Po pierwsze, zbiory te są zwykle bardzo duże, zasób musi zawierać opisy tysięcy słów i terminów. Po drugie, zbiory są zbiorem dokumentów o różnej strukturze, o różnej strukturze konstrukcje składniowe, co utrudnia automatyczne przetwarzanie sugestii tekstowych. Ponadto ważne informacje są często rozdzielane na różne zdania tekstu.

Wszystko to ostro rodzi pytanie, jakiego rodzaju powinien być zasób językowy, który z jednej strony nadawałby się do automatycznego przetwarzania i wyszukiwania w zbiorach elektronicznych, z drugiej zaś strony mógłby powstawać w przewidywalnym czasie i być utrzymywany przy stosunkowo mały wysiłek.

W artykule rozważymy podstawowe zasady opracowywania zasobów leksykalnych do automatycznego przetwarzania dużych zbiorów tekstowych. Zasady te zostaną rozważone na przykładzie tezaurusa języka rosyjskiego tworzonego od 1997 roku przez Centrum Badań Informacyjnych ANO do komputerowego przetwarzania tekstów RuThez. RuThez to obecnie hierarchiczna sieć ponad 42 tysięcy pojęć, która obejmuje ponad 95 tysięcy rosyjskich słów, wyrażeń, terminów. Opiszemy obecny stan tezaurusa na podstawie porównania jego składu leksykalnego i leksykonu korpusu tekstowego Uniwersyteckiego Systemu Informacyjnego ROSJA, wspieranego przez Centrum Badawczo-Rozwojowe Moskiewskiego Uniwersytetu Państwowego. MV Łomonosow i ANO TsII. UIS RUSSIA (www.cir.ru) zawiera 400 000 dokumentów o tematyce społeczno-politycznej (około 3 GB tekstów, 200 milionów użytych słów). W artykule przyjrzymy się również przykładom wykorzystania tezaurusa w różnych edytorach tekstu.

Zasady opracowywania zasobu językowego

do zadań związanych z wyszukiwaniem informacji

Aby zapewnić sprawne automatyczne przetwarzanie dokumentów elektronicznych (automatyczne indeksowanie, kategoryzacja, porównywanie dokumentów), konieczne jest zbudowanie podstawy do ich porównywania - spisu tego, co zostało wymienione w dokumencie. Aby taki indeks był skuteczniejszy od indeksu wyrazów, konieczne jest przezwyciężenie zróżnicowania leksykalnego tekstu: synonimów, polisemii, części mowy, stylu i sprowadzenie go do niezmiennika – pojęcia, które staje się podstawą do porównywania różne teksty. Pojęcia powinny więc stać się podstawą zasobu językowego, a wyrażenia językowe: słowa, terminy – jedynie tekstowymi wejściami inicjującymi odpowiadające im pojęcie.

Aby móc porównywać różne, ale zbliżone znaczeniowo pojęcia, należy nawiązać między nimi relacje. Tradycyjnie w zasobach językowych do automatycznego przetwarzania tekstów w języku naturalnym wykorzystywano pewne zbiory relacji semantycznych, jak np. część, źródło, przyczyna i tak dalej. Jednak pracując z dużymi i heterogenicznymi zbiorami tekstów, musimy zrozumieć, że przy obecnym stanie technologii przetwarzania tekstu system komputerowy nie będzie w stanie wykryć tych zależności w tekście w żaden stabilny sposób, aby wykonać procedury, które my łączyły się z pewnymi relacjami. Relacje między pojęciami powinny więc przede wszystkim opisywać pewne niezmienne właściwości, które nie zależą lub słabo zależą od tematu konkretnego tekstu, w którym pojęcie to jest wspomniane.

Główną funkcją tych relacji jest odpowiedź na następujące pytanie:

jeśli wiadomo, że tekst jest poświęcony omówieniu C1, a C2 jest połączone

postawaRz C1, możemy powiedzieć, że temat tekstu(*)

ma coś wspólnego z C2?

Podczas tworzenia zasobu językowego do automatycznego przetwarzania ważne jest określenie, które właściwości pojęć C1 i C2 pozwalają na ustalenie poprawnych (*) relacji między nimi.

A więc na przykład o jakichkolwiek tekstach, o których się pisze brzozy, zawsze możemy powiedzieć, że są to teksty o drzewa. Ale pomimo popularności i częstych dyskusji na temat związku drzewo jako część lasy, bardzo mała liczba tekstów o drzewach to teksty o lasach. Zauważ, że problem nie jest związany z nazwą relacji. Więc polana jest częścią lasu, a teksty o polanach to teksty o lesie.

Niezmienniczość relacji względem spektrum możliwych tematów tekstów obszaru tematycznego jest w dużej mierze zdeterminowana głębszymi właściwościami niż te, które odzwierciedlają nazwy relacji, a mianowicie jej kwantyfikatorem i właściwościami egzystencjalnymi. Zatem właściwości kwantyfikatora relacji opisują, czy wszystkie wystąpienia pojęcia mają daną relację, czy dana relacja jest zachowana przez cały cykl życia przykładu. Problem z użyciem relacji drzewo – las Wiąże się to właśnie z tym, że nie każde konkretne drzewo jest w lesie, ale polana nie może być poza lasem.

Przykładem opisu egzystencjalnych właściwości relacji jest to, czy istnienie pojęcia C2 wynika z istnienia pojęcia C1 (np. GARAŻ wymaga koncepcji SAMOCHÓD) lub istnienie przykładów C1 zależy od istnienia przykładów C2 (a więc konkret POWÓDŹ nierozerwalnie związane z konkretnym przykładem RZEKI). Omówienie w tekście koncepcji zależnej C2, a zwłaszcza przykładowej, sugeruje, że tekst odnosi się również do koncepcji głównej C1.

Rozważ związek między pojęciami LASY i DREWNO w szczegółach. Właściwie część koncepcji LAS Jest DRZEWO W LESIE, podczas gdy istnieją i STOJĄCE DRZEWO,DRZEWO W OGRODZIE itd. W każdym razie wymagane jest zerwanie stosunku podporządkowania pojęcia DRZEWO pojęcie LAS.

Z drugiej strony, LAS jest miły ZESTAW DRZEW, nie istnieje bez drzew (jak również OGRÓD). Stąd koncepcja LAS powinien być zależny od koncepcji DRZEWO. Wychodząc od analizy potrzeb konkretnych zadań aplikacyjnych, doszliśmy do wniosku, że ważne jest opisanie głębokich właściwości relacji, które wcześniej miały bardzo niewielkie odzwierciedlenie w zasobach językowych, ale które mają pierwszorzędne znaczenie dla zadań automatycznego przetwarzania dużych zbiorów tekstu i prawdopodobnie do wielu innych zadań.

Teraz modelujemy opis kwantyfikatora i właściwości egzystencjalnych pojęć za pomocą zestawu tradycyjnych relacji tezaurusa POWYŻEJ-DÓŁ (66% wszystkich powiązań), CZĘŚĆ-Całość (30% powiązań), POWIĄZANIE (4%), w połączeniu z jakiś zestaw dodatkowych modyfikatorów (20% relacji jest oznaczonych ). Należy zauważyć, że relacje CZĘŚĆ-Całość i POWIĄZANIE są interpretowane zgodnie z regułą (*). Łącznie opisano około 160 tys. bezpośrednich powiązań między pojęciami, co przy uwzględnieniu przechodniości relacji daje łączną liczbę różnych powiązań ponad 1350 tys. powiązań, czyli średnio każde pojęcie jest powiązane z 30 innymi .

Tezaurus RuThes: Ogólna struktura

Thesaurus RuThes to hierarchiczna sieć pojęć odpowiadających znaczeniom poszczególnych słów, wyrażeń tekstowych lub serii synonimów. Zatem głównymi elementami tezaurusa są pojęcia, wyrażenia językowe, relacje, wyrażenie językowe - pojęcie, relacje między pojęciami.

W tezaurusie zarówno wiedza lingwistyczna - opisy leksemów, idiomów i ich związków, tradycyjnie związana z wiedzą leksykalną, semantyczną, jak i wiedza o terminach i relacjach w ramach obszarów tematycznych, tradycyjnie związanych z dziedziną działalności terminologów, opisana w tezaurusach wyszukiwania informacji , są gromadzone w jednym systemie. . Jako takie subdomeny przedmiotowe tezaurus opisuje takie obszary tematyczne, jak ekonomia, prawodawstwo, finanse, stosunki międzynarodowe, które są tak ważne w codziennym życiu człowieka, że mają znaczącą reprezentację leksykalną w tradycyjnych słownikach objaśniających. W nich leksykalny i terminologiczny są ze sobą silnie powiązane i silnie na siebie oddziałują.

Wyrażenia językowe to odrębne leksemy (rzeczowniki, przymiotniki i czasowniki), grupy nominalne i czasownikowe. Tak więc tezaurus nie zawiera teraz przysłówków i słów pomocniczych jako wyrażeń językowych. Grupy wielowyrazowe mogą zawierać terminy, idiomy, funkcje leksykalne ( wpływ mi).

Dla każdego wyrażenia językowego opisano, co następuje:

Jego niejednoznaczność polega na powiązaniu z jednym lub kilkoma pojęciami, co oznacza, że dane wyrażenie językowe może służyć jako tekstowy wyraz tego pojęcia. Przyporządkowanie wyrażenia językowego do różnych pojęć jest także dorozumianym wskazaniem jego wieloznaczności;

Jego skład morfologiczny (część mowy, liczba, przypadek);

Cechy pisma (na przykład wielką literą) itp.

Każde pojęcie tezaurusa ma unikalną nazwę, listę wyrażeń językowych, za pomocą których można to pojęcie wyrazić w tekście, listę związków z innymi pojęciami.

Jako niepowtarzalną nazwę pojęcia wybiera się zwykle jedno z jego jednoznacznych wyrażeń tekstowych. Ale nazwa pojęcia może być również utworzona przez parę jego niejednoznacznych wyrażeń tekstowych - synonimy pisane przecinkiem i jednoznacznie je określające (na przykład pojęcie GRUBY GRUBY). Wieloznaczny tekstowy wyraz nazwy pojęcia może być również opatrzony etykietą lub skróconym fragmentem interpretacji, np. TŁUM (GRUPA LUDZI).

Przykład hasła do słownika

Jako przykład wybraliśmy hasło słownikowe pojęcia LAS odpowiadające jednemu ze znaczeń tego słowa las. To hasło słownikowe jest o tyle ciekawe, że obejmuje różne typy wiedzy tradycyjnie określane jako wiedza leksykalna (semantyczna) oraz wiedza encyklopedyczna (wiedza o danej dziedzinie, terminologia).

Synonimy do pojęcia LAS(łącznie 13):

las(M), strefa leśna, środowisko leśne,

las, kwatera leśna, krajobraz leśny,

obszar leśny, las, zalesiony,

teren surowy leśny, las,

szereg lasów.

Następujące terminy z synonimami:

DŻUNGLA(dżungla);

LEŚNY PARK(ogród miejski, teren zielony,

zielony masyw, park leśny,

leśnictwo, leśnictwo

pas, parkM), strefa parkowa);

POLOWANIE W LASIE;

lasy liściaste(las iglasty, drewno liściaste

las);

GAJ(las dębowy);

LASY Iglaste (masyw iglasty, bór ciemny)

Pojęcia-części z synonimami:

BORELOM (wiatr, gratka);

WYRĄB(obszar cięcia);

KULTURA LEŚNA(gatunki leśne, leśnictwo

kultura);

GRUNTY LEŚNE (grunty funduszu leśnego; grunty objęte

las; teren leśny, obszar leśny;

teren zalesiony, zalesiony

obszar,);

LAS(plantacje leśne, plantacje leśne,

zalesienie);

KRAWĘDŹ LASU(obramowanie, obramowanie);

POSZYCIE (poszycie);

PROSEKA;

SUCHY LĄD(suchy).

Tutaj symbole (M) odzwierciedlają znak niejednoznaczności wprowadzonego tekstu.

pojęcie LAS ma również inne relacje, tzw. relacje zależności (we współczesnej wersji nazywane są one ASC 2 - skojarzenie asymetryczne): POŻAR LASU(pożar lasu, pożar w lesie; ZARZĄDZANIE LASEM (użytkowanie lasu, użytkowanie działek funduszu leśnego); WŁASNOŚĆ LASÓW; NAUKA LEŚNA (nauki leśne). Jak już zauważono w akapicie 2, pojęcie LASU zależy od pojęcia DRZEWA, które w tezaurusie jest oznaczone relacją ASC 1 .

Cała koncepcja LAS jest bezpośrednio powiązany z 28 innymi pojęciami, biorąc pod uwagę przechodniość relacji - z 235 pojęciami (łącznie ponad 650 wpisów tekstowych).

Ocena stanu techniki

Tezaurus języka rosyjskiego RuThez

5.1. Kompozycja leksykalna

Obecnie w sieci tezaurusów znajduje się ponad 95 tysięcy wyrażeń językowych, z czego 61 tysięcy to wyrażenia jednowyrazowe.

Ten nakład pracy skłonił nas do podjęcia decyzji, jakie słowa i wyrażenia językowe powinny znaleźć się w opisach Tezaurusa. Naturalnym pragnieniem było zobaczyć, jak w tezaurusie są reprezentowane najczęstsze słowa języka rosyjskiego. W tym celu wykorzystano zbiór tekstów Uniwersyteckiego Systemu Informacyjnego ROSJA (400 tysięcy dokumentów). Zbiór zawiera oficjalne dokumenty różnych organów Federacja Rosyjska(55 tys. dokumentów od 1992 r.), a także materiały prasowe od 1999 r. czasopisma naukowe(„Biuletyn Uniwersytetu Moskiewskiego”, „Dziennik socjologiczny”). Porównano listę lematów zawartych w Tezaurusie z listą 100 000 najczęściej występujących lematów w zbiorze tekstów (częstość powyżej 25).

Oznaczenie leksykalne wykazu wykazało, że spośród tych stu tysięcy lematów, 35 tysięcy jest opisanych w RuThes, tylko około 7 tysięcy leksemów zasługuje na uwzględnienie w Tezaurusie, reszta to warianty lemmatyczne różnych nazw własnych. Dlatego uzupełnianie przestało być priorytetem i odbywa się stopniowo, zaczynając od najczęstszych słów. Zakłada się, że jak tylko ta lista zostanie w zasadzie wyczerpana, nastąpi kolejne porównanie z tablicą tekstową systemu informatycznego, wybrane zostaną nowe tokeny z częstotliwością większą niż 25. Ponadto próg oglądalności ma wynosić zredukowany. Obecność w zbiorze tekstów dużej liczby przykłady tekstów pozwala szybko reagować na „nowości leksykalne” (np. instalacja,przebój, piękny świat, kryminał) i umieszczać je w odpowiednich miejscach w systemie hierarchicznym tezaurusa.

Stała praca z aktualnym zbiorem tekstów daje niepowtarzalną okazję do testowania znaczenia i jakości opisów leksykalnych oferowanych w słownikach. Na przykład niezwykle wysoka częstotliwość używania tego słowa Matko Zobacz(ponad 400 razy). Sprawdzenie tablicy wykazało, że słowo to rzeczywiście jest często używane jako synonim tego słowa Moskwa, podczas gdy słowniki wyjaśniające często oznaczają to słowo jako przestarzałe. Innym przykładem często używanego słowa (ponad 300 razy) oznaczonego jako przestarzałe w słownikach jest słowo błogi.

5.2 Opis znaczeń słów

Porównanie ze zbiorem tekstów pokazuje, że wiele słów częstotliwości w tablicy jest dobrze reprezentowanych w tezaurusie przynajmniej w jednej z ich (zwykle podstawowych) wartości. Ustalenie, w jakim stopniu zakres znaczeń polisemantycznych słów języka rosyjskiego jest reprezentowany w Tezaurusie, jest obecnie naszym głównym zadaniem.

Jak wiesz, różne źródła słownikowe często podają inny zestaw znaczeń słów wieloznacznych, podkreślają odcienie znaczeń, a ten sam rodzaj polisemii można opisać inaczej dla różne słowa nawet w tym samym słowniku. Dlatego zadanie spójnego i reprezentatywnego opisu znaczeń leksemów jest ważnym zadaniem dla twórców każdego zasobu słownikowego.

Jeśli jednak zasób jest przeznaczony do automatycznego przetwarzania, to zadanie zrównoważonego opisu wartości staje się znacznie ważniejsze. Nadmierne zawyżenie wartości może spowodować, że system komputerowy nie będzie w stanie wybrać żądanej wartości, co z kolei prowadzi do znacznego spadku wydajności systemu automatycznego przetwarzania tekstu. Tak więc jedną z wad zasobu WordNet jako zasobu do automatycznego przetwarzania tekstu jest nadmierna liczba wartości opisanych dla niektórych słów (w WordNet 1.6: 53 wartości dla uruchomić 0,47 za grać i tak dalej.). Znaczenia te są trudne do rozróżnienia nawet dla osoby przy semantycznej adnotacji tekstów. Oczywiste jest, że system komputerowy również nie radzi sobie z wyborem odpowiedniej wartości. Dlatego różnych autorów oferta różne drogiłączenie wartości w celu poprawy jakości przetwarzania.

Jednocześnie działa czynnik przeciwny: jeśli wartości rzeczywiście różnią się zestawem powiązań słownictwa (w naszym przypadku powiązań tezaurusa) – nie da się ich skleić w jedną całość (jedno pojęcie) – to również doprowadzi do pogorszenie jakości automatycznego przetwarzania.

Rozważmy na przykład słowa szkoła I kościół, z których każdy może być traktowany jako organizacja i jako budynek.

Każdy organizacja szkolna posiada budynek (najczęściej jeden). Wszystkie części budynku szkoły (sale lekcyjne, tablice) są ze sobą powiązane szkoła jako organizacja. Nie ma określonych typów budynków szkolnych. Dlatego opis szkoły jako budynki niewłaściwe jest wyodrębnianie ich jako odrębnej koncepcji. Jednak opis takiego skumulowanego pojęcia SZKOŁA jako organizacja i jako budynek musi mieć specjalnie zaprojektowaną relację z koncepcją BUDYNEK. Przy opisywaniu takich relacji w Tezaurusie używany jest znak na relacji - modyfikator „A” („aspekt”, w automatycznej analizie, aby wziąć pod uwagę tę zależność, wymagane jest „potwierdzenie” innymi pojęciami).

SZKOŁA

WYŻSZY INSTYTUCJA EDUKACYJNA

POWYŻEJ BUDYNEK PUBLICZNY

Odpowiednie znaczenia słów kościół nie tak blisko. kościoły W jaki sposób organizacja może mieć dużą liczbę budynków kościelnych w różnych lokalizacjach, a także mieć wiele innych budynków. budowa kościołaściśle związane z religią i wyznaniem, ale mogą zmieniać przynależność kościoły organizacji. organizacja kościelna I budowa kościoła mają różne podgatunki. Dlatego KOŚCIÓŁ (ORGANIZACJA) I KOŚCIÓŁ (BUDYNK) są prezentowane w RuThes jako różne koncepcje.

Znaczna rozbieżność w relacjach tezaurusowych w ciekawy sposób koreluje ze zdolnością denotacji odpowiadających znaczeniom do istnienia w oderwaniu od siebie. W ten sposób budynek kościoła nie przestaje istnieć, a nawet jest nazywany kościołem, nawet gdy zmienia się jego przeznaczenie, w przeciwieństwie do budynku szkoły.

Cały czas prowadzony jest proces uzgadniania reprezentacji wartości w Tezaurusie, zaczynając od najczęstszych lematów. Dla każdego tokena częstotliwości sprawdzane jest, jak jego wartości są opisane w słownikach objaśniających, jakie wartości są używane w zbiorze i jak są prezentowane w Tezaurusie. W rezultacie powstała lista 10 000 leksemów, których niejednoznaczność wymaga jeszcze dodatkowej analizy lub dodatkowego opisu. Lista opiera się na 30 tysiącach najczęściej występujących lematów.

Należy zauważyć, że w tezaurusie problem niejednoznaczności został częściowo usunięty, ponieważ w tezaurusie można opisać relacje między różnymi znaczeniami wyrazu, a więc domyślnie można wybrać najwyższe pojęcie w hierarchii. Na pewno zostało to omówione w tekście. Na przykład słowo zdjęcie ma trzy znaczenia: fotografia jako pole działania, fotografia jako fotografia, fotografia jako studio fotograficzne:

FOTOGRAFIA(fotografowanie, fotografia, ..., zdjęcie )

CZĘŚĆ OBRAZ FOTOGRAFICZNY

(zdjęcie, fotografia, zdjęcie )

CZĘŚĆ STUDIO FOTOGRAFICZNE (zdjęcie ).

Tak więc, jeśli nie można było dowiedzieć się, jakie znaczenie ma to słowo zdjęcie, domyślnym ustawieniem jest fotografia (procesu, wyniku lub lokalizacji), która jest wystarczająca dla wielu aplikacji do automatycznego przetwarzania tekstu.

Zastosowanie tezaurusa RuThes

do automatycznego przetwarzania tekstu

Od 1995 r. społeczno-polityczna terminologia RuThes (tezaurus społeczno-polityczny) jest aktywnie i z powodzeniem wykorzystywana do różnych zastosowań automatycznego przetwarzania tekstu, takich jak automatyczne indeksowanie pojęciowe, automatyczna kategoryzacja przy użyciu kilku rubrykatorów, automatyczne adnotacje tekstów, w tym anglojęzycznych.. Tezaurus społeczno-polityczny (27 000 pojęć, 62 000 wpisów tekstowych) to podstawowe narzędzie wyszukiwania w systemie wyszukiwania UIS RUSSIA (www.cir.ru).

W procedurach automatycznego rubrykowania tekstów według złożonych nagłówków hierarchicznych wykorzystywane jest całe słownictwo tezaurusa ruskiego. W istniejącej technologii każda rubryka jest opisana jako boolowskie wyrażenie terminów, po czym oryginalna formuła jest rozwijana wzdłuż hierarchii tezaurusa. Wynikowe wyrażenie boolowskie może już zawierać setki i tysiące spójników i klauzul.

Dla przykładu podajmy fragment opisu za pomocą tezaurusów pojęć (i wyrażeń językowych po rozwinięciu formuły) rubryki „Obraz kobiety” rubrykatora SOFIST 2 stosowanego przez VTsIOM do klasyfikacji kwestionariuszy badań opinii publicznej:

(KOBIETA[N]

|| DZIEWCZYNA

|| KREWNY[L] (babcia, wnuczka, kuzynka,

córka, szwagierka, matka, macocha, synowa, pasierbica, ...))

(CECHA CHARAKTERU [L] (oszczędny, bez serca, zapominalski,

niepoważny, kpiący, nietolerancyjny, towarzyski, ...)

|| OBRAZ[E] (reprezentacja, wygląd, wygląd,

wygląd, kształt, obraz, wygląd)

|| PRZYJEMNE[L] (..., ciekawe, piękne, słodkie,

atrakcyjny, atrakcyjny, ujmujący, ...)

|| NIEPRZYJEMNY[L] (niesympatyczny, niegrzeczny, paskudny, ...)

|| WARTOŚĆ [L] (czcić, ubóstwiać, uwielbiać,

cześć, cześć, ...)

|| PREFERUJ[N]

Symbol „E” oznacza pełną ekspansję wzdłuż hierarchii tezaurusa, symbol „L” – zgodnie z pokrewieństwem gatunkowym („PONIŻEJ”), symbol „N” – nie rozszerzaj.

Prowadzone są badania nad rozwojem połączonej technologii automatycznej kategoryzacji tekstu, łączącej wiedzę z tezaurusa i procedury uczenia maszynowego.

Problematyka wykorzystania tezaurusa do rozszerzenia zapytania sformułowanego w języku naturalnym (obecnie do rozszerzenia zapytania terminologicznego w systemie wyszukiwania informacji UIS ROSJA wykorzystywana jest tylko społeczno-polityczna część tezaurusa), poszukiwania odpowiedzi na pytania w dużych zbiory tekstów.

7. Wnioski

W artykule przedstawiono podstawowe zasady tworzenia zasobów lingwistycznych do automatycznego przetwarzania dużych zbiorów tekstowych. Stworzony zasób lingwistyczny - RuThes Russian Thesaurus - jest przeznaczony do wykorzystania w takich aplikacjach automatycznego przetwarzania tekstu, jak indeksowanie pojęciowe dokumentów, automatyczne rubrykowanie przez złożone hierarchiczne nagłówki, automatyczne rozszerzanie zapytań w języku naturalnym.

Ta praca jest częściowo wspierana przez Rosyjską Fundację Humanistyki, grant nr 00-04-00272a.

Literatura

Lukashevich N.V., Saliy AD, Reprezentacja wiedzy w automatycznym przetwarzaniu tekstu //NTI, Ser.2. 1997. nr 3. S. 1-6.
Zhuravlev S.V., Yudina T.N., Information system ROSJA //NTI, Ser.2. 1995. Nr 3. S. 18‑20.
Winston M., Chaffin R., Herman D., Taksonomia relacji część-całość // Kognitywistyka. 1987. nie. 11. s. 417-444.
Priss UE, Formalizacja WordNet metodami relacyjnej analizy koncepcji // WordNet. Elektroniczna baza danych leksykalnych / wyd. przez C. Fellbauma. Cambridge, Massachusetts, Londyn, Anglia: The MIT Press 1998. P. 179-196.
Guarino N., Welty C., Formalna ontologia właściwości // Obrady warsztatów ECAI-00 na temat zastosowań ontologii i metod rozwiązywania problemów. Berlin: 2000. s. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Niektóre ontologiczne zasady projektowania zasobów leksykalnych wyższego poziomu // First Int. konf. w sprawie zasobów językowych i Ocena. 1998.

LukashevichN.V., Dobrov B.V., Modyfikatory relacji pojęciowych w tezaurusie do automatycznego indeksowania // NTI, Ser.2. 2000, nr 4, s. 21-28.
Duży słownik wyjaśniający języka rosyjskiego / wyd. SA Kuzniecowa. Petersburg: Norint, 1998.
Ozhegov S.I., Shvedova N.Yu., Słownik Język rosyjski - 3. wydanie. M.: Az, 1996.
Apresyan Yu.D., Wybrane prace, tom I. Semantyka leksykalna: wyd. M.: Szkoła „Języki kultury rosyjskiej”, wyd. Firma „Literatura Wschodnia” RAS, 1995.
G. Miller, R. Beckwith, C. Fellbaum, D. Gross i K. Miller, Pięć artykułów na temat WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
Chugur, J. Gonzalo i F. Verdjeo, Sense rozróżnienia w aplikacjach NLP // Proceedings of „OntoLex-2000”: ontologie i leksykalne bazy wiedzy. Sofia: OntoTextLab. 2000.
Loukachevitch N., Dobrov B., Strukturalne podsumowanie tematyczne oparte na tezaurusie w wielojęzycznych systemach informacyjnych // Przegląd tłumaczenia maszynowego. 2000 Nie. 11. s. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Tezaurus języka rosyjskiego do przetwarzania języka naturalnego

dużych zbiorów tekstów

Natalia V. Loukachevitch, Boris V. Dobrov

słowa kluczowe: tezaurus, przetwarzanie języka naturalnego, wyszukiwanie informacji

W naszej prezentacji rozważamy główne zasady opracowywania zasobów leksykalnych do automatycznego przetwarzania dużych zbiorów tekstów i opisujemy strukturę Tezaurusa języka rosyjskiego, który jest rozwijany od 1997 roku specjalnie jako narzędzie do automatycznego przetwarzania tekstu. Tezaurus to teraz hierarchiczna sieć 42 tysięcy pojęć. Opisujemy obecny etap opracowywania Tezaurusa w porównaniu ze 100 000 najczęstszych lematów zbioru tekstów Uniwersyteckiego Systemu Informacyjnego ROSJA (www.cir.ru), obejmującego 400 tysięcy dokumentów. Rozważamy również wykorzystanie tezaurusa w różnych zastosowaniach automatycznego przetwarzania tekstu.

Jedno z nowych podstawowych pojęć, które wyłoniło się w wyniku rozwoju maszynowych metod przetwarzania informacji, w szczególności przy tłumaczeniu z jednego języka na inny, wyszukiwaniu informacji naukowo-technicznych oraz tworzeniu modelu informacji przedsiębiorstw w zautomatyzowane systemy sterowania, była koncepcja tezaurusa systemu informatycznego. Termin „tezaurus” implikuje zasób wiedzy o świecie zewnętrznym – jest to tzw. tezaurus świata T. Wszystkie pojęcia świata zewnętrznego, wyrażone za pomocą języka naturalnego, stanowią tezaurus, z którego można wyróżnione przez podział hierarchiczny, uwzględniający podporządkowanie poszczególnych pojęć lub przez uwypuklenie części tezaurusu ogólnego świata. Tezaurus w systemach wyszukiwania informacji odgrywa ważną rolę w wyszukiwaniu wymagany dokument według słów kluczowych. Dlatego budowa tezaurusa jest zadaniem złożonym i odpowiedzialnym. Ale to zadanie można również zautomatyzować.

Klasyfikacja w swojej najbardziej ogólnej definicji to podział i uporządkowanie zbiorów. Nazywa się to podziałem obiektów na klasy na podstawie wspólna cecha, nieodłącznie związane z tymi zjawiskami lub przedmiotami i odróżniające je od przedmiotów i zjawisk składających się na inne klasy. W razie potrzeby każdą klasę można podzielić na podklasy. Rubrykator to szczególny rodzaj klasyfikacji. Dlatego opierają się na Postanowienia ogólne:
 podstawy naukowe do budowy klasyfikacji;
 odbicie nowoczesny poziom rozwój nauki;
 dostępność systemu powiązań i referencji oraz aparatu referencyjnego (RSA).

Rubrykator jest jednak klasyfikacją pragmatyczną, stworzoną na podstawie przepływów informacji i potrzeb specjalistów. Na tym polega różnica w stosunku do klasyfikacji a priori, takich jak UDC i IPC.

Główne funkcje klasyfikacji, aw szczególności rubrykatora, są następujące:
 zróżnicowanie tematyczne podsystemów informacyjnych;
 tworzenie tablic informacyjnych według dowolnych znaków;
 usystematyzowanie materiałów informacyjnych i publikacji;
 wyszukiwanie bieżące i retrospektywne;
 indeksowanie dokumentów i zapytań;
 połączenie z innymi systemami klasyfikacyjnymi;
- funkcje normatywne.

Buduje się je dzieląc pojęcia – obiekty klasyfikacji oparte na ustalone linki między cechami tych przedmiotów zgodnie z pewnymi zasadami logicznymi. Atrybut, według którego dokonywana jest klasyfikacja, nazywany jest podstawą podziału klasyfikacji. Klasyfikacje szeroko wykorzystują metody dedukcji i indukcji do ustalania grup, klas i identyfikowania relacji między nimi. Jest to typowe dla klasyfikacji hierarchicznych. Głębokość klasyfikacji (liczba poziomów hierarchii) może się różnić w zależności od celu. Jednym z szeroko stosowanych rubrykatorów jest państwowy rubrykator informacji naukowo-technicznej (SRSTI).

Rubrykator SRSTI został zaprojektowany w taki sposób, aby można go było stosować łącznie z innymi klasyfikacjami, takimi jak UDC i IPC. Uniwersalna klasyfikacja dziesiętna (UDC) istnieje od ponad 70 lat, ale nadal nie ma sobie równych pod względem szerokości dystrybucji i jest używana w wielu krajach na całym świecie. UDC obejmuje cały wszechświat wiedzy i jest z powodzeniem wykorzystywany do systematyzacji i późniejszego wyszukiwania szerokiej gamy źródeł informacji.

Oprócz UDC w praktyce szeroko stosowana jest klasyfikacja biblioteczno-bibliograficzna (LBC). LBC jest zbudowany na zasadach logicznego podporządkowania i reprezentuje zastosowaną klasyfikację typów.
W Federacji Rosyjskiej do klasyfikacji wynalazków i usystematyzowania krajowych zbiorów opisów wynalazków stosuje się międzynarodową klasyfikację patentową - dość złożoną, wieloaspektową klasyfikację zbudowaną zgodnie z zasadą funkcjonalno-branżową. Te same koncepcje techniczne mogą znajdować się w IPC lub klasach specjalnych (zgodnie z branżą) lub klasach funkcjonalnych (zgodnie z zasadą działania). Sektorowa zasada podziału pojęć polega na klasyfikacji obiektów w zależności od zastosowania w określonej historycznej gałęzi techniki lub technologii.

Charakterystykę porównawczą rubrykatorów SRNTI, UDC, LBC i IPC przedstawiono w tabeli 1.

Tabela 1
Charakterystyka rubrykatora SRNTI, UDC, LBC i IPC

Nazwa	Struktura	Zasada lokalizacji podziałów	Schemat partycji
	Hierarchiczny	Przemysł	Od ogółu do szczegółu
	Hierarchiczny	Tematyczny
	Hierarchiczny	Przemysł funkcjonalny	Od ogółu do szczegółu
BBC za biblioteki naukowe	Hierarchiczny	Przemysł	Od ogółu do szczegółu, według rodzaju

W ten sposób możemy wyróżnić główne cechy wyróżniające rubrykatory i klasyfikatory:
 charakteryzują się aplikacyjnym charakterem i orientacją sektorową;
- Ten systemy otwarte, w zależności od rozwoju nauki i techniki, potrzeb i wymagań specjalistów;
 układy nieorganiczne, ponieważ obiekty powstają i rozwijają się w nich środowisko i z niej wejdź do nich. Elementy mogą istnieć niezależnie poza systemem. Ta cecha jest ściśle powiązana z drugą cechą;
 minimalnym elementem jest koncepcja związana z otoczeniem. Pojęcie reprezentuje system definicji;
 między pojęciami występują powiązania zarówno wzdłuż „pionu” (rodzaj-gatunek, całość-część), jak i wzdłuż „poziomego” (widok-gatunek, część-część), co wskazuje na hierarchię systemów.

W konsekwencji struktura i zasady organizacji klasyfikacji i rubrykatorów pozwalają zautomatyzować proces konstruowania tezaurusów obszaru tematycznego metodą dedukcyjną. Algorytm konstruowania tezaurusa metodą dedukcji pokazano na ryc. 1.

Podstawą tworzenia tezaurusa jest wyszukiwany obraz dokumentu, zadania lub wniosku o wyszukiwanie informacji, wypełniany przez operatora. Dlatego pierwszym krokiem jest zbadanie i analiza aplikacji. W pierwszym etapie operator wskazuje interesujący nas temat lub problem, możliwe słowa kluczowe oraz ich synonimy. W rezultacie otrzymujemy powierzchowne wyobrażenie o obszarze tematycznym.

Ryż. 1. Algorytm konstruowania tezaurusa metodą dedukcji

Ponadto tezaurus słów kluczowych CS jest tworzony metodą dedukcyjną, która wymaga:
 macierz CS, którą sam ustawia użytkownik, oznaczona na rysunku 1 jako MP;
 tablica CS wyodrębniona z zadania wyszukiwania odpowiednio MZ.

Jednak dla pełniejszego i dogłębnego zrozumienia obszaru tematycznego korzystamy z istniejących rubrykatorów i schematów klasyfikacji (GRNTI, UDC, LBC, IPC). Aby zmaksymalizować pokrycie obszaru tematycznego, konieczne jest przejrzenie wszystkich dostępnych. Tablica rubrykatorów reprezentuje MR. Algorytm wyszukiwania dedukcji składa się z dwóch kroków:
1. Znajdowanie pojęć ogólnych (ryc. 2);
2. Znajdowanie określonych terminów w obrębie pojęć ogólnych (ryc. 3).

Ryż. 2. Przetwarzanie ogólnej koncepcji

Wczytujemy pierwszy rubrykator z tablicy i organizujemy cykl sprawdzania obecności w rubrykach CS wprowadzonego przez użytkownika. Każdy CS jest przeszukiwany w rubryce i porównywany z ogólnym pojęciem lub "gniazdem", a następnie sprawdzany jest warunek - czy istnieje link do konkretnych terminów. Jeśli istnieje takie odniesienie, wówczas CS jest porównywany z określonymi terminami. Jeśli link nie zostanie znaleziony, przejdź do następnej ogólnej koncepcji. Przeglądając wprowadzone przez operatora słowa kluczowe CS-ów, przechodzimy do tablicy CS-ów wyodrębnionych z zadania. Procedura weryfikacji jest podobna – szukamy CS odpowiadających ogólnym pojęciom, a następnie ich linków do konkretnych terminów.

Ryż. 3. Przetwarzanie terminów ogólnych

Należy zauważyć, że w ramach każdego pojęcia ogólnego ważne jest przejrzenie wszystkich dostępnych terminów ogólnych w celu uzyskania maksymalnego zrozumienia obszaru problemu. Wynikiem tych działań jest utworzenie tablicy słów kluczowych CS, która jest kompletnym tezaurusem odpowiadającym zadaniu wyszukiwania informacji lub wyszukiwanemu obrazowi dokumentu.

Na podstawie pełnego zestawu obrazów wyszukiwania dokumentów (oznaczmy to) możliwe jest utworzenie tezaurusów branżowych i pojedynczego klasyfikatora bibliotecznego. Oczywiście sam kompletny zbiór  reprezentuje najprostszy tezaurus.

Jednak stosując kryterium wyboru
, (1)
możemy budować tezaurusy branżowe. W tym przypadku zbiór wszystkich tezaurusów branżowych tworzy kompletny tezaurus
, (2)
sekcje, które mogą mieć strukturę hierarchiczną zgodnie z wymaganiami GOST dla głównych klasyfikatorów (GRNTI, UDC, LBC, IPC) lub dla wewnętrznego ujednoliconego klasyfikatora.

Automatyzacja procesu budowy tezaurusa i klasyfikacji pozwala maksymalnie ułatwić pracę operatora pracującego z rozproszonymi zasoby informacji.

Poza budowaniem tezaurusa na podstawie wyszukiwanego obrazu dokumentu, proponowane podejście może być wykorzystane do automatycznego streszczania dokumentów i grupowania tekstu.

Abstrakt dokumentów to jedno z zadań mających na celu dostarczenie specjalistom-ekspertom rzetelnych informacji niezbędnych do podjęcia zarządczej decyzji o wartości dokumentów otrzymanych z Internetu. Abstrahowanie to proces przekształcania informacji dokumentalnych, którego kulminacją jest kompilacja streszczenia, a streszczenie jest semantycznie adekwatną prezentacją głównej treści dokumentu pierwotnego, wyróżniającą się ekonomicznym projektem znaku, stałością cech językowych i strukturalnych i mającą na celu wykonanie różne funkcje informacyjne i komunikacyjne w systemie komunikacji naukowej. Algorytm odwoływania się do dokumentu przedstawiono na rys. 4.

Ryż. 4. Algorytm podsumowywania dokumentów

Ogólnie algorytm obejmuje następujące główne kroki.
1. Zdania są wydobywane z dokumentu pobranego z Internetu i znajdującego się w hurtowni danych poprzez wyodrębnianie znaków interpunkcyjnych i przechowywanie ich w tablicy.
2. Każde zdanie dzielimy na słowa wybierając separatory i zapisujemy je w tablicy, która dla każdego zdania jest inna.
3. Dla każdego zdania, dla każdego słowa tego zdania, liczymy liczbę słów w innych zdaniach (przed i po). Suma powtórzeń każdego słowa (przed i po) będzie stanowić wagę tego zdania.
4. Podaną liczbę zdań z maksymalnym współczynnikiem wagi i zaznaczyć w streszczeniu w kolejności pojawiania się w tekście.

Zaproponowano model konstrukcji tezaurusa i katalogów tematycznych systemu informacyjnego podstawy teoretyczne zautomatyzować wyszukiwanie semantyczne i umożliwia specjalistom-ekspertom nie tylko przeprowadzenie prac poszukiwawczych, ale także w trybie automatycznym wyabstrahowanie dokumentów uzyskanych w wyniku wyszukiwania w rozproszonych systemy informacyjne Internet.

Literatura:
1. Barushkova R.I. Schematy klasyfikacji informacji naukowych i technicznych. proc. dodatek. - M., 1981. - lata 80.
2. Barushkova R.I. Rubrykator jako schemat klasyfikacji informacji naukowych i technicznych. zestaw narzędzi. - M., 1980r. - 38s.
3. Trusov AV, Babarykin EP Ocena granic obszaru tematycznego żądania informacji w rozproszonych systemach informacyjnych. Materiały ogólnorosyjskiej (z udziałem międzynarodowym) konferencji „Informacje, innowacje, inwestycje”, 24-25 listopada 2004 r., Perm / Perm CSTI. - Perm, 2004. - S.76-79.
4. Yatsko V.A. Logiczno-językowe problemy analizy i abstrakcji tekstu naukowego. - Abakan: wydawnictwo państwa Chakas. un-ta, 1996. - 128 s.