CST logo Center for Sprogteknologi
Centre for Language Technology

This page in english

CST's online-værktøjer

Her kan du behandle tekst med en kombination af CST's værktøjer.
Alle værktøjer understøtter dansk og nogle også engelsk.

Sprog: dansk engelsk  Bonuskode:

Skriv et par linjer ...

... eller specificer en tekst- eller RTF-fil.

Tip

Peg på de fede ord for at få forklaring.

Sprog

Navnegenkenderen og navneordsfrasegenkenderen understøtter kun dansk.

De danske bøjningsregler til lemmatiseren er baseret på STO, en fuldformsordbog med ca. 594.000 indgange, mens den tilsvarende engelske ordbog pt. indeholder ca. 87.000 indgange (CELEX).

Flere optioner

Du kan vælge flere optioner til fx lemmatiseren.

Færre optioner

For at skabe bedre overblik kan du få vist færre optioner - kun de mest anvendte.

Bonuskode

Bonuskoden giver mulighed for at analysere større tekstmængder.
Få en aftale med os hvis du er interesseret.

Henvendelse til cpovlsen @ cst . dk.

Tokeniser

Adskiller enhederne (tokens) i teksten fra hinanden. Fx
  Ups,Ups ,

Nogle flerordsudtryk bindes derimod sammen til enheder. Fx
  for længstfor_længst

Programmet deler desuden teksten op i sætninger.

POS-tagger

(Part-Of-Speech Tagger)

Bestemmer ordklasse og morfologiske træk for alle tokens i teksten.

Lemmatiser

Danner grundformen af et givet ord.
Fx 'gik''gå', 'husets''hus'.

I demoen står valget mellem løbende tekst (med eller uden ordenes bøjede form) eller en alfabetisk liste (alle bøjede former pr. lemma eller omvendt).

Gentagelsestjekker

Bruger en probabilistisk model til at finde og vægte gentagne sekvenser af ord (egentlig: tokens) i teksten.

Teksten skal have mindst to sætninger.

Lemmatiseringsvalg

Løbende tekst:
  bøjet form + lemma
  kun lemma
Sorteret liste:
  lemma + bøjede former
  bøjet form + lemmaer


Vis kun de ord som ikke fundet i ordbogen

Ordbogen

Den danske ordbog er STO, den engelske stammer fra CELEX.

Ordbogen

Den danske ordbog er STO, den engelske stammer fra CELEX.

Ordbog

Ordfrekvenserne i ordbogen kan bruges til at fjerne flertydigheder. Desuden kan ordbogen håndtere små fejl i klassetildelingen.

Vis om ordet er fundet

Ord som ikke er i ordbogen, markeres det med '-'.
Ord som kan tilhøre flere end ét lemma, markeres det med '+'.
De øvrige ord markeres ikke.

Flertydigheder

Nogle ord kan strængt taget ikke entydigt lemmatiseres på basis af ordform (og ordklasse) alene. Lemmatiserens heuristik kan dog altid "løse" problemet.

Løbende tekst

Alle ord i samme rækkefølge som i teksten.

Bøjet form + lemma

Viser både ordenes bøjede form og deres lemmaer.

Kun lemma

Viser kun ordenes lemmaer.

Sorteret liste

Alfabetisk sorteret liste uden dubletter.

Lemma + bøjede former

Liste sorteret på lemma. For hvert lemma gives en liste med de fundne bøjede former.

Bøjet form + lemmaer

Liste sorteret på bøjede former. For hver bøjede form gives lemmaet/lemmaerne.

Find termkandidater i en tekstmængde.

Teksterne tokeniseres, evt. navnegenkendes, POS-tagges og lemmatiseres. Lemmaerne udskrives som en liste. Det markeres om ordene findes i ordbogen. Nu kan fx substantiver der er markeret med '-' udtrækkes.

Kandidater til flerordstermer kan søges med gentagelsestjekkeren.

Anonymiser en tekst

Teksten tokeniseres og navnegenkendes.

Personnavnene, som nu er markeret med "*PERSONNAMEX"
(fx "Ole=P.=Dam*PERSONNAMEX"), kan nu erstattes med fx "XXX".

Vælg et eller flere værktøjer:

tokeniser
navnegenkender
POS-tagger
lemmatiser
NP-genkender
gentagelsestjekker


Anvendelsesmuligheder

Find termkandidater i teksten.
Find de indholdstunge elementer i en tekst.
Anonymiser en tekst.

Links

Hvis du vil vide mere om de enkelte værktøjer, kan du besøge disse sider:


Nogle projekter med CST-deltagelse viser også demoer.


Nogle af værktøjerne kan downloades.


Lemmatiserens ordlister stammer fra STO (dansk) og fra CELEX (engelsk).


Læs mere om STO.


Blå linie
Emil Holms Kanal 2, building 22, 3, DK-2300 Copenhagen S
Valid XHTML 1.0!