Entiteettejä nerraamassa

Luonnollisten entiteettien löytäminen tekstimassasta helpottaa hakuja ja auttaa luokittelussa ja asiasanoituksessa.

 

Lyhyitä testauksia luonnollisten entiteettien löytämiseksi ja perusmuotoistamiseksi.

Finnish NER

https://turkunlp.org/fin-ner.html
DEMO: http://86.50.253.19:8001/tagdemo/

FiNER

https://github.com/Traubert/FiNer-rules/blob/master/finer-readme.md
DEMO: http://195.148.30.97/cgi-bin/fintag.py

LAS (perusmuotoistaminen)
https://joss.theoj.org/papers/10.21105/joss.00035
https://github.com/hsci-r/las
DEMO: http://demo.seco.tkk.fi/las/#lemmatization


Hyvää lukemista:
https://arxiv.org/pdf/1908.04212.pdf


https://yle.fi/uutiset/3-11212596

teksti:
Lääkäri Joseph Varon lohdutti potilasta united memorial medical centerin koronayksikössä Houstonissa, Teksasissa 25. marraskuuta. Eilen torstaina Yhdysvalloissa kuoli koronan seurauksena 2 858 ihmistä, eniten koko epidemian aikana.

Entiteettien tunnistus (keras-bert-ner):
Lääkäri O Joseph B-PER Varon I-PER lohdutti O potilasta O United B-ORG Memorial I-ORG Medical I-ORG Centerin I-ORG koronayksikössä O Houstonissa B-LOC , O Teksasissa B-LOC 25 B-DATE . I-DATE marraskuuta I-DATE . O Eilen O torstaina O Yhdysvalloissa B-LOC kuoli O koronan O seurauksena O 2 O 858 O ihmistä O , O eniten O koko O epidemian O aikana O . O

Entiteettien tunnistus(FiNER)

Surface form Lemma Morphology Modern named entity
Lääkäri lääkäri [POS=NOUN][NUM=SG][CASE=NOM] B-PER
Joseph joseph [POS=NOUN][PROPER=PROPER][PROP=FIRST][SEM=MALE][NUM=SG][CASE=NOM] B-PER
Varon varo [POS=NOUN][PROPER=PROPER][PROP=GEO][NUM=SG][CASE=GEN] I-PER
lohdutti lohduttaa [POS=VERB][VOICE=ACT][MOOD=INDV][TENSE=PAST][PERS=SG3]
potilasta potilas [POS=NOUN][NUM=SG][CASE=PAR]
United united [POS=NOUN][PROPER=PROPER][PROP=ORG][NUM=SG][CASE=NOM] B-LOC
Memorial memorial [POS=NOUN][PROPER=PROPER][PROP=ORG][NUM=SG][CASE=NOM] I-LOC
Medical medical [POS=NOUN][PROPER=PROPER][NUM=SG][CASE=NOM] I-LOC
Centerin center [POS=NOUN][NUM=SG][CASE=GEN] I-LOC
koronayksikössä koronayksikkö [POS=NOUN][NUM=SG][CASE=INE]
Houstonissa houston [POS=NOUN][PROPER=PROPER][PROP=GEO][NUM=SG][CASE=INE] B-LOC
, , [POS=PUNCTUATION]
Teksasissa teksas [POS=NOUN][PROPER=PROPER][PROP=GEO][NUM=SG][CASE=INE] B-LOC
25 25 [POS=NUMERAL][SUBCAT=ORD] B-MISC
marraskuuta marraskuu [POS=NOUN][NUM=SG][CASE=PAR] I-MISC
. . [POS=PUNCTUATION]

Eilen eilen [POS=ADVERB]
torstaina torstai [POS=NOUN][NUM=SG][CASE=ESS]
Yhdysvalloissa yhdysvallat [POS=NOUN][PROPER=PROPER][NUM=PL][CASE=INE] B-LOC
kuoli kuolla [POS=VERB][VOICE=ACT][MOOD=INDV][TENSE=PAST][PERS=SG3]
koronan korona [POS=NOUN][NUM=SG][CASE=GEN]
seurauksena seurauksena [POS=ADPOSITION]
2 858 2 858 [POS=NUMERAL][SUBCAT=CARD]
ihmistä ihminen [POS=NOUN][NUM=SG][CASE=PAR]
, , [POS=PUNCTUATION]
eniten eniten [POS=ADVERB][CMP=SUP]
koko koko [POS=ADJECTIVE]
epidemian epidemia [POS=NOUN][NUM=SG][CASE=GEN]
aikana aikana [POS=ADPOSITION]
. . [POS=PUNCTUATION]

 

perusmuotoistaminen (ws-las):
Joseph B-PER Varo I-PER
United B-ORG Memorial I-ORG Medical I-ORG center I-ORG
Houston B-LOC
Teksas B-LOC
25 B-DATE . I-DATE marraskuu I-DATE
Yhdysvallat B-LOC


https://jyx.jyu.fi/handle/123456789/40151
Mikkelin paikannimet -gradu:

teksti:
Pyrin selvittämään myös, miten vanha paikannimistö on säilynyt nykypäivän nimistössä. Mikkelin makrotoponyymit ovat säilyneet hyvin 1700-luvulta saakka. Tuon ajan kartoissa nä-kyvistä luontonimistä on säilynyt 60 %. Naisvuori, Pankalampija Urpolanlampiovat edelleen osa nimistöä. Kadonneita nimiä on 30 %. Katoamisen syyt liittyvät tiiviisti kaupungin laajene-miseen ja rakentamiseen. Vaihtuneita nimiä on 10 %. Esimerkiksi Paukkulanlammennimi on vaihtunut Ratinlammeksi.Jaottelen nimet karkeasti uusiin ja vanhoihin nimiin. Uusia nimiä ovat sellaiset, joiden synnyn perimätietomuistaa. Näitä on aineistossani 37. Uusia nimiä ovat esimerkiksi Kunnan-mäki, Lahvikallioja Iitaniemi

Entiteettien tunnistus (keras-bert-ner):
Mikkelin B-LOC
Naisvuori B-LOC
Pankalampija B-LOC
Urpolanlampi B-LOC
Paukkulanlammennimi B-LOC
Ratinlammeksi B-LOC
Kunnan B-LOC - I-LOC mäki I-LOC
Lahvikallioja B-LOC
Iitaniemi B-LOC

paikannimien perusmuotoistaminen (ws-las):
Mikkeli
Naisvuori
Pankalampija
Urpolanlampi
Paukkulanlammennimi
Ratinlampi
kunta-mäki (HUOM. alunperin "Kunnan-mäki" tekstissä)
Lahvikallia


Tarkoituksellisen vaikea teksti:
Nalle Puhkaan ei ole säästynyt Sokoksen alennusmyynniltä Keravan aikuisopiston tekemän selvityksen mukaan.

NER:
Nalle B-PER Puhkaan I-PER ei O ole O säästynyt O Sokoksen B-ORG alennusmyynniltä O Keravan B-ORG aikuisopiston I-ORG tekemän O selvityksen O mukaan O . O

perusmuotoistettu:
Nalle Puhka ei olla säästyä Sokos alennusmyynti Kerava aikuinenopisto tehdä selvitys mukaan


Finer pärjää PALJON paremmin:
nalle puh ei olla säästyä sokos alennusmyynti kerava aikuisopisto tehdä selvitys mukaan

Surface form Lemma Morphology Modern named entity Extended modern named entity Historical Named Entity
Nalle nalle [POS=NOUN][PROPER=PROPER][NUM=SG][CASE=NOM] B-PER B-EnamexPrsAnm
Puhkaan puh [POS=NOUN][PROPER=PROPER][PROP=LAST][NUM=SG][CASE=NOM][CLIT=KAAN] I-PER I-EnamexPrsAnm
ei ei [POS=VERB][SUBCAT=NEG][VOICE=ACT][PERS=SG3]
ole olla [POS=VERB][VOICE=ACT][MOOD=INDV][TENSE=PRESENT][NEG=CON]
säästynyt säästyä [POS=VERB][VOICE=ACT][PCP=NUT][NUM=SG][CASE=NOM]
Sokoksen sokos [POS=NOUN][PROPER=PROPER][PROP=MISC][NUM=SG][CASE=GEN] B-ORG B-EnamexOrgCrp
alennusmyynniltä alennusmyynti [POS=NOUN][NUM=SG][CASE=ABL]
Keravan kerava [POS=NOUN][PROPER=PROPER][PROP=GEO][NUM=SG][CASE=GEN] B-ORG B-EnamexOrgEdu
aikuisopiston aikuisopisto [POS=NOUN][NUM=SG][CASE=GEN] I-ORG I-EnamexOrgEdu
tekemän tehdä [POS=VERB][PCP=AGENT][NUM=SG][CASE=GEN]
selvityksen selvitys [POS=NOUN][NUM=SG][CASE=GEN]
mukaan mukaan [POS=ADPOSITION]
. . [POS=PUNCTUATION]