46 lines
952 B
Plaintext
46 lines
952 B
Plaintext
|
|
akronyme & abk. drin lassen
|
|
|
|
bigramme nicht auf pre, sondern auf cleaned
|
|
|
|
zahlen drin lassen, bigramme: NUM wort kombis
|
|
|
|
levenstein/hamming distanz statt autokorrekt (wenn kleiner als x dann ists das gleiche wort)
|
|
|
|
ticket-subj mit einbeziehen
|
|
|
|
# lizenzen mit in whitelist
|
|
|
|
|
|
relevanz bestimmter wörter ???
|
|
toics nach lda von itmc bestimmen lassen
|
|
baumhieracrchie der categrory einbezihen (ggf. datensatz verbessern)
|
|
aktuelle technische bgriffe autoimatisch in whitelist aufnehmen
|
|
kategroien verkleinern: onthologien/ornamigram
|
|
|
|
|
|
|
|
|
|
### Getan:
|
|
tagging vor normalisierung
|
|
groß/klein rumexperimetieren: # kritisch. ändert pos-tagging. laut termliste wird aber drauf geachtet idee anhand liste o.ä. richtige großschreibung fehler --> geht nicht, in liste auch nicht-immer-nomen
|
|
|
|
|
|
GGrußformeln asm Anfang raus
|
|
|
|
whitelist (inkl. kb-keywords)
|
|
|
|
hautpverb (root) drin lassen
|
|
|
|
bsp: "gesperrt" adj und verben drin lassen?
|
|
|
|
|
|
Footer/Header raus
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|