topicModelingTickets/aufgaben.txt

46 lines
952 B
Plaintext

akronyme & abk. drin lassen
bigramme nicht auf pre, sondern auf cleaned
zahlen drin lassen, bigramme: NUM wort kombis
levenstein/hamming distanz statt autokorrekt (wenn kleiner als x dann ists das gleiche wort)
ticket-subj mit einbeziehen
# lizenzen mit in whitelist
relevanz bestimmter wörter ???
toics nach lda von itmc bestimmen lassen
baumhieracrchie der categrory einbezihen (ggf. datensatz verbessern)
aktuelle technische bgriffe autoimatisch in whitelist aufnehmen
kategroien verkleinern: onthologien/ornamigram
### Getan:
tagging vor normalisierung
groß/klein rumexperimetieren: # kritisch. ändert pos-tagging. laut termliste wird aber drauf geachtet idee anhand liste o.ä. richtige großschreibung fehler --> geht nicht, in liste auch nicht-immer-nomen
GGrußformeln asm Anfang raus
whitelist (inkl. kb-keywords)
hautpverb (root) drin lassen
bsp: "gesperrt" adj und verben drin lassen?
Footer/Header raus