akronyme & abk. drin lassen bigramme nicht auf pre, sondern auf cleaned zahlen drin lassen, bigramme: NUM wort kombis levenstein/hamming distanz statt autokorrekt (wenn kleiner als x dann ists das gleiche wort) ticket-subj mit einbeziehen # lizenzen mit in whitelist relevanz bestimmter wörter ??? toics nach lda von itmc bestimmen lassen baumhieracrchie der categrory einbezihen (ggf. datensatz verbessern) aktuelle technische bgriffe autoimatisch in whitelist aufnehmen kategroien verkleinern: onthologien/ornamigram ### Getan: tagging vor normalisierung groß/klein rumexperimetieren: # kritisch. ändert pos-tagging. laut termliste wird aber drauf geachtet idee anhand liste o.ä. richtige großschreibung fehler --> geht nicht, in liste auch nicht-immer-nomen GGrußformeln asm Anfang raus whitelist (inkl. kb-keywords) hautpverb (root) drin lassen bsp: "gesperrt" adj und verben drin lassen? Footer/Header raus