GGrußformeln asm Anfang raus whitelist (inkl. kb-keywords) akronyme & abk. drin lassen tagging vor normalisierung groß/klein rumexperimetieren bigramme nicht auf normtext relevanz bestimmter wörter zahlen drin lassen ticket-subj mit einbeziehen topics nach lda von itmc bestimmen lassen baumhieracrchie der categrory einbezihen (ggf. datensatz verbessern) aktuelle technische bgriffe autoimatisch in whitelist aufnehmen levenstein/hamming distanz statt autokorrekt (wenn kleiner als x dann ists das gleiche wort) TODO mittwoch: volltestindizierung (Termhäufigkeiten, bei zahlen vorgänger/nachfolger als ein term) hautpverb (root) drin lassen kategroien verkleinern: onthologien/ornamigram Footer/Header raus