topicModelingTickets/aufgaben.txt

32 lines
727 B
Plaintext
Raw Normal View History

2017-11-29 16:31:30 +01:00
GGrußformeln asm Anfang raus
whitelist (inkl. kb-keywords)
akronyme & abk. drin lassen
tagging vor normalisierung
groß/klein rumexperimetieren
bigramme nicht auf normtext
relevanz bestimmter wörter
zahlen drin lassen
ticket-subj mit einbeziehen
topics nach lda von itmc bestimmen lassen
baumhieracrchie der categrory einbezihen (ggf. datensatz verbessern)
aktuelle technische bgriffe autoimatisch in whitelist aufnehmen
levenstein/hamming distanz statt autokorrekt (wenn kleiner als x dann ists das gleiche wort)
TODO mittwoch: volltestindizierung (Termhäufigkeiten, bei zahlen vorgänger/nachfolger als ein term)
hautpverb (root) drin lassen
kategroien verkleinern: onthologien/ornamigram
Footer/Header raus