32 lines
727 B
Plaintext
32 lines
727 B
Plaintext
GGrußformeln asm Anfang raus
|
|
|
|
whitelist (inkl. kb-keywords)
|
|
akronyme & abk. drin lassen
|
|
|
|
tagging vor normalisierung
|
|
|
|
groß/klein rumexperimetieren
|
|
|
|
bigramme nicht auf normtext
|
|
|
|
relevanz bestimmter wörter
|
|
|
|
zahlen drin lassen
|
|
|
|
ticket-subj mit einbeziehen
|
|
|
|
topics nach lda von itmc bestimmen lassen
|
|
|
|
baumhieracrchie der categrory einbezihen (ggf. datensatz verbessern)
|
|
|
|
aktuelle technische bgriffe autoimatisch in whitelist aufnehmen
|
|
|
|
levenstein/hamming distanz statt autokorrekt (wenn kleiner als x dann ists das gleiche wort)
|
|
|
|
TODO mittwoch: volltestindizierung (Termhäufigkeiten, bei zahlen vorgänger/nachfolger als ein term)
|
|
|
|
hautpverb (root) drin lassen
|
|
|
|
kategroien verkleinern: onthologien/ornamigram
|
|
|
|
Footer/Header raus |