32 lines
727 B
Plaintext
32 lines
727 B
Plaintext
|
GGrußformeln asm Anfang raus
|
||
|
|
||
|
whitelist (inkl. kb-keywords)
|
||
|
akronyme & abk. drin lassen
|
||
|
|
||
|
tagging vor normalisierung
|
||
|
|
||
|
groß/klein rumexperimetieren
|
||
|
|
||
|
bigramme nicht auf normtext
|
||
|
|
||
|
relevanz bestimmter wörter
|
||
|
|
||
|
zahlen drin lassen
|
||
|
|
||
|
ticket-subj mit einbeziehen
|
||
|
|
||
|
topics nach lda von itmc bestimmen lassen
|
||
|
|
||
|
baumhieracrchie der categrory einbezihen (ggf. datensatz verbessern)
|
||
|
|
||
|
aktuelle technische bgriffe autoimatisch in whitelist aufnehmen
|
||
|
|
||
|
levenstein/hamming distanz statt autokorrekt (wenn kleiner als x dann ists das gleiche wort)
|
||
|
|
||
|
TODO mittwoch: volltestindizierung (Termhäufigkeiten, bei zahlen vorgänger/nachfolger als ein term)
|
||
|
|
||
|
hautpverb (root) drin lassen
|
||
|
|
||
|
kategroien verkleinern: onthologien/ornamigram
|
||
|
|
||
|
Footer/Header raus
|