# -*- coding: utf-8 -*- import matplotlib matplotlib.use('Agg') import time import init import corporization import preprocessing import topicModeling import cleaning from miscellaneous import * # ssh madonna "nohup /usr/bin/python3 -u /home/jannis.grundmann/PycharmProjects/topicModelingTickets/main.py &> /home/jannis.grundmann/PycharmProjects/topicModelingTickets/log/printout_main.log &" start = time.time() # idee http://bigartm.org/ # idee http://wiki.languagetool.org/tips-and-tricks # idee https://en.wikipedia.org/wiki/Noisy_text_analytics # idee https://gate.ac.uk/family/ # todo llda topics zusammenfassen # idee lda so trainieren, dass zuordnung term <-> topic nicht zu schwach wird, aber möglichst viele topics # frage wieviele tickets pro topic? # todo modelle testen # frage welche mitarbeiter bearbeiteten welche Topics? idee topics mit mitarbeiternummern erstzen # frage wenn 155 versch. kb-einträge benutzt wurden, wieso gibt es nur 139 topics? # idee word vorher mit semantischen netz abgleichen: wenn zu weit entfernt, dann ignore #todo FREITAG zeichnen, refactoring """ init.main() logprint("") corporization.main() logprint("") cleaning.main() logprint("") preprocessing.main() # ~5h logprint("") """ #topicModeling.main(algorithm="lsa") logprint("") #topicModeling.main(algorithm="nmf") logprint("") #topicModeling.main(algorithm="lda") logprint("") topicModeling.main(algorithm="llda") logprint("") end = time.time() logprint("Total Time Elapsed: {0} min".format((end - start) / 60)) #800*400