eigene corpus-save/load methoden geschreiben

2017-10-09 12:50:34 +02:00 · 2017-10-09 12:50:34 +02:00 · b542c4285a
parent 3bfbebc894
commit b542c4285a
3 changed files with 127 additions and 11 deletions
--- a/java_LabledLDA/models/tickets/tickets.gz
+++ b/java_LabledLDA/models/tickets/tickets.gz
--- a/testo.py
+++ b/testo.py
@ -7,8 +7,8 @@ print(datetime.now())
 #path2csv = "/home/jannis.grundmann/PycharmProjects/topicModelingTickets/M42-Export/Tickets_med.csv"
-path2csv = "/home/jannis.grundmann/PycharmProjects/topicModelingTickets/M42-Export/Tickets_small.csv"
+#path2csv = "/home/jannis.grundmann/PycharmProjects/topicModelingTickets/M42-Export/Tickets_small.csv"
-#path2csv = "/home/jannis.grundmann/PycharmProjects/topicModelingTickets/M42-Export/de_tickets.csv"
+path2csv = "/home/jannis.grundmann/PycharmProjects/topicModelingTickets/M42-Export/de_tickets.csv"
 path_csv_split = path2csv.split("/")
 print(path_csv_split[len(path_csv_split)-1])
@ -501,7 +501,7 @@ def build_thesaurus(path2lexicalentries, path2synsets):
 THESAURUS=[]
-#THESAURUS=build_thesaurus(path2lexicalentries=lexicalentries,path2synsets=synsets) #todo anschalten
+THESAURUS=build_thesaurus(path2lexicalentries=lexicalentries,path2synsets=synsets)
 def getFirstSynonym(word, thesaurus=THESAURUS):
    if not isinstance(word, str):
@ -541,7 +541,7 @@ def words(text): return re.findall(r'\w+', text.lower())
 WORDS={}
-#WORDS = Counter(words(open(path2words).read())) #todo anschalten
+WORDS = Counter(words(open(path2words).read()))
 def P(word, N=sum(WORDS.values())):
    "Probability of `word`."
@ -629,10 +629,10 @@ def stringcleaning(stringstream):
        string = " ".join([lemmatizeWord(word) for word in string.split()])
        # synonyme normalisieren    #idee vor oder nach lemmatize?
-        #string = " ".join([getFirstSynonym(word) for word in string.split()])
+        string = " ".join([getFirstSynonym(word) for word in string.split()])
        # autocorrect
-        #string = " ".join([autocorrectWord(word) for word in string.split()])
+        string = " ".join([autocorrectWord(word) for word in string.split()])
        yield string
@ -745,7 +745,7 @@ custom_words=["geehrt","dame","herr","hilfe","problem","lauten","bedanken","vora
              "auffahren","vorgang","hinweis","institut","universitaet","name","gruss","id","erfolg","mail","folge",
              "nummer","team","fakultaet","email","absender","tu","versenden","vorname","message",
              "service","strasse","prozess","portal","raum","personal","moeglichkeit","fremd","wende","rueckfrage", "stehen", "verfuegung"
-              "funktionieren","kollege", "pruefen"
+              "funktionieren","kollege", "pruefen","hoffen"
              ]
@ -896,9 +896,15 @@ weighting = 'tf'
 # weighting ='tfidf'
 named_entities = False
-#printvecotorization(ngrams=ngrams,min_df=min_df,max_df=max_df,weighting=weighting,named_entities=named_entities)
+printvecotorization(ngrams=1,min_df=1,max_df=1.0,weighting=weighting)
 printvecotorization(ngrams=1,min_df=1,max_df=0.5,weighting=weighting)
 printvecotorization(ngrams=1,min_df=1,max_df=0.8,weighting=weighting)
 printvecotorization(ngrams=(1,2),min_df=1,max_df=1.0,weighting=weighting)
 printvecotorization(ngrams=(1,2),min_df=1,max_df=0.5,weighting=weighting)
 printvecotorization(ngrams=(1,2),min_df=1,max_df=0.8,weighting=weighting)
 """
--- a/testra.py
+++ b/testra.py
@ -1,6 +1,7 @@
 # -*- coding: utf-8 -*-
 import re
 import time
 import json
 import spacy
 import textacy
@ -16,7 +17,116 @@ import xml.etree.ElementTree as ET
 print(datetime.now())
-#PARSER=spacy.load("de")
+PARSER=spacy.load("de")
 corpus = textacy.Corpus(PARSER)
 testcontetn = [
    "fdsfdsfsd",
    "juzdtjlkö",
    "gfadojplk"
 ]
 testmetda = [
    {"categoryName":"zhb","Solution":"","Subject":"schulungstest"},
    {"categoryName":"neuanschluss","Solution":"subject","Subject":"telephone contract"},
    {"categoryName":"zhb","Solution":"","Subject":"setuji"}
 ]
 def makecontent(testcontetn):
    for content in testcontetn:
        yield content
 def makemeta( testmetda):
    for  metdata in  testmetda:
        yield  metdata
 corpus.add_texts(
    makecontent(testcontetn),
    makemeta(testmetda)
 )
 print(corpus)
 corpus_path = "/home/jannis.grundmann/PycharmProjects/topicModelingTickets/corpus/"
 corpus_name = "testcorpus"
 """
 #corpus.save(corpus_path, name=corpus_name, compression=corpus_compression)
 #corpus =  textacy.Corpus.load(corpus_path, name=corpus_name, compression=corpus_compression)
 import pathlib
 strings_path = pathlib.Path(corpus_path + 'strings.json')
 path_lexemes_bin_ = pathlib.Path(corpus_path + 'lexemes.bin')
 PARSER.vocab.dump(path_lexemes_bin_)
 nlp.vocab.load_lexemes(path_lexemes_bin_)
 """
 def save_corpus(corpus_path,corpus_name):
    # save stringstore
    stringstore_path = corpus_path + corpus_name + '_strings.json'
    with open(stringstore_path, "w") as file:
        PARSER.vocab.strings.dump(file)
    #save content
    contentpath = corpus_path + corpus_name+ "_content.bin"
    textacy.fileio.write_spacy_docs((doc.spacy_doc for doc in corpus),contentpath)
    #save meta
    metapath = corpus_path + corpus_name +"_meta.json"
    textacy.fileio.write_json_lines((doc.metadata for doc in corpus), metapath)
 def load_corpus(corpus_path,corpus_name):
    # load new lang
    nlp = spacy.load("de")
    #load stringstore
    stringstore_path = corpus_path + corpus_name + '_strings.json'
    with open(stringstore_path,"r") as file:
        nlp.vocab.strings.load(file)
    # define corpus
    corpus = textacy.Corpus(nlp)
    # load meta
    metapath = corpus_path + corpus_name +"_meta.json"
    metadata_stream = textacy.fileio.read_json_lines(metapath)
    #load content
    contentpath = corpus_path + corpus_name+ "_content.bin"
    spacy_docs = textacy.fileio.read_spacy_docs(corpus.spacy_vocab, contentpath)
    for spacy_doc, metadata in zip(spacy_docs, metadata_stream):
        corpus.add_doc(
            textacy.Doc(spacy_doc, lang=corpus.spacy_lang, metadata=metadata))
    return corpus
 save_corpus(corpus_path,corpus_name)
 print(load_corpus(corpus_path,corpus_name))
 #idee das auch mit spellchecker, lemmetaizer und thesaurus machen wegen memory
 # todo generators immer neu laden? wegen laufzeit-nacheinander-picking, denn sonst nicht det
 """
@ -97,7 +207,7 @@ for r in root:
-
+"""
 import re
 from collections import Counter
@ -135,7 +245,7 @@ def edits2(word):
    "All edits that are two edits away from `word`."
    return (e2 for e1 in edits1(word) for e2 in edits1(e1))
-
+"""