ICAIL_2023/pm_summary/annotation_evaluation.py


								import os


								import pandas as pd


								import utils


								pm_sent_no = 'pm_sent_number'

								pm_sent = 'Sätze der Pressemitteilung'

								judgement_sent_no = 'judgement_sent_number'

								judgement_sent = 'Dazu passende Sätze des Urteils'

								keywords = 'Schlagworte'

								comments = 'Anmerkung'

								duration = 'Wie lange hast Du für die Bearbeitung dieses Urteils gebraucht?'

								bad_pm = 'Ist diese Pressemitteilung eine schlechte Darstellung / Zusammenfassung des Urteils?'

								current_dir = 'pm_summary/'


								def prepare_file(path):

								    """

								    Liest eine Datei aus und überführt sie in ein einheitliches Format.


								    :param path: Pfad zur Datei.

								    :return: dictionary, in dem die Ergebnisse stehen. Für jeden Satz der PM gibt es ein Unterdict (Zahl als key).

								    """

								    res = {}

								    raw_data = pd.read_excel(path, names=[pm_sent_no, pm_sent], header=None)

								    for index, row in raw_data.iterrows():

								        current_sentence = {pm_sent_no: row[pm_sent_no], pm_sent: row[pm_sent]}

								        res[current_sentence[pm_sent_no]] = current_sentence

								    return res


								def get_all_pm_files():

								    """

								    Returns the list of all annotated pm-files


								    :return: [(pm_filename, file_data)*]

								    """

								    file_path_base = utils.server_path(current_path=current_dir,

								                                       path='../rouge_evalauation/evaluated_data/extractive_judgments')

								    res = []

								    for judgment in os.listdir(file_path_base):

								        if '.xlsx' in judgment:

								            filename = file_path_base + '/' + judgment

								            res.append((judgment, prepare_file(filename)))

								    return res