Εργαστήριο Υπολογιστικής Υφολογίας
Διευθ.: Καθηγήτρια Γιαννούλα Γιαννουλοπούλου
Το Εργαστήριο Υπολογιστικής Υφολογίας (Computational Stylistics Lab) είναι το πρώτο εξειδικευμένο εργαστήριο υφομετρικής ανάλυσης λόγου στην Ελλάδα. Ιδρύθηκε το 2017 (ΦΕΚ αρ. φύλου 1305, Τεύχος 2, 13 Απριλίου 2017) από τον Καθ. Υπολογιστικής Γλωσσολογίας του Τμήματος Ιταλικής Γλώσσας και Φιλολογίας του ΕΚΠΑ, κ. Γεώργιο Μικρό, ο οποίος και ορίστηκε ως διευθυντής του. Το Εργαστήριο παράγει θεωρητική και εφαρμοσμένη έρευνα στους ευρύτερους χώρους της Υπολογιστικής Υφολογίας, Επεξεργασίας Φυσικής Γλώσσας, Τεχνητής Νοημοσύνης, Ψηφιακών Ανθρωπιστικών Επιστημών και Δικαστικής Γλωσσολογίας. Στο εργαστήριο συμμετέχουν οι ακόλουθοι ερευνητικοί συνεργάτες (αλφαβητικά):
- Καράμπαλη, Άννα, ΕΤΕΠ του Τμήματος Ιταλικής Γλώσσας και Φιλολογίας, ΕΚΠΑ
- Κουτσής, Ηλίας, Υπ. Διδάκτορας.
- Κορασίδη, Ανδριάνα, Υπ. Διδάκτορας.
- Μπιλιανός Δημήτρης, Υπ. Διδάκτορας.
- Σπίνουλα, Αρετή, ΕΕΔΙΠ του Τμήματος Ιταλικής Γλώσσας και Φιλολογίας, ΕΚΠΑ
- Τύρου, Ιωάννα, ΕΕΠ του Τμήματος Ιταλικής Γλώσσας και Φιλολογίας, ΕΚΠΑ
- Τσιούπη, Σουλτάνα, Υπ. Διδάκτορας
- Φλώρου, Αικατερίνη, Διδάσκουσα με Ν. 407/80.
ΠΕΠΡΑΓΜΕΝΑ ΕΡΓΑΣΤΗΡΙΟΥ 2017-19
Παρουσίαση ερευνητικών και εκπαιδευτικών δραστηριοτήτων του Εργαστηρίου Υπολογιστικής Υφολογίας (Computational Stylistics Lab) του Τμήματος Ιταλικής Γλώσσας και Φιλολογίας του ΕΚΠΑ
Διευθυντής: Καθ. Γιώργος Μικρός
Περίοδος αναφοράς: Απρίλιος 2017 έως Σεπτέμβριος 2019
Το Εργαστήριο Υπολογιστικής Υφολογίας (Computational Stylistics Lab) είναι το πρώτο εξειδικευμένο εργαστήριο υφομετρικής ανάλυσης λόγου στην Ελλάδα. Ιδρύθηκε το 2017 (ΦΕΚ αρ. φύλου 1305, Τεύχος 2, 13 Απριλίου 2017) από τον Καθ. Υπολογιστικής Γλωσσολογίας του Τμήματος Ιταλικής Γλώσσας και Φιλολογίας του ΕΚΠΑ, κ. Γεώργιο Μικρό, ο οποίος και ορίστηκε ως διευθυντής του. Το Εργαστήριο παράγει θεωρητική και εφαρμοσμένη έρευνα στους ευρύτερους χώρους της Υπολογιστικής Υφολογίας, Επεξεργασίας Φυσικής Γλώσσας, Τεχνητής Νοημοσύνης, Ψηφιακών Ανθρωπιστικών Επιστημών και Δικαστικής Γλωσσολογίας.
Τα ερευνητικά έργα στα οποία έχει εμπλακεί το Εργαστήριο μέχρι τώρα είναι τα ακόλουθα:
- Distant Reading for European Literary History (CA16204). Το έργο αυτό χρηματοδοτείται στο πλαίσιο του Ευρωπαϊκού χρηματοδοτικού πλαισίου, COST European Cooperation in Science and Technology με 150.000 € κάθε έτος από το 2016. Το εργαστήριο συμμετέχει στο πρόγραμμα αναπτύσσοντας το πρώτο Ηλεκτρονικό Σώμα Κειμένων (ΗΣΚ) Νεοελληνικής Λογοτεχνίας του 19ου αιώνα (Modern Greek Literary Textual Collection - MGLTEC) σε συνεργασία με την Εθνική Βιβλιοθήκη και το Εργαστήριο Λογοτεχνικών Ειδών και Ιστορίας της Λογοτεχνίας του Πανεπιστημίου Κρήτης με το οποίο έχει υπογραφεί και σχετικό πρωτόκολλο συνεργασίας. Το ΗΣΚ που αναπτύσσεται θα είναι ανοικτής πρόσβασης στην ερευνητική κοινότητα και θα επιτρέψει την συγκριτική υφομετρική μελέτη των ΝΕ λογοτεχνικής παραγωγής του 19ου αιώνα με την αντίστοιχη Ευρωπαϊκή. Επιπλέον, το εργαστήριο μέσω του Διευθυντή του, συντονίζει την ευρωπαϊκή παραγωγή εργαλείων υφομετρικής ανάλυσης καθώς ηγείται του σχετικού πακέτου εργασίας.
- Ψηφιοποίηση των ερωτήσεων κοινοβουλευτικού ελέγχου: Το εργαστήριο αποτελεί συνιδρυτικό μέλος της πρωτοβουλίας Hellenic OCR Team, ενός μη κερδοσκοπικού, μη κυβερνητικού οργανισμού για την ψηφιοποίηση και την μελέτη του κοινοβουλευτικού λόγου στην Ελλάδα. Το εργαστήριο σε συνεργασία με τον Δρ. Φώτιο Φυτσιλή, διευθυντή του Τμήματος Επιστημονικής Τεκμηρίωσης και Εποπτείας της Βουλής κινητοποίησε προπτυχιακούς και μεταπτυχιακούς φοιτητές και τους ένταξε σε μια αποκεντρωμένη ερευνητική ομάδα με στόχο την συστηματική ψηφιοποίηση του συνόλου των κοινοβουλευτικών ερωτήσεων που έχουν γίνει την τελευταία δεκαετία στο ελληνικό Κοινοβούλιο. Η συγκεκριμένη πρωτοβουλία είναι η πρώτη του είδους της στην Ελλάδα και αποτελεί ένα από τα πιο επιτυχημένα πειράματα πληθοπορισμού (croud-sourcing) στην ελληνική ερευνητική κοινότητα, καθώς το όλο έργο δεν έχει εξωτερική χρηματοδότηση και βασίζεται στην εθελοντική συνεισφορά των ερευνητών που συνεργάζονται.
- Υφομετρική ανάλυση των προκηρύξεων που παρήχθησαν κατά την διάρκεια της μεταπολίτευσης στη Ελλάδα: Στο πλαίσιο της χρηματοδοτούμενης διδακτορικής διατριβής της κ. Ανδριάνας Κορασίδη, μέλους της ερευνητικής ομάδας του εργαστηρίου, ψηφιοποιήθηκε και αναλύεται με προηγμένες υφομετρικές μεθόδους, το σύνολο των κειμένων που έχουν δημοσιοποιηθεί από τρομοκρατικές ομάδες στην χώρα από το 1974 και μέχρι σήμερα. Το ΗΣΚ που συλλέγεται είναι το μοναδικό του είδους στην Ελλάδα και χρησιμοποιείται στην ανάπτυξη υφομετρικών τεχνικών και εργαλείων για την απόδοση συγγραφικής πατρότητας σε προκηρύξεις και άλλα έγγραφα εγκληματολογικού ενδιαφέροντος.
- Ανάπτυξη μεθόδων και εργαλείων εξόρυξης συναισθήματος (sentiment analysis) από πολυγλωσσικά κείμενα: Στο πλαίσιο της χρηματοδοτούμενης διδακτορικής διατριβής του κ. Δημήτρη Μπιλιανού, μέλους της ερευνητικής ομάδας του εργαστηρίου, αναπτύσσεται πολυγλωσσικό ΗΣΚ βασισμένο σε κείμενα από μέσα κοινωνικής δικτύωσης το οποίο χρησιμοποιείται για την ανάπτυξη μεθόδων και εργαλείων για την αυτόματη εξαγωγή και χαρακτηρισμό της συναισθηματικής πόλωσης των απόψεων που εκφράζονται σε κείμενα. Το καινοτομικό της έρευνας αυτής είναι ότι η μεθοδολογία που αναπτύσσεται βασίζεται σε τεχνικές που αναλύουν τα κείμενα ανεξαρτήτως της γλώσσας που αυτά που έχουν συνταχθεί (language-neutral approach).
- Ανάπτυξη εργαλείου εξαγωγής υφομετρικών δεικτών: Το ερευνητικό αυτό έργο ανήκει στα έργα ανάπτυξης λογισμικού ελεύθερου κώδικα και χρηματοδοτήθηκε με το ποσό των 5.000 € από την Google το 2019 και ειδικότερα στο πλαίσιο του Google Summer of Code 2019. Το εργαστήριο σε συνεργασία με την ΕΕΛΑΚ, τον Δρ. Φ. Φυτσιλή και τον Δρ. Σ. Λεβέντη επέλεξαν μέσω διαγωνιστικής διαδικασίας έναν φοιτητή (Παναγιώτης Παπαντωνάκης) ο οποίος για 3 μήνες (Ιούνιος – Αύγουστος 2019) ανέπτυξε ένα καινοτόμο λογισμικό για την υφομετρική ανάλυση κειμένων αξιοποιώντας υπάρχοντα σχετικά εργαλεία και δημιουργώντας μια εύχρηστη γραφική επαφή χρήστη.
Εκτός των ερευνητικών έργων στα οποία συμμετέχει το εργαστήριο, παράλληλα έχει εξελιχθεί σε πόλο διεθνούς εκπαιδευτικής αριστείας. Διδακτορικοί φοιτητές και ερευνητές από την Ευρώπη το επιλέγουν για σύντομη ερευνητική μετεκπαίδευση στα γνωστικά αντικείμενα της εξειδίκευσης του εργαστηρίου. Πιο συγκεκριμένα το εργαστήριο επισκέφθηκαν για εξειδικευμένη μετεκπαίδευση οι παρακάτω ερευνητές:
- Francesco Gatti (University of Padova, Italy): Ο κ. Gatti επισκέφθηκε το εργαστήριο από 15/1/2019 έως 15/2/2019 και εργάστηκε σε έρευνα με τίτλο «Profiling and word embedding to analyse European Literature from a diachronic perspective». Στο πλαίσιο της έρευνας του εκπαιδεύτηκε σε προχωρημένες μεθόδους υπολογιστικής ανάλυσης γλώσσας (BERT, Word2Vec κ.ά.) καθώς και σε τεχνικές υπολογιστικής υφοχρονολόγησης, αυτόματης δηλαδή χρονολόγησης λογοτεχνικών έργων αξιοποιώντας υφομετρικά χαρακτηριστικά.
- Floriana Carlotta Sciumbata (University of Trieste, Italy): Η κ. Sciumbata επισκέφθηκε το εργαστήριο από 1/3/2019 έως 31/3/2019 και εργάστηκε σε έρευνα με τίτλο «Quantitative linguistic methods and Distant Reading: approaches, tools and practical work on Italian texts». Στο πλαίσιο της έρευνας της εκπαιδεύτηκε στην χρήση μεθόδων ποσοτικής γλωσσολογίας και υφομετρίας.
- Maria Sylivrili (Arts and Humanities Institute Maynooth University, Ireland): Η κ. Sylivrili επισκέφθηκε το εργαστήριο από 1/12/2018 έως 15/12/2018 και εργάστηκε σε έρευνα με στόχο την ανάπτυξη του ελληνικού ΗΣΚ λογοτεχνίας του 19ου αιώνα. Η κ. Sylvirili εκπαιδεύτηκε στην ψηφιοποίηση εγγράφων, οπτική αναγνώριση και κωδικοποίησή τους σε γλώσσα XML βασισμένη στο πρότυπο κειμενικής κωδικοποίησης TEI (Text Encoding Initiative).
- Anna Maria Sichani (King’s College London, UK): Η κ. Sichani επισκέφθηκε το εργαστήριο από 15/3/2018 έως 20/4/2018 και εργάστηκε σε έρευνα με τίτλο « Quality control & annotation requirements of Modern Greek Literary Text Collection». Η κ. Sichani εκπαιδεύτηκε σε θέματα σχεδιασμού κατάρτισης ΗΣΚ και χρήσης εργαλείων για την κωδικοποίηση εγγράφων σε γλώσσα XML βασισμένη στο πρότυπο κειμενικής κωδικοποίησης TEI (Text Encoding Initiative).
Επίσης, το Εργαστήριο στο πλαίσιο της διάχυσης της επιστημονικής γνώσης και των ερευνητικών αποτελεσμάτων που παράγονται σε αυτό διοργάνωσε τις ακόλουθες ημερίδες εργασίας (workshops):
- “Introduction to Machine Learning applied to text analysis using R”, Ημερίδα Εργασίας που συνδιοργανώθηκε από το Εργαστήριο Υπολογιστικής Υφολογίας και το Εργαστήριο Πολυμέσων και Γλωσσικής Επεξεργασίας του Τμήματος Γαλλικής Γλώσσας και Φιλολογίας του ΕΚΠΑ στις 12 – 13 Δεκεμβρίου 2018.
- “Machine Learning for Linguists”, Ημερίδα Εργασίας που διοργανώθηκε από το Εργαστήριο Υπολογιστικής Υφολογίας στο ΕΚΠΑ στις 27, 28 & 30 Νοεμβρίου 2018.
- “Recent Trends in Quantitative Linguistics”, Ημερίδα Εργασίας που συνδιοργανώθηκε από το Εργαστήριο Υπολογιστικής Υφολογίας και το Εργαστήριο Φωνητικής και Υπολογιστικής Γλωσσολογίας του Τμήματος Φιλολογίας στο ΕΚΠΑ στις 27 Μαρτίου 2019.