«Εϊ. Αϊ Μπι ε ντ», αυτούς τους ακατάληπτους φθόγγους βγάζει το σύστημα πλοήγησης του αυτοκινήτου μου όποτε με καλέσει κάποιος στο κινητό μου, με το οποίο είναι συνδεδεμένο. Είναι φανερό ότι δεν ξέρει ελληνικά. Προσπαθεί, αλλά μάταια, αφού δεν έχει τις κατάλληλες πληροφορίες στο λογισμικό του. Αν η προφορά σας στα αγγλικά δεν είναι άψογη, οι έξυπνες συσκευές σας θα αγνοήσουν επιδεικτικά τις φωνητικές σας εντολές. Και αν μεταφράσετε ένα κείμενο από μια άλλη γλώσσα στα ελληνικά είναι πιθανό ότι θα χρειαστείτε αρκετή φαντασία για να αποκωδικοποιήσετε το κείμενο που θα προκύψει. Ο κατάλογος των υπηρεσιών που μπορεί να προσφέρει η τεχνητή νοημοσύνη (ΑΙ) σε διάφορους τομείς όσο και στην καθημερινή ζωή είναι ατελείωτος. «Τhe sky is the limit» απαντούν με ενθουσιασμό όσοι εμπλέκονται στη νέα μαγική τεχνολογία. Απαραίτητη προϋπόθεση, όμως, είναι να μπορούμε να συνεννοηθούμε μαζί της και άρα να μάθει ελληνικά σε όσο το δυνατόν καλύτερο επίπεδο. Εταιρείες όπως η Microsoft και η Google έχουν πρόσβαση σε τεράστιους όγκους κειμένων, αλλά το υλικό είναι κυρίως στα αγγλικά. Ετσι τα περισσότερα γλωσσικά μοντέλα χρησιμοποιούν σε μεγάλο βαθμό την αγγλική γλώσσα και εκπαιδεύονται σε άλλες γλώσσες, όπως τα ελληνικά, μεταφράζοντας τα δεδομένα που διαθέτουν. Αυτός είναι ο λόγος που οι μηχανές μιλούν συχνά «τεχνητά» ελληνικά, υιοθετώντας τη δομή της αγγλικής γλώσσας.
Η δημιουργία ενός ελληνικού γλωσσικού μοντέλου, προκειμένου η ΑΙ να μάθει σωστά ελληνικά, είναι το σχέδιο του υπουργείου Ψηφιακής Διακυβέρνησης σε συνεργασία με το Μετσόβιο Πολυτεχνείο και ερευνητικά ινστιτούτα, «Δημόκριτο», «Αθηνά» και ΕΔΥΤΕ (Εθνικό Δίκτυο Υποδομών Τεχνολογίας και Ερευνας) ώστε η ελληνική γλώσσα να είναι σε θέση να αντιμετωπίσει τις προκλήσεις και τις ευκαιρίες που φέρνει η τεχνητή νοημοσύνη. «Είναι κρίσιμης σημασίας να δημιουργήσουμε εκείνα τα εργαλεία ΑΙ τα οποία θα “μιλούν” και θα “αντιλαμβάνονται” πλήρως τα ελληνικά, σε όλο το εύρος της γλώσσας. Με αυτόν τον τρόπο θα αναπτυχθούν εφαρμογές ΑΙ προς όφελος των πολιτών. Πρόκειται για ένα σύνθετο έργο, ειδικά αν αναλογιστούμε τα δεδομένα που απαιτούνται και τα δεδομένα που είναι διαθέσιμα στην ελληνική», τονίζει στην «Κ» ο υπουργός Ψηφιακής Πολιτικής Δημήτρης Παπαστεργίου.
Χιλιάδες κείμενα
Για να μάθει η ΑΙ σωστά ελληνικά χρειάζεται να τροφοδοτηθεί το γλωσσικό μοντέλο με όσο το δυνατόν περισσότερη πληροφορία – περισσότερα κείμενα, τα οποία μάλιστα να είναι γραμμένα σωστά. Στο πλαίσιο του προγράμματος ΑΙ factories, που χρηματοδοτεί η Ευρωπαϊκή Επιτροπή, προβλέπονται κονδύλια για τη δημιουργία γλωσσικών μοντέλων από τα κράτη-μέλη. Η Γαλλία έχει προχωρήσει πολύ σε αυτό αντιμετωπίζοντας τη γαλλική γλώσσα ως πολιτισμικό αγαθό, ενώ οι Ισπανοί φτιάχνουν μοντέλα που θα μιλούν τυπικά ισπανικά αλλά και βασκικά και καταλανικά.
«Φιλοδοξούμε αντίστοιχα να δημιουργήσουμε το ελληνικό corpus γλωσσικών δεδομένων. Αλλά για να γίνει αυτό πρέπει να επινοήσουμε μια “συμμαχία για την ελληνική γλώσσα” ώστε να τροφοδοτήσουμε το μοντέλο με όσο το δυνατόν περισσότερες γλωσσικές πληροφορίες. Χρειαζόμαστε τεράστιους όγκους κειμένων, για να μπορέσουμε να εκπαιδεύσουμε το μοντέλο μας όχι μόνο να μιλάει καλά ελληνικά, αλλά αν γίνεται, να μπορεί να πιάσει την ιδιομορφία, τον παλμό, την ψυχή της ελληνικής γλώσσας», σχολιάζει ο κ. Βασίλειος Κατσούρος, διευθυντής του Ινστιτούτου Επεξεργασίας Λόγου στο Ερευνητικό Κέντρο «Αθηνά». «Στην ουσία μιλάμε για κοινή εθνική προσπάθεια. Στόχος μας είναι να αντλήσουμε και να συγκεντρώσουμε δεδομένα από δεξαμενές όπως βιβλιοθήκες, το Εθνικό Κέντρο Τεκμηρίωσης, εκδόσεις, ΜΜΕ, αλλά και οπτικοακουστικές βιβλιοθήκες (π.χ. ΕΡΤ)», προσθέτει ο κ. Παπαστεργίου.
Ηδη έχουν γίνει οι πρώτες ερευνητικές προσπάθειες με τη δημιουργία του ελληνικού γλωσσικού μοντέλου «Μελτέμι» στις αρχές του έτους, που χρησιμοποίησε, σε μεγάλο βαθμό, τα κείμενα από το εκπαιδευτικό υλικό των σχολικών βιβλίων.
Αλλά το επόμενο βήμα χρειάζεται πολύ περισσότερα και πολυποίκιλα δεδομένα. «Κανένας δεν μπορεί να μαζέψει δεδομένα από μόνος του. Για να πετύχεις να συγκεντρώσεις ποιοτικό περιεχόμενο, χρειάζεται μια συμμαχία στην οποία θα συμμετέχουν, π.χ., εκδότες ή μέσα μαζικής ενημέρωσης, αλλά και ο δημόσιος τομέας. Τους όρους θα πρέπει να τους σκεφτούμε και να τους συζητήσουμε από την αρχή», τονίζει ο κ. Κατσούρος.
Ισως το πιο γνωστό στο ευρύ κοινό εργαλείο τεχνητής νοημοσύνης είναι το ChatGPT που έφτιαξε η Οpen AI. Οταν παρουσιάστηκε, οι ερευνητές του χώρου της τεχνητής νοημοσύνης στη γλωσσική τεχνολογία σκέφτηκαν «εντάξει, εμείς τώρα τι κάνουμε; Χρειάζεται να υπάρχουμε;» εξομολογείται ο κ. Κατσούρος. «Αλλά λίγο μετά καταλάβαμε», συμπληρώνει. «Μάζεψαν πάρα πολλά δεδομένα, σάρωσαν το Ιντερνετ χωρίς τη συναίνεσή μας. Και μετά εμείς με τη συμμετοχή μας τους βοηθάμε να κάνουν ολοένα και καλύτερη τη μηχανή τους». Ακολούθησαν οι αγωγές μεγάλων εταιρειών ΜΜΕ, εκτός των άλλων για κλοπή πνευματικής ιδιοκτησίας. Στον αντίποδα, η Ευρώπη εμφανίζεται αποφασισμένη να ακολουθήσει εντελώς διαφορετικό μοντέλο με σεβασμό στα δικαιώματα των δημιουργών.
Εθνικό κεφάλαιο
Αυτό σημαίνει ότι θα χρειαστεί να αγοραστούν τα δεδομένα που θα χρησιμοποιηθούν; «Θα πρέπει να επενδύσουμε για να αγοράσουμε πρωτογενή δεδομένα υψηλής ποιότητας. Εχουμε κάνει έναν πρόχειρο υπολογισμό, σύμφωνα με τον οποίο για να εξασφαλίσουμε 15 δισ. λέξεις, ένα καλό θησαυροφυλάκιο γλωσσικών πόρων (χονδρικά, αντιστοιχούν σε 200.000 τίτλους βιβλίων) χρειάζεται να επενδύσουμε περίπου 3 εκατ. ευρώ. Νομίζω ότι πρέπει να τρέξουν παράλληλα δύο διαδικασίες συλλογής γλωσσικών δεδομένων: σημαντικοί κάτοχοι περιεχομένου να συνεισφέρουν τα γλωσσικά τους δεδομένα ή μέρος αυτών pro bono, αλλά και να επενδύσουμε και να κάνουμε ειδικές συμφωνίες για την εκπαίδευση του εθνικού μεγάλου γλωσσικού μοντέλου», λέει ο κ. Κατσούρος.
Ο ερευνητής τονίζει ότι δεν πρόκειται για μια μεγάλη εταιρεία με σκοπό το κέρδος, που ζητάει τα κείμενα που έχουμε γράψει και αποτελούν πνευματική μας ιδιοκτησία, αλλά το Δημόσιο. «Είναι σημαντικό να συνειδητοποιήσουμε ότι συνεισφέρουμε σε κάτι που θα είναι κτήμα όλων μας. Αυτό που θα φτιαχτεί θα πρέπει να είναι ανοιχτό, ώστε όλοι να έχουν πρόσβαση στο μοντέλο. Αλλά δεν μπορείς να πάρεις το υλικό χωρίς τη συγκατάθεση αυτού που το δημιούργησε», εξηγεί. Οταν όμως λέμε «όχι» σε μια επιλογή, αυτομάτως επιλέγουμε κάτι άλλο χωρίς ίσως να το συνειδητοποιούμε. «Εχοντας τα δικά μας γλωσσικά μοντέλα, το αποτέλεσμα θα είναι πολύ καλύτερο όσον αφορά την ελληνική γλώσσα. Από την άλλη, τα δεδομένα θα είναι δικά μας, της χώρας μας και δεν θα είναι απαραίτητο να πληρώνουμε για τη χρήση τους στη Microsoft ή στην Google ή όποια άλλη εταιρεία», υπογραμμίζει ο κ. Βαγγέλης Καρκαλέτσης, διευθυντής Ερευνας του Ινστιτούτου Πληροφορικής και Τηλεπικοινωνιών του ΕΚΕΦΕ «Δημόκριτος». «Ετσι, η χώρα μας θα μπορεί να αναπτύξει πολιτική όσον αφορά και τις υπηρεσίες μέσω της τεχνητής νοημοσύνης που παρέχει στις επιχειρήσεις της και τους πολίτες της», συμπληρώνει.
Η δημιουργία ενός εθνικού γλωσσικού μοντέλου έχει και μία ακόμη παράμετρο, την προστασία και τη διαφύλαξη της ελληνικής γλώσσας στο ψηφιακό περιβάλλον.
«Η εξέλιξη της τεχνολογίας και ιδιαίτερα της τεχνητής νοημοσύνης δημιουργεί νέες ανάγκες και κινδύνους για τις γλώσσες, ιδίως των μικρών πληθυσμιακά χωρών. Η συμμετοχή της ελληνικής γλώσσας στην ψηφιακή εποχή είναι απαραίτητη για τη διασφάλιση της συνέχειάς της», επισημαίνει ο υπουργός Ψηφιακής Διακυβέρνησης.
Το μοντέλο
15 δισ. λέξεις χρειάζονται για ένα καλό γλωσσικό μοντέλο
200 χιλιάδες τίτλοι βιβλίων θα συνιστούσαν ένα ικανό θησαυροφυλάκιο γλωσσικών πόρων
3 εκατ. ευρώ εκτιμάται ότι θα κοστίσουν τα δεδομένα που προστατεύονται από πνευματικά δικαιώματα
Οι αριθμοί
60 Petaflops θα είναι η ισχύς του νέου υπερυπολογιστή
120 φορές μεγαλύτερη ισχύς από το σύστημα ΑRIS που διαθέτει η Ελλάδα τώρα
60 τετράκις εκατομμύρια (60.000.000.000.000.000) πράξεις ανά δευτερόλεπτο θα πραγματοποιεί ο Δαίδαλος
500 ανάλογων δυνατοτήτων υπερυπολογιστές λειτουργούν σε όλο τον κόσμο