Η ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΚΑΤΑΝΟΕΙ ΤΗΝ ΠΡΟΦΟΡΙΚΗ ΓΛΩΣΣΑ ΚΑΛΥΤΕΡΑ ΑΠΟ ΤΟΥΣ ΑΝΘΡΩΠΟΥΣ

 

Οι νέες AI από την Google και τη Microsoft κατανοούν την προφορική γλώσσα καλύτερα από τους ανθρώπους ...



Η πρόοδος που σημειώθηκε τους τελευταίους μήνες όσον αφορά την κατανόηση και τη σύνθεση της φωνής καθώς και στην κατανόηση της φυσικής γλώσσας είναι εκπληκτική για το λιγότερο. Τα πιο πρόσφατα σημεία αναφοράς που έχουν περάσει από τις AI της Google και της Microsoft δείχνουν ότι οι φωνητικές αλληλεπιδράσεις μεταξύ ανθρώπου-μηχανής θα βιώσουν σύντομα μια πραγματική επανάσταση ...


Ο πρώτος στόχος της τεχνητής νοημοσύνης είναι να αυξήσει τον άνθρωπο, να τους βοηθήσει στην καθημερινή επαγγελματική και οικιακή τους εργασία. Και για αυτό, το AI - η έξυπνη μηχανή - πρέπει να είναι σε θέση να επικοινωνεί μαζί μας με έναν ρευστό και φιλικό τρόπο, με άλλα λόγια πρέπει να μιλά και να κατανοεί την ομιλία καθώς και τους ανθρώπους. Σε αυτήν την περίπτωση, τώρα καταφέρνει να κάνει καλύτερα από τους ανθρώπους.


Τα τελευταία χρόνια, η ομιλία υπολογιστών σημείωσε εντυπωσιακή πρόοδο. Αυτό που ονομάζεται " Text to Speech  " (φωνητική ανάγνωση ενός κειμένου), που ονομάζεται επίσης "  Text-to-Speech ", έχει προχωρήσει σημαντικά με φωνές φυσιογνωμίας που είναι τόσο μαλακές όσο και εκφραστικές. Είμαστε πολύ μακριά από τις ασταθείς και ρομποτικές προφορές των αναγνωστών που είναι ακόμη ενσωματωμένες στα Windows, για παράδειγμα. Απλώς κάντε ένα τεστ ανάγνωσης στις Υπηρεσίες Ομιλίας Azure ή στο IBM Watson για να είστε πεπεισμένοι.


Έχει σημειωθεί επίσης τεράστια πρόοδος στον τομέα της αναγνώρισης ομιλίας ( Speech-To-Text ), με άλλα λόγια όσον αφορά τη μηχανική κατανόηση της ανθρώπινης φωνής. Οι χρήστες Alexa, Google Assistant ή Siri το γνωρίζουν ήδη. Συνήθως, ορισμένα AI είναι πλέον σε θέση να αναγνωρίσουν διαφορετικές φωνές χωρίς εκπαίδευση και να μεταγράψουν μια συζήτηση μεταξύ πολλών ανθρώπων.


Η έρευνα επικεντρώνεται τώρα στην κατανόηση της γλώσσας από τη μηχανή. Αυτό ονομάζεται NLP (Επεξεργασία φυσικής γλώσσας) . Το 2018, οι ερευνητές ανέπτυξαν ένα σημείο αναφοράς που ονομάζεται GLUE (General Language Understanding Evaluation) για να αξιολογήσουν AIs όπως το Google BERT ή το OpenAI GPT σε αυτήν την άσκηση. Η αλγριθμική πρόοδος που έχει σημειωθεί στα νευρωνικά δίκτυα και η βαθιά μάθηση καθιστά πλέον δυνατή την εκπαίδευση γιγάντιων μοντέλων ικανών να κατανοήσουν όλες τις αποχρώσεις μιας γλώσσας. Αυτές οι εξελίξεις είναι τέτοιες που ήταν ήδη απαραίτητο να αναπροσαρμοστούν τα σημεία αναφοράς που δημιουργούν ένα νέο σύνολο δοκιμών που ονομάζεται SuperGLUE.


Το SuperGLUE έχει οκτώ υποσύνολα δοκιμών: Boolean ερωτήσεις (που απαιτούν απάντηση Ναι ή Όχι), ερωτήσεις εμπλοκής (όπου το μηχάνημα πρέπει να κάνει μια υπόθεση εξάγοντας το από μια σειρά αιτίων), επιλογή πιθανών εναλλακτικών λύσεων (που ζητούν από το μηχάνημα να κατανοήσει τις αιτιώδεις σχέσεις και να βρει την εύλογη απάντηση), διαβάζοντας τεστ κατανόησης (όπου το μηχάνημα πρέπει να διαβάσει ένα άρθρο και να απαντήσει σωστά σε μια ερώτηση βρίσκοντας τις σωστές λέξεις ), που σημαίνει δοκιμές αναγνώρισης (όπου το μηχάνημα πρέπει να προσδιορίσει εάν ένα κείμενο έρχεται σε αντίθεση με ένα άλλο ή όχι), δοκιμές με βάση τα συμφραζόμενα (όπου το AI πρέπει να προσδιορίσει εάν μια λέξη χρησιμοποιείται με την ίδια έννοια σε δύο διαφορετικά περάσματα κειμένου) και επιτέλους μια πρόκληση Winograd (όπου το AI πρέπει να καθορίσει το προηγούμενο μιας αντωνυμίας).


Οι άνθρωποι που υποβάλλονται σε αυτό το σύνολο δοκιμών έχουν μέσο όρο 89,8.


Η Google και η Microsoft Research υπέβαλαν το καθένα τα νέα τους AI στο SuperGLUE τις τελευταίες εβδομάδες. Με το νευρωνικό δίκτυο T5 που αποτελείται από 11 δισεκατομμύρια παραμέτρους, η Google κέρδισε βαθμολογία 90,2 . Με το DeBERTa IA που αποτελείται από 1,5 δισεκατομμύρια παραμέτρους και 48 επίπεδα μετασχηματισμού, η Microsoft έκανε ακόμη καλύτερα κερδίζοντας βαθμολογία 90,3  !


Με άλλα λόγια, και οι δύο AI κάνουν καλύτερα από τον άνθρωπο. Αλλά αυτό της Microsoft κάνει καλύτερα από αυτό της Google, ενώ χρησιμοποιεί δέκα φορές λιγότερες παραμέτρους, δείχνοντας έτσι ότι καταναλώνει πολύ λιγότερους πόρους και ενέργεια. Επειδή η πρόκληση είναι επίσης εκεί. Σχεδιάστε AI που μπορούν να φιλοξενήσουν μέτριους πόρους, καταναλώνουν λίγη ενέργεια και δεν απαιτούν τη δύναμη ενός υπερυπολογιστή HPC.


Πρέπει να σημειωθεί περαιτέρω πρόοδος σε άλλους συμπληρωματικούς τομείς για την απόκτηση AIs ικανών να διεξάγουν συνομιλίες με ανθρώπους και σαν ανθρώπους.

Συνήθως, παράλληλα με το DeBARTa, η Microsoft Research αναπτύσσει μια άλλη συνομιλία AI, "  Turing-NLG  " (εξειδικευμένη στη δημιουργία γλωσσών), με βάση 17 δισεκατομμύρια παραμέτρους. Και η Microsoft λειτουργεί επίσης αποκλειστικά το GPT-3 του OpenAI (175 δισεκατομμύρια παράμετροι) που τρέχει σε ένα HPC συναρμολογημένο στο Azure.

Εν κατακλείδι, πρέπει να σημειωθεί ότι η Microsoft Research, όπως συνήθως, δημοσιεύει τα πειραματικά της μοντέλα σε ανοιχτό κώδικα . Αυτό ισχύει ιδιαίτερα για την DeBERTa. Από την άλλη πλευρά, το OpenAI και η Google είναι πολύ πιο απρόθυμα σε μια τέτοια δημοσίευση των νέων μοντέλων AI που φοβούνται την κατάχρηση και την κακόβουλη χρήση του AI τους.


Όταν όλα αυτά τα AI συναρμολογηθούν για να συνεργαστούν (σύμφωνα με τις αρχές που δοκιμάστηκαν από το OpenAI ), θα αρχίσουμε να συναντάμε νοημοσύνη που θα είναι πολύ δύσκολο να προσδιοριστεί αν είναι ανθρώπινα ή τεχνητά.


Σχόλια

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ