Τρίτη 8 Φεβρουαρίου 2011

Μιλώντας με τη μηχανή


Τα τελευταία χρόνια το λογισμικό αναγνώρισης φωνής έχει αρχίσει να μπαίνει σε πολλές πλευρές της καθημερινής ζωής. Βρίσκεται στην άλλη άκρη των τηλεφωνικών γραμμών υποστήριξης πελατών πολλών μεγάλων εταιρειών, σε συστήματα τηλεφωνικής κράτησης θέσεων, έχει ενσωματωθεί στο πιο διαδεδομένο λειτουργικό σύστημα για προσωπικούς υπολογιστές και συχνά υπάρχει και ως εναλλακτική μέθοδος εισαγωγής πληροφοριών στα τηλέφωνα με οθόνες αφής. Παρ' όλ' αυτά, δύσκολα βρίσκεις κάποιον που να είναι ικανοποιημένος από την αλληλεπίδραση με κάποια μηχανή μέσω διασύνδεσης αναγνώρισης φωνής.
Οι εταιρείες το χρησιμοποιούν γιατί τους έρχεται φτηνότερα από το να έχουν υπαλλήλους που να απαντούν στις κλήσεις των πελατών. Κλασική περίπτωση όπου στον καπιταλισμό η εισαγωγή νέας τεχνολογίας στην παραγωγή οδηγεί έναν αριθμό εργατών στην ανεργία. Οσοι προτιμούν να υπαγορεύουν εντολές και λέξεις σε κινητά και υπολογιστές το κάνουν συνήθως λόγω κάποιας αναπηρίας ή άλλου πρακτικού προβλήματος. Για παράδειγμα, άνθρωποι με χοντρά δάχτυλα είναι δύσκολο να πληκτρολογήσουν αποτελεσματικά στις μικροσκοπικές οθόνες αφής. Γενικά η αξιοποίηση των συστημάτων αναγνώρισης φωνής παραμένει λύση δεύτερης επιλογής.
Μετά από μια δεκαετία εξαγορών και συγχωνεύσεων, η συγκεντροποίηση του κεφαλαίου στον τομέα της αναγνώρισης φωνής οδήγησε στο να υπάρχει σήμερα ουσιαστικά μόνο μία εταιρεία, η Nuance, που κατασκευάζει το ειδικό λογισμικό, παραλλαγές του οποίου υπάρχουν σε συσκευές από κινητά τηλέφωνα και ακριβά αυτοκίνητα, μέχρι παιχνίδια, συστήματα GPS (εντοπισμού γεωγραφικής θέσης), ταμειακές μηχανές και αυτόματα συστήματα απάντησης σε πελάτες.
Ιδιαίτερο ενδιαφέρον παρουσιάζει το λογισμικό υπαγόρευσης. Αρχικά απαιτούνταν 45λεπτη ανάγνωση κειμένου σε μικρόφωνο, ώστε το σύστημα να μάθει τη φωνή του αναγνώστη. Καθώς η τεχνολογία βελτιωνόταν χρόνο με το χρόνο, το διάστημα εκπαίδευσης μειώθηκε στα 20 λεπτά, μετά στα 10, στα 5 και τελικά σήμερα δε χρειάζεται καθόλου εκπαίδευση για να πετύχει αναγνώριση λέξεων σε ποσοστό 99,9%, δηλαδή μια λέξη λάθος ανά δύο σελίδες.
Οι μηχανικοί έχουν χρησιμοποιήσει διάφορες τεχνικές για να αυξήσουν την ακρίβεια αναγνώρισης των εκφωνούμενων λέξεων. Στην αρχή έπρεπε οι λέξεις να διαβάζονται αργά μία μία. Σήμερα νέοι αλγόριθμοι σε συνδυασμό με τους σύγχρονους πανίσχυρους μικροεπεξεργαστές επιτρέπουν την ανάλυση συνεχούς ανάγνωσης σε πραγματικό χρόνο και μάλιστα προτρέπονται οι χρήστες των συστημάτων να λένε μεγαλύτερες φράσεις, ώστε το λογισμικό να μπορεί να αναλύσει καλύτερα το εννοιολογικό πλαίσιο και να διακρίνει πιο σωστά ομόηχες λέξεις ή ζεύγη λέξεων.
Αν η συσκευή στην οποία γίνεται η υπαγόρευση δεν έχει αρκετή επεξεργαστική ισχύ, τότε προσφέρεται ως εναλλακτική λύση η ασύρματη ή μέσω διαδικτύου αποστολή της ηχητικής ροής σε κεντρικούς εξυπηρετητές, η ανάλυσή της και η αποστολή του κειμένου πίσω στη συσκευή. Μάλιστα, η Nuance, χωρίς να ενημερώσει τους χρήστες μιας τέτοιας εφαρμογής που διένειμε δωρεάν, κατέγραφε όλες τις φωνητικές οδηγίες προς ανάλυση, ώστε να έχει τη μεγαλύτερη δυνατή ποικιλία φωνών, προφορών, ανθρώπων διαφορετικών ηλικιών και φύλου, για να ελέγχει τους αλγορίθμους της.
Παρά την πρόοδο, το λογισμικό αναγνώρισης φωνής δεν είναι ακόμα κατάλληλο για την αυτόματη απομαγνητοφώνηση τηλεφωνικών συνομιλιών και πολύ περισσότερο συνεντεύξεων. Την υψηλή ακρίβεια αναγνώρισης την πετυχαίνει μόνο όταν γίνεται υπαγόρευση σε μικρόφωνο, χωρίς θόρυβο και κατά προτίμηση χωρίς προφορά ή προβλήματα εκφοράς του λόγου εξαιτίας, π.χ., κρυολογημάτων. Συχνά, ακόμα και για τον άνθρωπο είναι δύσκολη η απομαγνητοφώνηση μιας θορυβώδους συνέντευξης, ή κάποιου συνομιλητή που δε μιλάει «καθαρά». Και βέβαια ο άνθρωπος καταλαβαίνει πραγματικά το εννοιολογικό πλαίσιο της συζήτησης, σε αντίθεση με τον υπολογιστή. Απ' ό,τι φαίνεται το πληκτρολόγιο θα μας συνοδεύει ακόμα για πολλά χρόνια.

Επιμέλεια:
Σταύρος ΞΕΝΙΚΟΥΔΑΚΗΣ
Πηγή: «Scientific American»

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου