6 προβλήματα που αντιμετωπίζει το AI στην αναγνώριση ομιλίας

Όλες οι μεγάλες εταιρείες επενδύουν στη αναγνώριση φωνής και ο κόσμος προσαρμόζεται αργά αλλά σταθερά στη νέα τεχνολογία της Τεχνητής Νοημοσύνης (AI). Γιατί λοιπόν παίρνει τόσο πολύ, γιατί δεν είναι ακόμα μέρος της καθημερινής μας ζωής; Εδώ είναι οι 6 λόγοι για τους οποίους.

Πηγαίνετε σε ένα κατάστημα για να αναζητήσετε ένα συγκεκριμένο χρώμα και μάρκα ενός προϊόντος. Ρωτάτε έναν υπάλληλο εάν το προϊόν που θέλετε είναι διαθέσιμο. Ο υπάλληλος πηγαίνει στην αποθήκη, ελέγχει το απόθεμά του για το προϊόν και επιστρέφει λίγο αργότερα, μόνο για να σας πει ότι το προϊόν σας δεν είναι πλέον διαθέσιμο.

Τώρα φανταστείτε αυτό, μπαίνετε στο ίδιο κατάστημα και πείτε σε μια μικρή συσκευή το προϊόν που θέλετε να αγοράσετε. Μέσα σε ένα δευτερόλεπτο, μια φωνή σας λέει την ακριβή διαθεσιμότητα του προϊόντος σας και, εάν δεν είναι διαθέσιμο, σας παρέχει λεπτομέρειες σχετικά με τα σημεία πώλησης όπου το προϊόν είναι διαθέσιμο.

Η συσκευή AI το κάνει αυτό με εσωτερική σάρωση σε όλα τα ψηφιακά συστήματα απογραφής. Με πολυάριθμα οφέλη σε σχέση με την εφοδιαστική κόστους και, κυρίως, την ευκολία, γιατί η τέχνη της αναγνώρισης ομιλίας και των προσωπικών βοηθών δεν έχει τελειοποιηθεί ακόμα;

Με την επιστήμη να κάνει τεράστια βήματα στην αναγνώριση ηχητικών κυμάτων, ρίχνουμε μια ματιά σε μερικά από τα κύρια προβλήματα που αντιμετωπίζουν οι ερευνητές κατά την αποκωδικοποίηση της ομιλίας σε κείμενο.

Θόρυβος

Οι μηχανές εγγραφής φωνής ανιχνεύουν ηχητικά κύματα που δημιουργούνται μέσω ομιλίας. Οι θόρυβοι στα δωμάτια καθιστούν δύσκολο για τα συστήματα να κατανοήσουν και να διακρίνουν μεταξύ των συγκεκριμένων ηχητικών κυμάτων από την κεντρική φωνή. Αυτό θολώνει τον ήχο που λαμβάνουν οι συσκευές, προκαλώντας σύγχυση και περιορίζοντας την ικανότητα επεξεργασίας του.

Ηχώ

Οι ηχώ είναι βασικά ηχητικά κύματα που αντανακλώνται σε διάφορες επιφάνειες, όπως τοίχους, τραπέζια ή άλλα έπιπλα. Αυτό οδηγεί σε μια αναδιοργανωμένη επιστροφή των ηχητικών κυμάτων πίσω στους υποδοχείς, μειώνοντας έτσι τη σαφήνεια.

Τονισμοί

Ένα ευρύ φάσμα τόνων σε κάθε γλώσσα είναι ένας άλλος παράγοντας που οδηγεί σε δυσκολίες στην αναγνώριση ομιλίας. Εάν η ίδια λέξη μπορεί να προφερθεί με διάφορους τρόπους, οι συλλαβές και η φωνητική της ίδιας λέξης τείνουν να ποικίλλουν, καθιστώντας πιο δύσκολη την επεξεργασία του μηχανήματος.

Παρόμοιοι ήχοι

Παρόμοιες λέξεις και φράσεις που ακούγονται μπορούν να αποτρέψουν τη σωστή κωδικοποίηση και αποκωδικοποίηση του φωνητικού μηνύματος. Για παράδειγμα, "Ας καταστρέψουμε μια ωραία παραλία" και "Ας αναγνωρίσουμε την ομιλία" είναι φωνητικά πολύ παρόμοια και μπορούν εύκολα να συγχέουν τη συσκευή.

Σφάλμα μηχανήματος

Τα επίπεδα ακρίβειας της ανίχνευσης φωνής έχουν υψηλά ποσοστά σφάλματος. Οι μηχανές εξακολουθούν να αντιμετωπίζουν περίπου το 8% -12% των σφαλμάτων, κάτι που είναι διπλάσιο από ό, τι οι άνθρωποι κάνουν στην καθημερινή ομιλία τους. Τα σφάλματα κατά την κωδικοποίηση των συλλεγόμενων δεδομένων είναι ζωτικής σημασίας για την απόδοση, καθώς είναι το πρώτο βήμα για την εφαρμογή των συσκευών εγγραφής φωνής.

Αποδιοργανωμένη ομιλία

Η συγκέντρωση λέξεων στις καθημερινές μας συνομιλίες, σημαίνει ότι πολλές λέξεις και φράσεις συγχωνεύονται. Αυτό είναι ακατάλληλο για αναγνώριση μηχανής και φωνής σε κείμενο, καθώς δυσκολεύει την αναγνώριση συγκεκριμένων λέξεων ή φράσεων που θα επηρεάσουν την επακόλουθη απόκριση και ενέργειες της συσκευής.

Συνολικά, ανεξάρτητα από το πόσο προχωρημένα είναι αυτά τα μηχανήματα, οι παραπάνω παράγοντες θα συνεχίσουν να αποτελούν εμπόδιο στην ανάπτυξη των βοηθών AI που κινούνται προς τα εμπρός. Ωστόσο, με την ταχύτητα με την οποία η επιστήμη και η τεχνολογία εξελίσσονται, όλες οι μεγάλες εταιρείες επικεντρώνονται στη δημιουργία των βέλτιστων συσκευών αναγνώρισης φωνής, και αργά ή γρήγορα θα τσαλακωθούν και θα έχουμε όλοι ένα ρομπότ με δυνατότητα φωνής που θα τρέχει τα σπίτια μας καθώς και τις ζωές μας.

Μάθετε περισσότερα για το RAF 100 event και τι είναι το STEM

Φροντίστε να μας ακολουθήσετε στο LinkedIn για να αποκτήσετε πρόσβαση στο αποκλειστικό μας περιεχόμενο! # raf100event #WhatIsSTEM