Breaking News

Αναγνώριση φωνής

Δέχτηκα αρκετές ερωτήσεις για την τεχνολογία με την οποία το Aino αναγνωρίζει την φωνή στην τηλεόραση ή το ραδιόφωνο.   Και από διαβασμένους που ήξεραν ότι πχ το σύστημα της Philips δεν έχει βελτιωθεί εδώ και μια δεκαετία και δεν δουλεύει τόσο καλά, όπως και ότι κολοσσοί σαν την Nuance δεν έχουν στα σχέδιά τους ανάπτυξη αναγνώρισης φωνής στα Ελληνικά.   Ούτε οι έξυπνες λύσεις της Google θα φτάσουν στα Ελληνικά.

Απόσπασμα από το – όπως πάντα – κατατοπιστικότατο email από τους ανθρώπους της Qualia σχετικά με αυτό το θέμα:

“η ιδέα εδώ είναι να αναγνωρίσουμε αυθόρμητο λόγο μεγάλου λεξιλογίου στα broadcast media. Το πρόβλημα δεν περιορίζεται, οποιοσδήποτε μπορεί να πει οτιδήποτε σε οποιοδήποτε περιβάλλον. Χρησιμοποιούμε μια τεχνική που ονομάζεται μαρκοβιανά μοντέλα. Η ιδέα είναι να κόψουμε το σήμα σε μικρότερα κομμάτια (φωνήματα), από τα οποία αποτελούνται όλες οι λέξεις και τα οποία είναι λίγα σε αριθμό για κάθε γλώσσα, παρά να αναγνωρίσουμε την κάθε λέξη χωριστά ολόκληρη. Θεωρούμε ότι η κάθε λέξη είναι μια σειρά φωνημάτων, δείγματα των οποίων παίρνουμε από διαφορετικούς ομιλητές σε διαφορετικά περιβάλλοντα και φτιάχνουμε κάτι σαν μέσο όρο.

Καθώς εξελίσσεται η τεχνολογία μπορεί να ενσωματωθεί και αναγνώριση κίνησης των χειλιών για ακόμα καλύτερα αποτελέσματα

Το μοντέλο μας γεννάει διάφορες υποψήφιες λέξεις στην κάθε θέση. Στη συνέχεια χρησιμοποιούμε ένα δεύτερο μοντέλο από τη γνώση της γλώσσας, που μας φιλτράρει όσες λέξεις δεν ταιριάζουν μαζί.   Για παράδειγμα αναγνωρίζουμε τη λέξη “κρίση”. Αλλά δεν είμαστε σίγουροι αν είναι “κρίση” ή “κρίσης”.   Κι αυτό γιατί ο ομιλητής μπορεί να έφαγε το τελικό σίγμα. Αν όμως η προηγούμενη λέξη είναι με σιγουριά “της”, από τη σύνταξη της γλώσσας μπορούμε να φιλτράρουμε την “κρίση” και να κρατήσουμε τη λέξη “κρίσης”.

Τα δυο αυτά μοντέλα πάνε μαζί, ακουστικό και γλωσσικό, είναι κάπως σαν  Abbott & Costello. Προβλήματα παρουσιάζονται όταν το κανάλι είναι κακό (πχ. συνέντευξη από κινητό, δορυφορικό σήμα), ή όταν μιλάνε πολλοί μαζί, πράγμα σπάνιο στα ελληνικά μήντια :-)”

Εμένα πάντως σαν χρήστη του συστήματος, ουσιαστικά απλά με νοιάζει ότι δεν βγάζει “λάθος” αποτελέσματα αναγνώρισης (ακόμα και σε τηλεπαράθυρα!) και δεν του ξεφεύγει τίποτα.   Έχει βέβαια να κάνει με το γεγονός ότι το Aino κάνει και αναγνώριση γραμμάτων (λεζάντες, τίτλοι), θέμα που θα αναπτύξουμε σε άλλο άρθρο εδώ σύντομα.

Leave a Reply

%d bloggers like this: