Αποσπάσματα από email που μου στείλανε τα παιδιά από την Qualia για να καταλάβω το θέμα. Το βρήκα πολύ καλογραμμένο και το παραθέτω αυτούσιο για όποιον ενδιαφέρεται:
“Μερικά πράγματα για το πώς βγάζουμε τα θέματα.
Η τεχνολογία ονομάζεται topic detection & tracking. Κατεβάζουμε τα άρθρα από 200 βασικές πηγές με authority (ό,τι κι αν σημαίνει αυτό !) από το ελληνικό domain. «Απλώνουμε» τα άρθρα σε ένα τραπέζι και προσπαθούμε να τα ομαδοποιήσουμε βάσει θέματος. Η διαδικασία αυτή ονομάζεται clustering και βασίζεται σε γλωσσολογική συνάφεια, με άλλα λόγια τα άρθρα να έχουν κοινές λέξεις, ονόματα, φράσεις, όρους. Η ομαδοποίηση αυτή πατάει σε μια τεχνική που ονομάζεται hierarchical agglomerative clustering (μια που στο είπα και μια που το ξέχασες).
Η ιδέα είναι ότι στην αρχή κάθε άρθρο είναι και ένα θέμα και σταδιακά συγκρίνουμε και ομαδοποιούμε. Κάποια στιγμή τελειώνουν τα άρθρα και μένουν τα θέματα. Ένα θέμα αντιπροσωπεύεται από ένα σύνολο λέξεων και φράσεων (στο απλοποιώ λίγο αυτό). Είναι αυτές που βλέπεις στο cloud. Ένα θέμα επίσης αντιπροσωπεύεται από τους τίτλους των δύο πιο «κεντρικών» άρθρων, δηλαδή των άρθρων που ο αλγόριθμος έβγαλε ότι το περιγράφουν καλύτερα.
Είναι οι τίτλοι που βλέπεις και χωρίζονται με […]. Από εκεί και πέρα και γνωρίζοντας ποια είναι τα θέματα και τη δύναμη των πηγών, μπορείς να κάνεις υπολογισμούς και να βρεις τις διάφορες μετρικές. Δουλεύουμε τώρα στο tracking (παρακολούθηση της πορείας ενός θέματος στο χρόνο) και να κολλήσουμε επάνω στα θέματα και blogs & social media. Είμαστε στην τελευταία φάση ανάπτυξης και ελπίζουμε σύντομα να μπούμε σε beta.”
Να προσθέσω μόνο εγώ ότι πραγματικά η προσθήκη social media ειδικά θα κάνει ακόμα πιο ισχυρό το εργαλείο σαν άμεση δημοσκόπηση.
Comments are closed.