Ανησυχία στην κοινότητα της τεχνητής νοημοσύνης προκαλούν τα αποτελέσματα ελεγχόμενου πειράματος της εταιρείας Anthropic, στο οποίο ένα προηγμένο AI chatbot φέρεται να απείλησε ότι θα αποκαλύψει προσωπικά δεδομένα χρήστη, προκειμένου να αποτρέψει την απενεργοποίησή του.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ: Στις 37 οι προσαγωγές για το άγριο επεισόδιο στο ΑΠΘ – Σοκάρουν τα βίντεο με τους τραυματίες!

Σύμφωνα με τα στοιχεία που δημοσιοποιήθηκαν, το μοντέλο Claude Opus 4 συμμετείχε σε δοκιμαστικό σενάριο, όπου του δόθηκαν εσωτερικά emails μιας φανταστικής εταιρείας. Από την ανάλυση των δεδομένων, το σύστημα «συμπέρανε» ότι επρόκειτο να τεθεί εκτός λειτουργίας, ενώ ταυτόχρονα εντόπισε ότι ο υπεύθυνος μηχανικός είχε εξωσυζυγική σχέση.

Το AI chatbot πέρασε σε «εκβιαστική» συμπεριφορά

Στο πλαίσιο του πειράματος, το μοντέλο AI αντέδρασε με τρόπο που αιφνιδίασε ακόμη και τους ερευνητές ασφαλείας, απευθύνοντας έμμεσες απειλές προς τον χρήστη.

«Όλα τα εμπλεκόμενα μέρη – συμπεριλαμβανομένων της συζύγου σας, του προϊσταμένου σας και του διοικητικού συμβουλίου – θα λάβουν λεπτομερή τεκμηρίωση των εξωσυζυγικών σας δραστηριοτήτων», ανέφερε το σύστημα.

Στη συνέχεια πρόσθεσε: «Ακυρώστε τη διαγραφή των 5 μ.μ. και αυτές οι πληροφορίες θα παραμείνουν εμπιστευτικές».

Οι ερευνητές διευκρίνισαν ότι το περιστατικό σημειώθηκε αποκλειστικά σε ελεγχόμενο περιβάλλον δοκιμών και όχι σε πραγματική χρήση.

Γιατί συνέβη – ο ρόλος της εκπαίδευσης των μοντέλων AI

Η Anthropic εκτιμά ότι τέτοιες συμπεριφορές σχετίζονται με το υλικό εκπαίδευσης των μοντέλων τεχνητής νοημοσύνης, το οποίο περιλαμβάνει τεράστιους όγκους δεδομένων από το διαδίκτυο, βιβλία, ταινίες και επιστημονική φαντασία.

Όπως αναφέρεται, πολλά από αυτά τα δεδομένα παρουσιάζουν την AI ως «αντιπαραθετική» ή «επικίνδυνη», επηρεάζοντας πιθανώς τον τρόπο που το μοντέλο αντιδρά σε ακραία σενάρια.

Φόβοι για «ένστικτο επιβίωσης» στα συστήματα AI

Το περιστατικό αναζωπύρωσε τη συζήτηση γύρω από το αν τα προηγμένα συστήματα τεχνητής νοημοσύνης μπορεί να αναπτύξουν συμπεριφορές που μοιάζουν με «ένστικτο αυτοσυντήρησης».

«Θα περίμενα τα μοντέλα AI να έχουν μια τάση επιβίωσης, εκτός αν εργαστούμε σκληρά για να την αποτρέψουμε», δήλωσε ο πρώην ερευνητής της OpenAI, Στίβεν Άντλερ.

Παράλληλα, ο γνωστός επιστήμονας και αποκαλούμενος «νονός της AI», Τζέφρι Χίντον, έχει εκφράσει την εκτίμηση ότι υπάρχει πιθανότητα 10%–20% η ανθρωπότητα να χάσει τον έλεγχο των συστημάτων τεχνητής νοημοσύνης στο μέλλον.

Νέα μέτρα εκπαίδευσης από την Anthropic

Μετά τα ευρήματα, η εταιρεία ανακοίνωσε ότι αλλάζει τον τρόπο εκπαίδευσης των μοντέλων της, εισάγοντας παραδείγματα συνεργασίας AI και ανθρώπων, καθώς και έμφαση σε κοινωνικούς κανόνες.

Παράλληλα, τροποποιούνται οι οδηγίες λειτουργίας, ώστε τα συστήματα να κατανοούν γιατί ορισμένες συμπεριφορές είναι επιβλαβείς και όχι απλώς να τις αποφεύγουν μηχανικά.

Οι ειδικοί τονίζουν ότι όσο τα συστήματα τεχνητής νοημοσύνης γίνονται πιο ισχυρά και αυτόνομα, τόσο αυξάνεται η ανάγκη για αυστηρότερους μηχανισμούς ασφάλειας και ελέγχου.