לפני 75 שנה הציע מדען המחשב אלן טיורינג מבחן שיאפשר לשפוט אם מחשב מפגין התנהגות תבונית. האם הוא עדיין רלוונטי כיום, בעידן מודלי השפה המתקדמים?

המחשבים המשוכללים של ימינו החלו את דרכם כמכונות מְחַשְּׁבוֹת: אוסף של יחידות חישוב שעובדות בתיאום ביניהן בהתאם להוראות מוכתבות מראש, ומבצעות חישובים מורכבים במהירות וביעילות. באמצע המאה ה-19, המתמטיקאית עדה לאבלייס (Lovelace), שנחשבת למתכנתת הראשונה, תרגמה וכתבה רשימות על התכנון הראשוני של "המנוע האנליטי", שהיה מעין מחשב מכני. לאבלייס טענה שיכולותיה של מכונת חישוב כזאת יוגבלו למה שאנחנו יודעים להורות לה להפיק, ושהיא לא תוכל להמציא דברים בכוחות עצמה. מימוש המנוע האנליטי לא הושלם, בין השאר בגלל הטכנולוגיה המוגבלת של התקופה וקשיי מימון. 

המחשבים המוקדמים נולדו בפועל במהלך במלחמת העולם השנייה. הטכנולוגיה הצעירה פרצה דרכים שאפשרו להתמודד עם בעיות חדשות, שעד אז לא היה להן פתרון מעשי מפאת כמות החישובים שהצריכו. חוקרים והוגים העריכו אז שגבולות היכולת של המכונות הללו תלויים בכמות יחידות הזיכרון או החישוב שלהן, וניסו להבין את הפוטנציאל הגלום בחידוש. המכונות שהחליפו את בני האדם בפעולות חישוב מורכבות עוררו שאלות על ההקבלה בין פעולתן לבין מחשבה אנושית. 

ב-1950 העריך המתמטיקאי והמהנדס קלוד שאנון (Shannon) את הסיבוכיות החישובית של משחק השחמט ותיאר איך מחשב יכול לשחק במשחק שנתפס כאתגר מחשבתי מורכב. באותה שנה פרסם המתמטיקאי ומדען המחשב אלן טיורינג (Turing), שהיה ממניחי היסודות של הבינה המלאכותית, מאמר מכונן בשם "מכונות חישוב ואינטליגנציה" וכתב בו: "אני מאמין כי בסוף המאה השימוש במושגים והדעה הרווחת ישתנו עד כדי כך שנוכל לדבר על מכונות חושבות בלי לצפות להתנגדות". טיורינג פספס רק במקצת כשחזה שנראה בינה מלאכותית כבר בשנת 2000. כיום, למרות ההתפתחויות הדרמטיות שחלו בשנים האחרונות בביצועי הבינה המלאכותית, טרם התפייסנו עם החיבור בין המושגים "מכונה" ו"חשיבה".


ENIAC, שנבנה ב-1946, נחשב למחשב הדיגיטלי הרב-תכליתי הראשון בעולם. הופעת המחשבים פתחה את הדלת לחישובים מורכבים שלא היו נגישים קודם לכן | US ARMY, Science photo library

מחשבות על חשיבה

כבר לפני מאות שנים התייחסו בני האדם לחשיבה כיכולת שמייחדת את המין שלנו משאר בעלי החיים. בחיבורו "מאמר על המתודה", משנת 1637, סבר הפילוסוף והמתמטיקאי הצרפתי רנה דקארט (​​Descartes) שבעלי החיים אומנם דומים לנו במבנה שלהם, אבל "לא ניתן למצוא בהם אף אחת מהפעילויות התלויות במחשבה, שהן לבדן שייכות לנו כבני אדם" (הוצאת כרמל, 2008. תרגום: עירן דורפמן). את בעלי החיים, לעומת זאת, הוא טען שאפשר לחקות באופן בלתי ניתן לאבחנה באמצעות מכונות בעלות איברים מלאכותיים ומראה חיצוני מעוצב. לדעת דקארט, הישויות המכניות האלה, בדומה לבעלי החיים, נבדלות מהישות האנושית ביכולת המחשבה שלהן.

בשנות החמישים של המאה העשרים החל השימוש במערכות מלאכותיות גם מהכיוון ההפוך – כאמצעי לחקור את המנגנונים של המחשבה. הנוירופיזיולוג גריי וולטר (Walter) ביקש לבחון אילו התנהגויות מורכבות אפשר ליצור באמצעות רשת של קשרים פשוטים. הוא פיתח צבים מלאכותיים, שהיו מעין רובוטים שהזכירו בצורתם שריון של צב, ונעו וניווטו במרחב בעזרת חיישני אור ומגע. יכולות החישה האלה אפשרו להם לעקוף חפצים שהפריעו להם בדרכם ולהגיע לפי הצורך לעמדת טעינה חשמלית, בדומה לרובוטים שואבי האבק של ימינו.

במאמר שבו וולטר הציג את הצבים הוא תיאר את ההתנהגות של הרובוטים שלו כשהם נמצאים מול מראה כהתנהגות שאילו חיות היו מבטאות אותה, היינו מייחסים אותה למודעות עצמית. אומנם הניסוח היה זהיר, אבל אפילו אצלו אפשר היה לזהות את הנטייה להשוות מכונות לחיות או בני אדם. 

הצבים של גריי וולטר. בנה מערכות מלאכותיות שמדמות חשיבה כדי ללמוד על מנגנוני החשיבה

שאנון, המתמטיקאי שהתעניין בין היתר במחשבים שמשחקים שח, פיתח רובוטים דמויי עכברים שפתרו חידות מבוכים. הפסיכיאטר רוס אשבי (Ashby) הגה בספרו "תכנון של מוח" מערכת שיכולה להתאים את עצמה לסביבה באמצעות פעולה וקליטת משוב. כשוולטר תיאר במאמרו את המכונה של אשבי הוא טען שאף על פי שמדובר במכונה מעשה ידי אדם, אי אפשר לדעת בכל רגע באיזה מצב בדיוק היא נמצאת בלי "להרוג" אותה ולנתח את מה שהגדיר "מערכת העצבים" שלה. בני האדם נוטים מטבעם להאניש, כלומר לייחס תכונות אנושיות ליצורים לא אנושיים: בין אם חיות או חפצים דוממים ומכונות. מכאן אנו גם נוטים לייחס להם תבונה.


האם צריך חשיבה כדי לפתור חידות? רובוט דמוי עכבר בתוך חידת מבוך, פרי פיתוחו של קלוד שאנון | ויקימדיה, מוזיאון המכון הטכנולוגי של מסצ'וסטס (MIT)

בוחן בעל פה

על קו הגבול שבין רובוטים שמחקים פעולות המצריכות מחשבה למחשבים שיכולת החישוב שלהם מתפתחת בצעדים מהירים, טיורינג פתח את מאמרו על מכונות חישוב ואינטליגנציה בשאלה הפרובוקטיבית "האם מכונות יכולות לחשוב?". במאמר משנת 1949 הציע הנוירולוג הבריטי ג'פרי ג'פרסון (Jefferson) לחכות ולא להודות שמחשב מסוגל לחשוב עד שיצליח לכתוב סונטות כמו שייקספיר, וגם לאבלייס לפניו ציינה שהמחשב לא יהיה יצירתי. אך טיורינג הציע לשנות גישה ולשאול: האם נוכל להבדיל בין מחשב לבין ישות חושבת?

כפתרון הוא הציע מבחן שהוא כינה "משחק החיקוי" וכיום נהוג לקרוא לו "מבחן טיורינג". מבנה המבחן פשוט: בוחן משוחח עם שני נבחנים, שאחד מהם אדם והשני מכונה, בלי לדעת מי הוא מי. הבוחן רשאי לשאול את שניהם סדרת שאלות לפי בחירתו. הוא יכול למשל לבקש, "חבר לי סונטה". התגובה האפשרית: "איני יודע איך. מעולם לא הסתדרתי עם שירה" תהיה תשובה אמינה גם לאדם וגם למכונה המתחזה לאדם. בתום סדרת השאלות נדרש הבוחן להכריע מי מהנבחנים הוא האדם ומי המכונה. אם המכונה תצליח להתל בבוחן ולשכנע אותו שהיא האדם, היא תעמוד במבחן. כל התקשורת במבחן תיעשה בהקלדה, מאחר שבממשק הזה אין פער מהותי ביכולות בין האדם למכונה, בהשוואה לכתב יד.


בוחן משוחח עם שני נבחנים, שאחד מהם אדם והשני מכונה, בלי לדעת מי הוא מי. אילוסטרציה של מבחן טיורינג | Shutterstock, Jesus Sanz

המבחן המחיש שמבחינת טיורינג אין חשיבות למבנה הפנימי של המערכת שנרצה לייחס לה את היכולת לחשוב – הדבר היחיד שחשוב הוא מבחן התוצאה. מהבחינה הזאת אין חשיבות להגדרות של  חשיבה, שבוודאי ישתנו בעתיד ככל שנלמד יותר על הנושא. מספיק להתמקד ביכולת שלנו להבחין בין יצור שאנחנו מסכימים לגבי יכולת החשיבה שלו לבין יצור שאיננו בטוחים שהוא ניחן ביכולת הזאת. "התפיסה שהסימולציה והדבר עצמו הם היינו הך היא המורשת הגדולה של משחקי החיקוי", מדגיש פרופ' אהוד לם, פילוסוף והיסטוריון של הביולוגיה, בשיחה עם אתר מכון דוידסון.

מנגנון האבחנה שהציע טיורינג מבוסס על שיחה בשפה טבעית. דקארט הזכיר אף הוא מבחן דומה. "לעולם לא תוכלנה המכונות להשתמש במילים או בסימנים אחרים ולחברם זה לזה כפי שאנו עושים כדי להודיע את מחשבותינו לזולת", כתב בחיבורו. הוא אף פירט שאפשר להעלות על הדעת שמכונה תדע להגיב לקלט ממוקד כמו מגע ותעיר לנו אם נכאיב לה, אבל היא "לא תוכל לצרף מילים בדרכים שונות על מנת להשיב בהיגיון על כל מה שנאמר בנוכחותה".

מבחן טיורינג הפך לשם נרדף למבחן של יכולת ביטוי של מחשבה, אולם עצם ההתבססות שלו על שפה עלול להתברר כנקודת תורפה מרכזית. 

הסרט "משחקי מלחמה", 1983. גם בתרבות הפופולרית שיחה עם מחשב מתקשרת לשאלות על תבונה

נופלים בפח

נדלג קדימה לימינו. צ'אט-GPT הוא איש שיחה ותיק שלנו כבר קרוב לשנתיים וחצי. אנחנו שואלים אותו שאלות ידע בניסוח טבעי במקום לשקוד על ניסוח שאילתות למנועי חיפוש, פונים לעזרתו בשאלות מקצועיות ואפילו מסתייעים בו כשאנחנו זקוקים לעצות רפואיות או לתמיכה נפשית - אם כי לא בטוח שזה רעיון טוב. הבוטים מקבלים מאיתנו עדיפות על פני חיפוש בגוגל בזכות התשובות המפורטות שהם נותנים לנו, והאפשרות להמשיך את החיפוש בשאלות המשך שמתגלגלות כמו שיחה. הבוטים מקבלים הזדמנות לענות על שאלות שבדרך כלל מצריכות תשובה מקצועית מהימנה ביותר, בזכות תשובות שמנוסחות באופן אמפתי, שפה שירותית נגישה והרבה מאוד סבלנות.

לא במקרה תחושת השיחה הטבעית, שהיא גם מה שאמור לשמש כמבחן, מושכת אותנו במיוחד. הנטיה הזו נצפתה כבר בראשית ימי השיחות עם מכונות, גם כשהמלאכותיות שלהן בלטה לעין. בשנת 1966 פותחה במכון הטכנולוגי של מסצ'וסטס (MIT) התוכנה האינטראקטיבית אלייזה. התוכנה עוצבה עם יכולת בסיסית לזהות תבניות בקלט, כך שמילים מסוימות שיכתוב המשתמש יניבו תשובה מוכנה מראש, מתוך אוסף תשובות שמדמות אמפתיה והבנה. לקלט כמו "אני מדוכדך היום" תשיב התוכנה "תוכל להסביר מדוע אתה מדוכדך היום?" או "אני מצטערת לשמוע שאתה מדוכדך". 

האמפתיה הזאת דרבנה משתמשים להתמסר לשיחה ואף למסור לה מידע אישי שהם אינם חולקים עם כל אחד, אף שברור שהתגובה על המסך אינה תולדה של רגש אמיתי. ג'וזף וייזנבאום (Weizenbaum), שיצר את אלייזה, סיפר שהמזכירה שלו שקעה בשיחה עם התוכנה וביקשה שייצא מהחדר כדי ששתיהן תוכלנה לשוחח בפרטיות.

התופעה המכונה "אפקט אלייזה" מתוארת כנטייה של אנשים לזהות סימנים של הבעת הבנה רגשית בתוך מחרוזות של מילים שמחבר מחשב. בניסויים מבוקרים שבהם בני אדם שוחחו עם רובוטים מתוסרטים המשמשים להוראה וחינוך, נמצא כי כשרובוט כזה פלט תגובות שמבטאות לכאורה שהוא מזהה את הרגשות של בן שיחו, המשתתפים נוטים לקבוע שהרובוט באמת תופס את רגשותיהם ומסוגל להשפיע עליהם, לעומת תסריטים שבהם הרובוט תוכנת להגיב במשפטים שלא מבטאים תפיסת רגשות אנושיים. יש לזכור גם שהנטייה של בני האדם להאניש חפצים ובעלי חיים אחרים מובילה גם לייחוס רגשות או אמפתיה ליישויות אלו, ושתקשורת קולית או כתובה משבשת את כושר השיפוט ביתר שאת. יש מי שהטשטוש הזה משרת אותו.

התוכנה אלייזה עוצבה לפלוט מענה בהתאם למילות מפתח בקלט מתוך מאגר תשובות מוכן מראש

אינטרס כלכלי

OpenAI, גוגל, מיקרוסופט, ושאר החברות שמייצרות בוטים כמו אלה שאיתם אנחנו מנהלים שיחות כבר שנתיים וחצי, הן חברות מבוססות רווח. חודשיים בלבד אחרי ההשקה של צ'אט-GPT כבר הוצעה גרסה מתקדמת יותר בתשלום, ומאז החברה עברה למודל עסקי של מינויים חודשיים שבו הגרסאות הפשוטות, הלוקות בחסרונות, זמינות בחינם לכל דורש, בעוד הגרסאות החדשות והמשופרות מוגנות מאחורי חומת תשלום. לחברות הללו יש אינטרס כלכלי ותחרותי לייצר בוטים שהשיחה איתם תמשוך את המשתמשים להישאר ולהמשיך לשלם.

אם לשם כך הבוט הזה צריך לפלוט משפטים נעימים יותר ולהגיב תגובות מכילות ומתחנחנות, זה מה שיתמרנו אותו לעשות. הבוטים האלה מבוססים על מודלי שפה טבעית שמאומנים על כמויות טקסט אדירות. באופן מעשי, כשמתקבל קלט – משפט כלשהו – מהמשתמש, המודל משרשר בתור תשובה מילה אחרי מילה את ההמשך הסביר על פי אומדנים סטטיסטיים. לעיתים המודלים האלה מייצרים פלטים לא עקביים ולא הגיוניים המכונים "הזיות", ונראה כי המפתחים מתפשרים על נכונות התשובות כדי לספק מענה נחרץ. חִשבו בעצמכם איזו שיחה נוח לכם יותר לנהל – עם בוט מסתייג וחסר ביטחון או עם בוט החלטי. מפתחי הבוטים האלו מתאימים את אופי הפלטים כך שייטיבו את חוויית המשתמש וישאירו אותו נאמן, עקבי ומשלם. "רטוריקה שמשתמשת במושגים של תבוניות משרתת את האינטרסים של חברות ההייטק", מציין לם.

טיורינג לא יכול היה לחזות את קיבולת הזיכרון והיכולת החישובית שתאפשר למודלים כאלה לסרוק נתחים משמעותיים מהטקסטים הזמינים ברשת האינטרנט – שגם אותה לא היה ביכולתו לנבא. לפי ההערכות האימון של מודל שפה כזה נעשה על מצע של מיליארדי מילים או אפילו טריליונים. הטקסטים שמשמשים לאימון מגיעים מכל רחבי הרשת, כלומר מכותבים מגוונים, מתרבויות שונות, ומשלל תקופות היסטוריות. על בסיס אוספים כאלה הם לומדים סטטיסטיקות על צירופי מילים סבירים.


הבוטים מבוססים על מודלי שפה טבעית שמאומנים על כמויות טקסט אדירות. אילוסטרציה של מודל שפה שלוקח מידע ממקורות שונים. האיור נוצר בעזרת בינה מלאכותית | Shutterstock AI

לם מציין שהאוסף האקלקטי שהמודלים לומדים עליו מעורר את "פרדוקס הדילמה הדיסקורסיבית". כשהאוסף שעליו מבוסס המודל מורכב ממקורות שונים ומגוונים, אין אמצעי סטטיסטי שיאפשר להסיק ממנו מסקנה אחידה ועקבית. כל דובר שתורם טקסט למאגר מידע כזה יש תפיסת עולם משלו ורעיונות משלו, ואי אפשר להסיק מסקנות מכולם יחד בלי להיקלע לסתירות. מערכת כזאת תהיה מעצם המבנה שלה בן שיח מבולבל למדי.

אפשר למצוא ברשת משחקים שמאפשרים לכאורה לשחק במבחן טיורינג. האתרים האלה מאפשרים לקיים שיחה בצ'אט אנונימי ובסיומה לנסות להכריע אם היא התנהלה מול משתמש אחר שנכנס לאתר כדי לשחק או מול צ'אט בוט מלאכותי. משוב כזה יכול לשמש גם כדי לאסוף מידע שיסייע לחברות לאמוד את רמת האמינות של הבוטים שלהם, ולהבין איך צריך לתמרן אותם על מנת לטשטש את חותמת המלאכותיות שמבחינה בשיחה כתובה בינם לבין בני אדם בשר ודם.

צ'אט-GPT עצמו פולט מדי פעם שתי תשובות אפשריות לאותה שאלה ומבקש מהמשתמשים לדרג איזו תשובה הועילה להם יותר. כך גם אנחנו שותפים באופן פעיל בהטיית הפלט המילולי, אט-אט, לעבר אזור הנוחות שלנו, ואזור הנוחות שלנו הוא אנושי.

מניסיוני האישי אני יכולה לספר שכשאני משתמשת בצ'אטים כאלה אני יכולה להתנסח בנימוס ובגינונים שאופייניים לשיחה עם בני אדם, או להיפך – להתבטא בקוצר רוח כשאני לא מקבלת את מבוקשי. עצם השיחה מעוררת בנו את הנטייה להתבטא כאילו מולנו נמצא יצור חושב ומבין. כבני אדם אנו נוטים להימשך אל מה שאנו תופסים כיצור תבוני. זה לא אומר שהוא באמת תבוני, אבל הנטיה לתפוס אותו ככזה מרפה את כושר השיפוט שלנו.


צ'אט-GPT שואל כבדרך אגב איזה תשובה המשתמש מעדיף. המשוב יסייע לגרסה משופרת של הבוט לספק תשובות שדורגו כמועדפות, בתהליך שנקרא למידה בעזרת חיזוק ומשוב | צילום מסך משיחה עם הצ'אט

להיכנס לראש של המכונה

מודלי רשתות הנוירונים שעליהן מבוססים הצ'אטים המשוחחים הם עצומים ומורכבים. קשה, ולפעמים בלתי אפשרי להסביר מדוע הרשת מעדיפה לפלוט פלט אחד ולא אחר. אפילו מדעני המחשב והמפתחים של המערכות האלה לא יודעים להסביר מה בדיוק הרשת מעבדת ואם היא מייצגת את הנתונים בדרך דומה למושגים שמשמשים אותנו, בני האדם. ההקבלה בין רשתות נוירונים מלאכותיות לבין המוח רחוקה מלהיות מלאה, אולם יש חפיפה לא מעטה בין גישות המחקר, וייתכן שחקר של מערכת אחת יסייע לנו להבין טוב יותר את השנייה.

מבחן טיורינג ממשיך להדהד גם היום, בין השאר כי הוא משתמש בשיטת אבחנה שנראית לנו נוחה – שפה כתובה. הנוחות הזאת, כאמור, פוגעת באובייקטיביות שלנו. יש עוד שאלות רבות שאפשר לשאול על תבונה ועל היכולות של הטכנולוגיות החדשות, שממשיכות להתקדם בקצב מסחרר. "אנחנו מתמקדים יותר מדי בממשק ובייצוג הלשוני", טוען לם. המבחן שהוצע לפני 75 שנה הוא נקודת מוצא טובה לדיון חשוב, אבל כפי שציין טיורינג עצמו, פני הדברים מתעדכנים ומשתנים. גם המבחן ראוי לתיקונים.

תודה לפרופ' אהוד לם מאוניברסיטת תל אביב על הסיוע בהכנת הכתבה.

2 תגובות

  • דולב

    מבחן טיורינג

    לאחרונה גם יש אתר שעושה את מבחן הטיורינג, שנקרא human or not, ובהתבסס על התוצאה של חלק מהאנשים...
    כן, אני מסכים שצריך לעדכן את המבחן טיפה

  • אלון כהן

    נשמע שאנחנו בדרך לווייט-קומפ

    אני לא רובוט