סימון אוטומטי של טוקבקיסטים אינטליגנטים

כקורא נלהב של טוקבקים ב-ynet, אני נתקל באופן קבוע בבעיה: כתבות העוסקות בנושאים שנויים במחלוקת זוכות לכמות אדירה של תגובות, לעיתים כמה מאות ובמקרים קיצוניים אף אלפים.

קריאת כמות כזו של תגובות אינה אפשרית במגבלות זמן סבירות, מה גם שרובן המוחלט של התגובות הוא זבל, וקריאתן פשוט מבזבזת את זמנו של הקורא. לכן, נדרש מנגנון שיזהה את התגובות הערכיות ביותר (ערכיות במובן בעלות ערך, ז"א התגובות ששוות קריאה), ויסמן אותן עבור הקוראים. בהמשך, אציג גישה מעניינת למנגנון כזה, שאכנה SMARTCHA.

ראשית, יש להגדיר מה הופך תגובה לערכית, ובפרט האם מדובר במדד אובייקטיבי. האם יתכן שתגובה מסויימת תחשב שוות קריאה בעיני, ובזבוז זמן בעיני אדם אחר? כנראה שכן. למרות זאת, מדובר לדעתי במדד שהוא במהותו אובייקטיבי או לפחות דומה מאוד אצל אנשים שונים, ובסופו של דבר תגובה ערכית תחשב לכזו בעיני רוב האנשים.

מציאת התגובות הערכיות, אם כן, היא לכאורה בעיה קלאסית לפתרון בעזרת חוכמת ההמונים: נבקש מאנשים לדרג את התגובות שהם קוראים, ונניח כי התגובות שיקבלו את הדירוג הממוצע הגבוה ביותר הן הערכיות ביותר. מאוחר יותר, נסמן את התגובות המומלצות בצורה בולטת.

ואכן, נראה שכך בדיוק פועל מנגנון המלצת התגובות ב-ynet. הקורא יכול לדרג כל תגובה, ולמעשה לבחור בין שני דירוגים אפשריים: "מומלץ" או לא. האתר סופר את מספר ההמלצות שקיבלה כל תגובה, וברגע שהוא עובר סף מסויים, כותרת התגובה מודגשת.

לגישה זו כמה בעיות מהותיות:

  1. הטיה חזקה לטובת התגובות הראשונות, שמטבע הדברים זוכות למספר הקוראים הגדול ביותר (טענה זו ניתנת כמובן להוכחה סטטיסטית).
  2. הטיה הנובעת מכך שלא כל הקוראים משתמשים במנגנון הדירוג: אם לקוראים שנוטים יותר לדרג תגובות יש במקרה גם העדפות תוכן משותפות (למשל חיבה לבדיחות סטייל "כנסו… עכשיו תצאו!", או אפילו העדפות פוליטיות דומות), המנגנון כולו קורס.
  3. פרק זמן ארוך יחסית מרגע שתגובה עולה לאתר, ועד שתסומן כמומלצת.
  4. כמעט בלתי אפשרי להגן על המערכת מהטיה ע"י גורמים בעלי אינטרס שמעוניינים לקדם תגובות מסויימות. גורמים כאלה יכולים להיות חברות מסחריות, מפלגות, ואפילו מיזמים כמו giyus.org. דוגמא מוכרת (מתחום אחר דוקא) היא פרשת הזיופים בכוכב נולד 3.

חלק מהבעיות ניתנות לפתרון: בעיה 1, למשל, נפתרת מיידית אם סדר התגובות נקבע בכל פעם מחדש באקראי (במחיר של שבירת הרצף של תגובות לתגובות: "34 - אתה אדיוט!"). אבל באופן כללי מדובר בבעיות אינהרנטיות של השיטה, ולכן קשה מאוד להתגבר עליהן. בפועל, ניתן לראות שמנגנון ההמלצות של ynet משיג תוצאות בינוניות ביותר.

אציע כעת דרך אלטרנטיבית לסימון תגובות ערכיות, תחת ההנחה שיש קשר חזק בין אינטליגנציית המגיב לערכיות התגובה. בפרט, ההנחה היא שככל שהמגיב אינטליגנטי יותר, כך סביר יותר שהתגובה תהיה ערכית. בעיית סימון התגובות הערכיות מצטמצמת, אם כן, לשאלה כיצד ניתן לזהות באופן אוטומטי את המגיבים האינטליגנטים ביותר.

את הפתרון אני מכנה SMARTCHA, והוא שילוב של שאלות ממבחני IQ עם מערכת CAPTCHA.

CAPTCHA היא שיטה שפותחה באוניברסיטת קרנגי מלון, במטרה לזהות בצורה אוטומטית האם משתמש במערכת הוא אדם או מחשב (מדובר במעין מבחן טיורינג מהיר ואוטומטי). השימוש העיקרי בשיטה הוא וידוא שפתיחת חשבון דואר (ב-gmail, למשל) מתבצעת ע"י אדם, כדי למנוע ממערכות אוטומטיות לפתוח חשבונות דואר רבים שאח"כ ישמשו לשליחת ספאם.

השיטה מבוססת על הצגת תמונה מעוותת של טקסט שניתנת לזיהוי בקלות יחסית ע"י אדם אך לא ע"י מחשב, והמשתמש נדרש להקליד את הטקסט מחדש כדי להוכיח שהוא אנושי. לדוגמא, התמונה הבאה מקודדת את הטקסט smwm:

captcha.jpg

מבחני IQ הם מבחנים המודדים אינטליגנציה. קיימים סוגים רבים של מבחנים ושל שאלות, ואני אתמקד בסוג אחד של שאלות שמתאים במיוחד ליישום במערכת דמוית CAPTCHA: שאלות Matrix Reasoning מתוך מבחן האינטליגנציה של וקסלר.

בשאלת Matrix Reasoning מוצגת מטריצת ריבועים שבה ריבוע אחד חסר. המטרה היא לזהות את החוקיות הפנימית במטריצה, ולסמן את הריבוע החסר מתוך מספר אפשרויות. לדוגמא:

wechsler.jpg

נראה קל? לא בהכרח. הנה דוגמא קשה יותר מתוך מבחן הדוגמא של מכון נועם:

wechsler-q.jpg

wechsler-a.jpg

SMARTCHA, כאמור, היא שילוב של שתי השיטות: עם שליחת התגובה, תוצג למגיב שאלת Matrix Reasoning, וינתן לו פרק זמן מוגבל (נניח דקה) לענות עליה. במידה והמשתמש ענה נכון, המערכת תסמן את התגובה כ"אינטליגנטית פוטנציאלית". היתרון בשימוש דוקא בשאלות מסוג Matrix Reasoning הוא שהן ניתנות לייצור אוטומטי ע"י מחשב (בדיוק כמו שאלות CAPTCHA).

אני מאמין שבחירה נכונה של שאלות תאפשר לזהות אחוזון אינטליגנציה לפי בחירתנו. ז"א, רמת שאלות מסויימת תזהה את 10% האינטליגנטים ביותר באוכלוסיה, רמת שאלות אחרת תזהה את 20% האינטליגנטים ביותר וכו'. שיפור לשיטה יהיה לזכור את תוצאות העבר של כל משתמש ואת פרק הזמן שנדרש לו להגיע לתשובה הנכונה בכל פעם, וכך להגיע להערכה מדוייקת יותר של האינטליגנציה שלו.

חשוב להדגיש ששאלות Matrix Reasoning אינן מדד יחיד לאינטליגנציה, ויתכן שאדם אינטליגנטי למדי יתקשה לפתור דוקא שאלות מסוג זה. יחד עם זאת, מדובר במדד אינטליגנציה טוב יחסית, ואף כזה שאינו תלוי תרבות.

כאלטרנטיבה, ניתן להציג בפני המגיב שאלה אמריקאית העוסקת בתחום הכתבה עליה הוא מגיב (מחשבים, בישול וכו'). ההנחה כאן היא שיש קשר חזק בין מידת ההכרות של המגיב את נושא התגובה לבין ערכיות התגובה. בעיות: קושי לחבר את השאלות אוטומטית, תלוי תרבות (שפה, למשל), קושי ליישום בתחומי ידע שאינם ממוקדים (פוליטיקה, מוסר וערכים, יחסים בינו לבינה).

לסיכום, תיארתי שיטה אוטומטית לזיהוי תגובות של טוקבקיסטים אינטליגנטים, שאינה מבוססת על שקלול המלצות של גולשים אחרים. כמובן, גם לשיטה הזו יש בעיות, ובודאי לא מובטח שתמליץ תמיד על התגובות הערכיות ביותר. למרות זאת, אני מאמין שיש לה פוטנציאל רב להגיע לתוצאות טובות, והייתי שמח לראות שילוב של שיטת ההמלצות של ynet עם השיטה שלי.

פלאגין לוורדפרס, מישהו? :)

40 תגובות לפוסט ”סימון אוטומטי של טוקבקיסטים אינטליגנטים“

  1. מאת דרומי:

    הבעיה היא שמטריקס ריזונינג לא רק שאינן מדד יחיד לאינטליגנציה - הן מדד מאוד חד מימדי לאינטיליגנציה. סוג מאוד ספציפי של אנשים יקבל ציון גבוה, ומכיוון שבמדידת סוגי אינטליגנציה עסקינן - סביר שזה ישפיע על סוג התגובות שיהפכו למומלצות.
    כיוון אחר, מעניין לא פחות אבל דורש הרשמה (בסיסית) של הטוקבקיסטים - האינטליגנציה של כותבים נמדדת על ידי איכות הפוסטים שלהם. אם כתבתי טוקבק וX אנשים ציינו אותו כמומלץ, אני מקבל ציון X, וההמלצה שלי על תגובה מסויימת תיתן לה דירוג X, וכך הלאה.
    ההנחה הבעייתית פה היא שמי שיודע לכתוב הוא מי שיודע לקרוא (מי שכותב תגובות אינטילגנטיות הוא הכי מוכשר לקבוע אילו תגובות הן אינטליגנטיות)

  2. מאת el:

    נראה לך שאדם ינסה לפתור צבר שאלות רק בשביל לכתוב תגובה? שלא לדבר על ההתנשאות שמבחן כזה מצביע עליה.
    מה שזה יעשה זה יפחית את כמות התגובות.

    אגב באנגלית השתרשה הסיומת Anyone? בתור שאלה האם יש מישהו שמוכן לעשות את הבקשה הנ"ל. בעברית זה פשוט לא זה.

  3. מאת גל:

    שאלה אחת היא מדד "מלוכלך" עם הפרעה מקרית גדולה מאוד. התשובות הן בצורת "רב-ברירה", כך שניתן לקלוע במזל. ואפילו בלי לנחש, עצם היכולת לענות על שאלה אחת ספיציפית נמצא במתאם נמוך, כנראה, עם אינטיליגנציה כוללת.
    אפשרות אחת היא לאפשר למגיב לענות על מספר שאלות לפי בחירתו לפני שהוא כותב את ההערה שלו. למשל, מגיבה תוכל לבחור בין שאלה אחת לחמש שאלות בלתי תלויות. הערך של התגובה יהיה פונקציה של פרופורציית התשובות הנכונות, אבל גם יהיה בונוס למי שענה על יותר שאלות. תגמול כזה יעודד אנשים שהצליחו בשאלה הראשונה בכל זאת לנסות שוב.

    לגבי הטייה תרבותית של מבחנים אחרים לאינטיליגנציה, זה צריך להטריד אותנו פחות בעניין הזה. למשל, תלות שפה רק תועיל. לפעמים החלק הכי מציק בהערות טוקבאק זה שגיאות כתיב ודקדוק! בכלל- שאלות גנריות של אינטיליגנציה מילולית כמו השלמת משפטים יכולות להוות מדד לא פחות טוב, במיוחד בתחום הטוקבאקים, שדורש ניסוח והבנת הנקרא.

  4. מאת סדקים - בלוג מחשבים » טוקבקיסטים אינטילגנטיים?:

    […] מסתבר שיש מי שחושב שאפשר לפתח מנגנון למציאת החיה האגדתית ”טוקבטיקוס וואיינטוס יזרעלי חכמוס“. ילא לבלבל עם החיה הידועה לעיתים בכינויים ”אחד שמבין“, ”אחד שמכיר“ ולרוב נעה בעדר. זה זן מעט שונה המונע מרגשי נחיתות והרגשת קיפוח נצחית. בבלוג דיסוננס קוגנטיבי הציעו שיטה לאיתר טוקבקיסטים איכותיים. אישית אני חושב שיש כמה פגמים בוולטים בשיטה, אבל שאפו על הרעיון. […]

  5. מאת אחת שמבינה:

    ל - 2, אתה אידיוט!

  6. מאת Jeff:

    השיטה המוצגת חשופה מאוד לבעייה שהצגת בסעיף 4 -הטייה ע"י גורמים אינטרסנטיים.
    סביר להניח שמי שיש לו אינטרס מספיק מובהק ימצא את הדך לסמן את מה שהוא כותב כאינטיליגנטי למשל העסקת מומחים בתחום מבחני צורות כפי שהיום מעסיקים טוקבקיסטים בשכר. אילו שאינם בעלי אינטרס לא ישקיעו את הזמן שהמבחן דורש (בדומה למה ש-el אומר), בכל אופן בהחלט פוסט מעניין.

  7. מאת Alexander K.:

    הנחת המוצא שלך נשמעת לי תמוהה משהו -
    האם תגובה של מגיב אינטלגנטי אמורה לנבא תוכן יותר מעניין/אינפורמטיבי/חשוב מאשר של גולש בור ?
    אני לא בטוח שקיימת קורלציה חד-משמעית, בפרט בתחום כמו כדורגל בארצנו.

    אחד היתרונות בשיטות שציינת הם הגדלת הקושי בהוספת הודעה למערכת (נדרש כח מחשבה וסבלנות לפתור את השאלות שמוצגות) ובכך מקטין את כמות האנשים שרושמים תגובות סתמיות שלא דורשות השקעה מנטלית מצידם.

  8. מאת ניר:

    מצטער לנפץ את הבועה…

    אבל הדרך הכי טובה להבטיח תגובות אינטיליגנטיות היא כתבות אינטיליגנטיות.

    בכל מקרה, כדי למצוא מנגנון טוב למיון תגובות, אתה צריך להיות מסוגל להגדיר מה סוג התגובות שאתה רוצה שישארו בחוץ, ומה סוג התגובות שאתה רוצה בפנים- בשביל זה אתה צריך לחשוב מה המטרה של תגובות… לדעתי זה לא ממש כדי להחכים את הקורא האנונימי… זה הדיון המקדמי שחסר פה

  9. מאת דיסוננס קוגניטיבי:

    el, Alexander:
    הכוונה היא לא לחייב את כל הטוקבקיסטים לענות על שאלות, ולא סתם נושא הפוסט הוא *סימון* ולא *סינון*. מגיב יוכל תמיד לבחור להתעלם מהשאלה, ואז תגובתו תתפרסם כרגיל.
    למרות זאת, למגיב אינטליגנטי יהיה אינטרס להשקיע חצי דקה נוספת ולענות על השאלה נכון - תגובתו תתפרסם כשהיא מסומנת, ומספר הקוראים שלה יגדל (והרי זו אחת מהמטרות בפרסום תגובה).

    Alexander, ניר:
    ברור שאינטליגנציית המגיב היא לא הגורם *היחיד* שמשפיע על איכות התגובה. ברור גם שכל שיטה לסימון תגובות תפספס חלק מהתגובות הערכיות ותסמן פה ושם תגובות סתמיות בטעות. אבל גם שיטה שהיא פחות ממושלמת יכולה לשפר את המצב לעומת מה שהולך היום עם התגובות ב-ynet.
    באופן אישי, אני מאמין שלאינטליגנציית המגיב יש קשר חזק לאיכות התגובה (וכן, גם בכתבות ספורט), ומה שהצעתי בפוסט היא שיטה לשקלל את הנתון הזה כחלק ממערכת אוטומטית לסימון תגובות.
    אני אשמח לשמוע על גורמים אחרים שלדעתכם משפיעים על איכות התגובה, ואפשר לחשוב ביחד האם ניתן למדוד אותם במערכת אוטומטית.

    Jeff:
    באופן כללי, כמעט בלתי אפשרי לתכנן מערכת פתוחה של תוכן פומבי, כך שתהיה חסינה לגמרי לגורמים בעלי אינטרס שמוכנים להשקיע משאבי ענק בהטיה שלה. לעומת זאת, כן אפשר לגרום להטיה כזאת להיות פחות ופחות Cost Effective.
    יש הרבה רמות של משאבים שגורמים כאלה יכולים להפעיל: משאבים אוטומטיים זולים (ספאם), משאבים אנושיים זולים (Gold Farming - נושא מעניין בפני עצמו), משאבים אנושיים בעלות בינונית (טוקבקיסטים בשכר) וכו'.
    כדי להטות את השיטה שהצעתי, צריך להפעיל משאבים אנושיים יקרים מאוד - אנשים אינטליגנטיים, או אנשים שאומנו במיוחד לענות על מבחני אינטליגנציה (אם זה בכלל ניתן לביצוע). בכל מקרה, זה ללא ספק מוריד את יחס העלות-תועלת של הטיה כזו.

  10. מאת yarons:

    אני נוטה להסכים עם ניר. אחת הסיבות שקריאת וכתיבת תגובות נהייתה כ"כ פופולרית היא שה"כתבות" בעיתונים האינטרנטיים לעיתים כתובות וערוכות בצורה ממש חובבנית, כך שאפשר לרפרף עליהן בכמה שניות ולהבין את העיקר (או להבין שהכתב תומך\מתנגד לדעה הקדומה החביבה עליך). האשם הוא כנראה במערכות העיתונים שמשלמות שכר רעב ולא דואגות למקצועיות של העובדים אצלהן.

  11. מאת ערן:

    הפתרון : מנגנוני סריקת טקסט שיסננו אוטומטית הודעות שחוזרות על עצמן (כלומר, הודעות הכוללות אחוז גבוה של מילים שכבר הופיעו בתגובות קודמות , לדוגמה הראל סקעת שולתתת וכו'). כ"כ, כבר עכשיו יש טכנולוגיות המאפשרות סריקה אוטומטית של טקסט והערכתו על פי קריטריונים כמו עושר שפה, תחביר, מבנה טיעונים וכו' (בחלק מהמבחנים של ה- ETS , המקבילה האמריקנית למרכז לבחינות וההערכה הישראלי, כבר משתמשים בטכנולוגיות מסוג זה).

  12. מאת Insatiate:

    Fascinating..I could never come up with better ideas than yours, I wonder if it ever becomes operational

  13. מאת אשי:

    רעיון נחמד מאוד, גם אם רק בגלל השם "smartcha" החביב. מה שכן, עכשיו צריך יהיה למצוא גם לזה מילה בעברית (ואיך אומרים captcha אתם שואלים את עצמכם?)

  14. מאת אדוארד:

    אני חולק על דעותיך ככלל.
    דבר ראשון, אני בספק עם יש בנמצא "יותר מדי טוקבקים", ואם כן - שמנהלי האתר יעברו עליהם וימחקו אותם.
    ממשק נוח של מחיקת/סימון הודעות יעזור יותר משיטה למציאת האינטילגנציה של המגיב לסינון וסימון הודעות.

    ישנם סממנים מסויימים שמערכת ממוחשבת יכולה לזהות בעצמה, ולמחוק/לסמן בעצמה, כמו ריבוי סימני קריאה, או חזרה על אותה האות יותר מכך וכך פעמים ברצף. אבל, אני חושש שמערכת ממוחשבת לא יכולה להעביר ביקורת על בן אדם, אולי רק בגלל אמונתי שמותר האדם מן המכונה הוא בחזקת קיים.

    "טוקבקיסטים" רבים הם אנשים עובדים, שבזמן בו הם אמורים לעבוד, או בהפסקותיהם, בודקים את החדשות באתרי האינטרנט. האם הם יחלו להתמודד עם חידות, או שיעדיפו פשוט לא להגיב?

    ולסיכום - מכיוון שכל כך קל להגיב לכתבות ופרסומים, ואנשים עושים זאת בחוסר שיקול דעת וקלות ראש, אולי מוטב לא לייחס חשיבות רבה ל"טוקבקים", כפי שמייחסים להם היום בשיח הישראלי?

  15. מאת יפתח:

    סחתין על הבלוג דני
    במקרה הגעתי לכאן דרך כתבה באתר אחר

    מזמן לא פגשתי התייחסיות וכתיבה כלכך מענינת מקצועית ומדעית

    כל הכבוד
    המשך כך

    וחגים שמחים
    יפתח

  16. מאת דיסוננס קוגניטיבי:

    תודה רבה, יפתח :)

  17. מאת יוני:

    פתרון מהשרוול - להוסיף לאופציה של המלצה על התגובה, אופצייה של מחיקת התגובה
    ועוד שיטה לעשות מדד של כמות מילים,באמצעותו תגובות קצרות (עד 10 מילים למשל) ימחקו לאחר פרק זמן מסוים מהופעתן

    בברכת דוד תעשה לי ילד וחג שמח

  18. מאת אביטל:

    פוסט מעניין ומרתק, כרגיל.

    הרעיון ככלל מעולה, אבל לעניות דעתי קשה להוכיח קשר ישיר בין אינטיליגנציה (כפי שהיא מתבטאת במבחנים מהסוג שהצגת או דומים) ובין תגובות מעשירות וראויות לקריאה (רהיטות אינה בהכרח ערובה לאיכות התגובה).
    בעיניי דווקא חלק מהתגובות המעניינות ביותר יכולות להיות מהסוג הדבילי ביותר - בדיחות מין מטופשות, מניפסט רווי שנאת שמאלנים (סליחה, סמולנים) שמעיד על שולחו, וידוי אישי קורע לב ומרובה שגיאות כתיב וכו', כלומר כאלה שעל פי שיטתך יידחקו לשוליים יחד עם שאר ווידויי הפקצות וה"מישהו שמבין".
    אם כבר, הייתי מציעה לתת דירוג שלילי לתגובות על פי מילות מפתח, למשל כאלה שמכילות "כנסו", הופעת "חחח…" באורכים שונים, ריבוי סימני קריאה, הכפלת אותיות מיותרת וכיו"ב.

    הו, כמעט שכחתי- חג שמח!

  19. מאת יוני פלוס:

    המטרה העיקרית של talkback היא לתת לעם לומר את דברו.
    ומקריאה לא מעמיקה שלי של talkbacks אני מעדיף עקיצה צינית ומצחיקה של קורא עם IQ גבוהה מאוד בחוש הומור מאשר ניתוח מעמיק של איזה פצלן אינטיליגנטי שאוהב את עצמו….
    אפילו אם היית עושה את הבדיקה הזאת לכותבי המאמרים עצמם הרי שאתה לא יכול להגיד לי שתצפה לקבל כתבות איכותיות יותר מהזבל שבדרך כלל יש באינטרנט.
    יש לי הצעה פשוטה לבעיה הזאת אבל לא ילקקו לאף אחד את התחת בגללה ככה שלא בטוח שתאהבו. עורך כישרוני וצעיר יסנן גם את הכתבות וגם את ה- talkbacks. אבל אז תצטרך למצוא למזל משדרות מקום להגיד "בני זונות" אחרי שנפל לה קאסם על הבית…. הרי זה היה כל הרעין של talkbacks מהתחלה לא?????

  20. מאת נחמן:

    רק בשביל ליישב ויכוח המאיים על שלום ביתי,
    התשובה הנכונה לשאלה השניה ב - Matrix Reasoning היא 3?
    אכן, שאלה קשה… שזה שלקח לי זמן לענות עליה גורם לי לפחד לענות לפוסטים עתידיים ואף לשקול לשנות את ייעודי המקצועי :-)

  21. מאת דיסוננס קוגניטיבי:

    נחמן-
    אתה יכול להרגע, זו אכן התשובה הנכונה :)

  22. מאת ביקו:

    הכל טוב ויפה אבל מה עם עם עוד פוסטים?
    הייתכן שתשאיר את קהל "מאזינך" ללא מאמר חדש כבר חודשיים ?
    ויפה שעה אחת קודם

  23. מאת ערן בילינסקי:

    הרעיון יפה, המימוש פחות. כמו שדרומי ציין וגם אביטל אמרה, נראה שיש הטייה אינהרנטית במבחן שהצעת לטובת אנשים בעלי נטייה מסוימת, ולא בטוח שדווקא את בעלי ההטייה הזו ארצה לקרוא.

    בדברים של יוני פלוס יש איזו נקודה שלא שמו מספיק את תשומת הלב אליה: יוני "מעדיף עקיצה צינית ומצחיקה של קורא עם IQ גבוהה מאוד בחוש הומור מאשר ניתוח מעמיק של איזה פצלן אינטיליגנטי שאוהב את עצמו". אני דווקא מעדיף את ההיפך, ומישהו שלישי יעדיף משהו אחר. אולי הפתרון נמצא בקסטומיזציה של תצוגת התגובות על פי העדפות של הקורא: יש מי שיעדיף תגובות שנונות, יש מי שיעדיף תגובות בעלות תוכן ("פלצניות"). משהו דומה אולי לשיטת הרייטינג הנהוגה באתר סלשדוט - אשר מתבסס על דברים שהתייחסת אליהם לעיל - שימוש בתבונה קבוצתית כדי לסווג את התגובות. כמובן שגם שיטה זו לא חסינה מפני הטיות שונות (החל מ-karma whores וכלה בהטייה שיטתית של גורמים בעלי עניין), אבל זה יחזיק פרק זמן מסוים. וחוץ מזה, כמו שמישהו אמר לי פעם: אין פתרונות ממוחשבים לבעיות אנושיות.

    (אגב, הטרקבק מהרשומה הזו לרושמה שלי הגיע בצורה שגויה. החבר'ה בבלוגלי סבורים שהבעיה אינה אצלם אלא אצלך, אז אתה מוזמן לבדוק את זה. הודעה זו היתה נשלחת בדואל, אבל לא מצאתי כתובת דואל בבלוג שלך)

  24. מאת ניצן:

    אתה פותח פה דלת בלי לבדוק מה עומד מאחוריה.
    קח לדוגמא - את מנגנון התגובות של אתר הספורט - one. שם מופעל מנגנון סינון מילים גסות. קצת אחרי שזה התפרסם הכתבות ב one התחילו להיות מוצפות בזוהמה של תגובות שמנסות לעקוף את מנגנון זיהוי המילים הגסות. תוכן? איפה, הכל היה מלא בקללות אלטרנטיביות.

    אותו דבר גם עם הרעיון שלך - בהתחלה, כולם יכנסו רק בשביל לבדוק את המנגנון החדש ויהיה לנו גל שלם של תגובות חסרות כל תוכן.
    השלב הבא - יהיה תגובות לא אינטיליגנטיות שמסומנות ככאלה - בגלל שאנשים חסרי חיים ישבו כל היום וכל הלילה מסביב למנגנון תגובות בגלל ההתלהבות עד שהם למדו לענות על השאלות הללו מספיק מהר כדי לגרום לתגובה סקעעעתתת שולטטט!!!!!!!!111 להיות מסומנת כסופר אינטיליגנטית.

    זה יהיה אפקטיבי בדיוק כמו כל קאפצ'ה אחרת - בסוף, אלו שנגדם היא נועדה יצליחו לעבור אותה בקלות והגולש המצוי, עלול להיכשל בה - מה שיגרום לתוצאות שונות לגמרי מהמתוכנן (במילים אחרות - אנחנו נעבור לקרוא את התגובות שמסומנות כלא אינטיליגנטיות כי הן האינטילגנטיות שבחבורה)

    תוסיף על זה אנשים בעלי ליקויי למידה (שיכולים להיות גאונים לא קטנים - פשוט יש להם בעיות כאלה או אחרות עם המבחנים שציינת), או לחילופין בעיות גופניות שונות - ראייה בעיקר שמונעות מהם לענות על השאלות.

  25. מאת The N.Z.B:

    הבוטים כבר למדו, ומה עם האנשים?

    בבלוג דיסוננס קוגניטיבי נהגה רעיון שאמור לעזור לקורא הטוקבקים הממוצע להפריד בין הטוקבקים הנבונים לנבובים.
    הרעיון בעיקרו די פשוט - נעשה קא…

  26. מאת דיסוננס קוגניטיבי:

    ניצן:
    אתה כותב "זה יהיה אפקטיבי בדיוק כמו כל קאפצ‘ה אחרת - בסוף, אלו שנגדם היא נועדה יצליחו לעבור אותה בקלות". smartcha בצד, אני חושב שבנקודה הזו אתה טועה.

    כשיטה, captcha היא פתרון מצוין. ברור שיש לה מימושים גרועים, ויתכן שגם חלק מהמימושים הטובים יותר ניתנים לעקיפה אם ברשותך משאבים בלתי מוגבלים (ראה גם תגובתי ל-Jeff מה-29 בספט') - אבל בסופו של יום השיטה עובדת מצוין ומקשה מאוד על ספאמרים. אם נמשיך עם קו המחשבה שלך, נגיע למסקנה כי כל מנגנון שאינו פותר בעיה בצורה מוחלטת ומלאה הוא פגום מיסודו.

    מעבר לכך, חשוב להבדיל בין captcha כשיטה לזיהוי אדם לעומת מחשב, לבין מימוש כזה או אחר שלה. אנחנו רגילים לראות captcha כטקסט מעוות, אבל מימוש אחר שאפשרי באותה מידה הוא ע"י זיהוי בחורות יפות (כפי שכתבת ב"הבוטים כבר למדו, ומה עם האנשים"). הדיון בטיב השיטה צריך להיות מעבר למימוש ספציפי.

    באופן דומה, גם לגבי smartcha צריך להבדיל בין השיטה כשיטה, לבין המימוש הספציפי שהצעתי (Matrix Reasoning). ברור שהמימוש שהצעתי לא פותר את הבעיה בצורה מלאה, וברור שיש בו בעיות. השאלה היא עקרונית יותר: האם סימון של טוקבקיסטים אינטליגנטים (בשיטה כזו או אחרת) יביא לשיפור במצב הקיים, ולדעתי התשובה חיובית.

  27. מאת גיא:

    דווקא מודל התגובות בNRG הוא טוב יותר משל YNET, מאחר והוא מאפשר שירשור של תגובות (וכך אין בעיה "לערבב" אותם כמו שהצעתם). בנוסף, הוא מציג את התגובות העדכניות יותר למעלה.
    אבל עדיין אני מוצא את עצמי קורא יותר את הטוקבקים בYNET. לא יודע למה.
    אפשרות אחרת לסינון יותר יעיל לדעתי, היא רישום שלא בגדר חובה. משתמש שאינו רשום יוכל לכתוב הודעות כרגיל, אבל לכתבה יוסף כפתור "הצג תגובות ממשתמשים רשומים בלבד" שיסנן את כל המשתמשים הלא רשומים בעבור מי שמעוניין רק בתגובות של משתמשים רשומים.
    ולמה להיות מעוניין בתגובות כאלו? הסיבה הראשונה היא שבכלליות אפשר לומר שתגובות חד פעמיות של אנשים שלא טורחים להירשם בד"כ נוטות להיות פחות איכותיות. הסיבה השנייה היא שברגע שהמשתמשים רשומים, ניתן לבצע פילוח יותר מדויק שלהם, לדרג אותם לפי התגובות שלהם ולראות תגובות אחרות שלהם, כמו שיש במערכות פורומים קיימות.
    מצד שני, לא בטוח שאתרים כמו YNET ואחרים בכלל מעוניינים בכך. הם רוצים מקסימום אנשים בכתבות ובתגובות שלהם, ומנגנון כזה כנראה ירחיק חלק מהמגיבים.

  28. מאת רן:

    הערה קטנה לגבי הנושא של CAPTCHA - הרעיון הומצא ע"י מוני נאור ממכון ויצמן ב-1996 (ב-1997 כבר התחילו להשתמש בזה בYAHOO).

    רק המונח CAPTCHA הוצע בCMU בשנת 2000, לא הרעיון. לא ברור לי האמת איך הם רשמו על זה פטנט כשזה הומצא 4 שנים קודם ע"י מישהו אחר.

  29. מאת דיסוננס קוגניטיבי:

    רן:
    המאמר של מוני נאור [1996] עוסק בשיטה תיאורטית להבדיל בצורה אוטומטית בין בני אדם למחשבים, ומציע כמה מימושים אפשריים: זיהוי מין של בני אדם, זיהוי הבעות פנים, מציאת חלקי גוף בתמונה, הבדלה בין תמונות עירום לתמונות שאינן מכילות עירום, זיהוי ציורים פשוטים, זיהוי כתב יד, זיהוי דיבור, השלמת מילים, הבנת משמעות משפטים. הוא לא מזכיר את השיטה שבשימוש רווח היום - זיהוי כתב מעוות.

    הפטנט (נרשם אמנם ב-2001, אבל הוגש כבר ב-1998) הוא על השיטה האחרונה, וברשימת החתומים עליו נמצא אנדריי ברודר, שפיתח עבור AltaVista את המימוש הראשון של captcha כזה ב-1997. דרך אגב, גם פה יש זווית ישראלית: אנדריי ברודר עשה את התואר הראשון שלו בטכניון.

  30. מאת יוני לוי:

    כשהתחלתי לקרוא את הפוסט חשבתי שאתה עומד להציע רעיון אחר, שהוא מעניין בפני עצמו.
    קודם כל, אני ממליץ לצפות בהרצאה הבאה שמציגה נושא שנקרא "Human Computation" - דרך מאד מעניינת לעזור למחשב לפתור בעיות "קשות" בעזרת בני אדם. ההרצאה הזו היא שגרמה לי לחשוב על הרעיון - ברגע שאתה מבקש להגיב בYNET, קופץ לך חלון קטן שמבקש ממך לדרג מספר (5?) הודעות קודמות. התגובה נשלחת -רק- אם הדירוג שלך קרוב לדירוג של אנשים אחרים. זאת דרך נחמדה להשיג דירוג אמין של תגובות. אפשר לשחק עם הנתונים עוד יותר, נניח להסתכל על התגובות בעלות הדירוג הגבוה ביותר ולייחס משקל רב יותר להצבעה של הכותבים של אותן הודעות. כמובן שזה מסוכן וצריכים להיות זהירים במימוש כדי למנוע מצבים מצחיקים בהם למדרג הראשון יש כוח רב בהרבה מלדרג ה200, או שנקבעת נורמה של לדרג את כל ההודעות בציון הנמוך ביותר. דיונים נוספים על מערכות כאלו והבעיות שלהן בהרצאה הנ"ל.

  31. מאת מרווה הפיגמנטים:

    אנשים יבחרו לא להגיב כלל לא ציטרכו לענו תעל שאלות במשך דקשה שלמה, זה נוגד את כל מהות האינטרנט כספקית של גחמות מהירות.
    חכמת ההמונים עובדת מצויין בDIGG ופותרת את העניין נפלא.
    YNET פשוט מזעזעים טכנולוגית כמו שהם מזעזעים ברמת התכנים.
    תוך 2-3 שנים הם בטח יתעדכנו.

  32. מאת יואב:

    בנושא Captcha הכללי:

    המתכנת אצלינו פיתח גרסא מעט מתקדמת יותר של הCaptcha אך פשוטה יותר מה Smartcha
    (ניתן לראות דוגמא באתר-שבלינק-שבשם, ללחוץ Register ולעבור לשלב 2)

    לנרשמים מוצג Captcha כאילו רגיל הכולל 3 שורות של טקסט כל אחת בצבע אחר (הצבעים מתחלפים כל פעם)
    המשתמש מתבקש להקיש את הטקסט בצבע X.
    בוטים עוד לא עברו את המבחן - כנראה שלא באמת ניסו.

  33. מאת יאיר:

    הפתרון שאתה מציע הוא להשתמש במדד שרירותי,
    שאנשים רבים ייתפסו אותו כאליטיסטי.
    ההצעה של יוני לוי למעלה נראית לי לא רעה.

  34. מאת דיסוננס קוגניטיבי:

    ואם כבר הזכרתי captcha, הנה רעיון מבריק של אוניברסיטת קרנגי מלון:
    נניח שאתם מריצים פרויקט ענק לסריקת ספרים ישנים והעברתם לפורמט דיגיטלי. ונניח שחלק מהמילים מחורבשות מדי בשביל לעבור OCR… מה עושים? הורגים שתי ציפורים במכה! גם משתמשים במילים הסרוקות בתור captcha, וגם מנצלים את כוח העיבוד האנושי כדי לקבל את המילה כטקסט (ולא כתמונה).
    אבל אם לא יודעים מה המילה אמורה להיות, איך יודעים שהבנאדם צדק? כל זאת ועוד, באתר הבית של הפרויקט.

  35. מאת קרמיט הצפרדע=]:

    שימו לב מה שאתם אומרים עלינו הטוקבקיסטים לא נכון…
    הטוקבקיסטים זה עם שאומר בקול את מה שכולם לא מעזים להגיד או לפחות ככה אתם חושבים אבל הטוקבקיסט זה בן אדם שנותן כבוד או שלא אבל חולק עם הרשת כולה באתרים שונים ואז כולם מבינים ונזכרים מה נכון ומה לא…
    אז די להשמצות וכבוד לטוקבקים=]

  36. מאת טוקבקים - שהמחשב יקח אחריות - הצעת החוק של חסון מזוית חישובית:

    […] חודש וחצי קראתי על המנגנון הזה להמלצה על תגובות אצל דני בדיסוננס קוגניטיבי ולחלוטין שכחתי. זה כנראה האלצהיימר שכבר מתחיל להזדחל. […]

  37. מאת החגב עומד יציב:

    אוי שיט הלך עלי יש לי אינטיליגנציה ויזואלית של חפרפרת.

  38. מאת דיסוננס קוגניטיבי:

    עדכון: פרויקט בשם StupidFilter מנסה לזהות בצורה אוטומטית תגובות טפשיות בעזרת מודל בייסיאני (בדומה לפילטרי ספאם).

  39. מאת משה:

    רעיון אחר -
    במקום האפשרות להמלצה תופענה שתי אפשרויות:
    1. אני מסכים לתגובה.
    2. תגובה זו מוסיפה מידע חשוב בנושא הכתבה.

    רוב הצופים ילחצו על האפשרות הראשונה.
    מי שיטרח לקרוא, וגם יסכים עם הניסוח באפשרות 2, הוא כבר יותר אינטליגנטי ובעל סבלנות ולכן אפשר לתת ניקוד ע"פ הבחירה בסעיף זה.

    עכשיו נשארת הבעיה של ניצול לרעה.
    כאן יש לי התחלה של פתרון -
    מעל רשימת התגובות נציג שני קישורים:
    1. הצג את התגובות הפופולריות ביותר.
    2. הצג תגובות שהוסיפו מידע לנושא הכתבה (הניסוח מסורבל בכוונה).

    הציבור הרחב יקליק על האפשרות הראשונה ויקבל את הרשימה של התגובות הנבחרות ביותר ע"פ אפשרות 1, לכן גם לגורמים האינטרסנטיים יהיה אינטרס להטות את הרשימה הזו והם יזניחו את הרשימה השניה.
    ברשימה השנייה יצפו כמעט רק אנשים "אינטליגנטיים" ו"משקיענים" ולכן גם האינטרס לעוות אותה יהיה נמוך יותר.

    עכשיו נותר רק למצוא אתר אינטרנט שמקבל מסה של תגובות משני הסוגים וגם מעוניין להפריד ביניהן.

  40. מאת www.sergata.com:

    אהבתי את ההצעה של יוני עם הוספת האפשרות לגולשים להצביע על מחיקת טוקבק ושקלול באלגוריתם הסינון וההצגה.
    אני הייתי עושה את זה אוטומטי ע״פ הסטוריית הגלישה והטקבוק של המשתמש בכדי לתעדף את ה״רציניים״.
    מי שמוכן להרים את הכפפה ולהפוך את הרעיון למיזם שיפנה אלי.

לכתוב תגובה