ארכיון פוסטים ששייכים לנושא 'סטטיסטיקה'

מי מנצח בווינר?

ראשון, 20 באפריל 2008

הפוסט הנוכחי עוסק במשחק ווינר של המועצה להסדר ההימורים בספורט: תחילה, אעזר במדגם עצום של טפסי ווינר כדי לתאר תופעה מסויימת שקשורה לעמלות של ווינר ליין. אח"כ, אנסה לשכנע שמדובר בתופעה מוזרה מאוד, הסותרת עקרונות כלכליים ופסיכולוגיים בתחום ההימורים. לבסוף, אציע הסבר אפשרי (ולא מספק, לדעתי) לתופעה שמצאתי.

הערת אזהרה: הפוסט הפעם יחסית קשה לקריאה. משיקולי זמן ומקום, אני אניח שלקורא יש הכרות מסויימת עם ווינר ועם עקרונות בסיסיים בהסתברות (למשל ההבדל בין תוחלת לממוצע).

winner.gif

ווינר הוא התשובה החוקית של המועצה להסדר ההימורים בספורט לאתרי ההימורים באינטרנט. למרות שמדובר במשחק חדש יחסית (החל לפעול רק בשנת 2002), הוא מהווה היום את מקור ההכנסה העיקרי של המועצה. למעשה, מדובר בשני משחקים שונים: ווינר ליין וווינר מאצ' - אני אתמקד בראשון.

חוקי ווינר ליין פשוטים למדי: בטופס ווינר ליין רגיל מהמרים על תוצאות 3-6 משחקים. עבור כל משחק יש לבחור 1, 2 או X (ז"א נצחון של הקבוצה הראשונה, נצחון של הקבוצה השניה או תיקו) כשהמטרה היא לצדוק בכולם. בניגוד לטוטו, ווינר הוא מה שמכונה בעגה מקצועית הימור parlay: לכל אחת משלוש התוצאות האפשריות של כל משחק מתלווה יחס שנקבע מראש. אם הצלחת לנחש נכון את תוצאות כל המשחקים שסימנת, תזכה בסכום כסף ששווה למכפלת היחסים המופיעים בטופס. לדוגמא: אם הימרת במשחק הראשון על 1 ביחס של 1:1.5, במשחק השני על X ביחס של 1:1.05 ובמשחק השלישי על 1 ביחס של 1:5, במידה ותזכה תקבל פי 1.5*1.05*5 = 7.875 מהסכום שהשקעת.

בניגוד לאתרי הימורים באינטרנט בהם יחסי ההימורים דינאמיים ומשתנים כל הזמן (עוד על כך, בהמשך), בווינר יחסי ההימורים נקבעים מראש ע"י מחלקה של קובעי יחסי הימורים (odds compilers) של המועצה להסדר ההימורים בספורט, שלכאורה מורכבת מ"מומחים למתמטיקה או סטטיסטיקה או הסתברות … שמבינים בכדורגל ברמה של מידת הנעליים של כל שחקן בליגת המילואים הנורווגית".

השאלה שאנסה לענות עליה, היא עד כמה טובה קביעת יחסי ההימורים בווינר ליין.

winner_line.gif

מידע גולמי על ווינר ניתן למצוא באתר המועצה להסדר ההימורים בספורט: עבור כל משחק שנערך, הארכיון של ווינר ליין מפרט את יחס ההימור שניתן לכל אחת משלוש התוצאות האפשריות ואת התוצאה שהתקבלה בסופו של דבר. הארכיון לא נגיש בפורמט נוח לעבודה, אבל 200 שורות Java ו-15 דקות של "טחינת" האתר הספיקו כדי לייצר עבורי קובץ אקסל ענק עם כלל הנתונים ההיסטוריים של ווינר ליין.

בסה"כ התקבלו נתונים לגבי 54382 משחקים שהתקיימו בתקופה של כ-6 שנים (בין ה-22/5/2002 וה-15/4/2008), ולאחר סילוק נתונים בעייתיים (663 משחקים ללא תוצאה סופית; 86 משחקים ללא יחסי ההימור; 567 משחקים עם שתי תוצאות אפשריות בלבד) נשארו נתונים לגבי 53066 משחקים. כיוון שכל משחק כזה מגלם שלושה הימורים שונים, למעשה התקבלו נתונים לגבי 159198 הימורים שונים - כשעבור כל הימור בודד ידוע יחס ההימור בווינר, והאם בסופו של דבר ההימור זכה.

ניתוח הנתונים מתבסס על החוק החלש של המספרים הגדולים, שקובע כי "במדגמים גדולים הממוצע בדר"כ קרוב לתוחלת". לדוגמא, ווינר הציעו יחס הימור של 1:3 ב-6766 הזדמנויות שונות, ובסופו של דבר זכו 1805 מתוכן. 6766/1805 = 3.75, ולכן ניתן לומר שהימורים שווינר נותנים עליהם יחס של 1:3 זכו במדגם ביחס של 1:3.75. אינטואיטיבית, החוק החלש של המספרים הגדולים מבטיח שבאופן כללי הימורי ווינר ביחס של 1:3 (גם כאלה שיערכו בעתיד!), יזכו ביחס שקרוב ל-1:3.75.

כהערת צד, אוסיף כי כיוון שההימורים השונים בלתי תלויים זה בזה (למעט מקרים נדירים של שני הימורים ביחס זהה על תוצאות שונות של אותו משחק), ניתן להניח כי מספר הזכיות של הימורים ביחס נתון מתפלג בינומית. המשך הניתוח עוסק רק ביחסי הימורים שעבורם מס' הזכיות בפועל היה גדול מ-50, ובפרט ניתן לבצע עבורם קירוב להתפלגות נורמאלית ולהגיע להערכה מדויקת למדי של יחס הזכיה במציאות (ואכן, הוא קרוב מאוד ליחס הזכיה במדגם).

הגרף הבא מציג את תוצאות הניתוח. בציר האופקי מופיע יחס ההימור שניתן בווינר, ובציר האנכי מופיע האומדן ליחס ההימור האמיתי (ז"א שיעור הפעמים בהם הימור ביחס כזה אכן זכה):

winner_chart1.gif

מבט מהיר בגרף מעלה כי היחס בווינר תמיד נמוך מהיחס האמיתי. לדוגמא, הימורי ווינר ביחס 1:2 זוכים ביחס 1:2.52, ולכן (חישוב פשוט) על כל שקל שתשקיעו בהימור כזה תפסידו בתוחלת כ-20 אגורות. הממצא הזה לא מפתיע - הוא בסה"כ מבטא את העובדה שווינר מרוויחים כסף מהמהמרים (ההבדל בין יחס ההימור שווינר מציעים ליחס האמיתי הוא בדיוק העמלה שווינר לוקחים). מה שבכל זאת מפתיע הוא שהעמלה של ווינר תלויה ביחס ההימור, כפי שניתן לראות בגרף הבא:

winner_chart2.gif

כאמור, ההימור בווינר לא משתלם (בתוחלת), כי ווינר מרוויחים כסף על חשבון המהמרים. מה שמוזר הוא שווינר לוקחים עמלה גדולה יותר - ז"א מרוויחים יותר - ככל שיחס ההימור גדול יותר! לדוגמא, על הימורים ביחס 1:1.15 תפסידו בתוחלת כ-12 אגורות לכל שקל, על הימורים ביחס 1:4.2 תפסידו בתוחלת כ-29 אגורות לכל שקל, ועל הימורים ביחס 1:9 תפסידו בתוחלת כ-68 אגורות לכל שקל!

הנקודה האחרונה עשויה להראות בטעות כמו משהו מובן מאליו. יחס הימור נמוך (למשל 1:1.15) אומר שאתה מהמר על הפייבוריט, ויחס הימור גבוה (למשל 1:9) אומר שאתה מהמר על האנדרדוג, ולכאורה סביר שלאורך זמן תפסיד יותר אם תהמר תמיד על האנדרדוג. אך זו כמובן טעות: אמנם בהימורים על הפייבוריט סביר שתזכה יותר פעמים - אבל כשמדובר בתוחלת הרווח, לא בהכרח אמור להיות הבדל בין שני המקרים. תחשבו, למשל, על משחק שבו אתם מהמרים ביחס של 1:6 שיצא 6 בקוביה (הימור על מאורע לא סביר, "האנדרדוג"), לעומת משחק מקביל שבו אתם מהמרים ביחס של 1:1.2 שלא יצא 6 בקוביה (הימור על מאורע סביר, "הפייבוריט") - במקרה זה, התוחלת של שני המשחקים זהה (ושווה לאפס, אלה משחקים הוגנים).

מה שאני מנסה להגיד, הוא שעל פניו לווינר אין סיבה להפלות לרעה את מי שבחר להמר על האנדרדוג. מבחינת ווינר, האידיאל הוא לגבות עמלה זהה מכל מהמר, בלי קשר לדת, גזע, מין או סוג ההימור.

אז מה בעצם קורה כאן? כדי לענות על השאלה, ננסה להבין מה ווינר מנסים להשיג (ומה לא) בקביעה מסויימת של יחסי ההימורים.

נקודת הסתכלות נאיבית היא שווינר מנסים לקבוע את יחס ההימור כך שיהיה מדויק ככל האפשר (במובן של החוק החלש של המספרים הגדולים): בשלב הראשון, ווינר קובעים את יחסי ההימורים "האמיתיים" כך שלאורך זמן, שליש מההימורים שקיבלו יחס אמיתי של 1:3 יקרו בפועל. בשלב השני, ווינר משנים את יחסי ההימורים כך שישקפו עמלה קבועה על כל הימור (למשל, יחס הימור אמיתי של 1:3 יפורסם בטופס כיחס הימור של 1:1.15, לאחר הפרשת עמלה של כ-12%).

איך אפשר לקבוע את יחסי ההימורים האמיתיים? יש הרבה דרכים: אפשר להעסיק odds compilers טובים ולהסתמך על הידע שלהם כמומחים, אפשר להשתמש במודלים סטטיסטיים, אפשר להעזר ב"חוכמת ההמונים" (למשל בורסות הימורים) ואפשר לשלב בין מספר שיטות.

בכל מקרה, אם זה אכן היה המצב, הייתי אומר שווינר עושים עבודה גרועה מאוד בקביעת היחס האמיתי: חישוב פשוט מראה שהעמלה הממוצעת למשחק היא כ-19% (עם סטיית תקן מזערית של כ-0.015%), ואם "ננרמל" את יחסי ההימורים כך שלא ישקפו את העמלה (ז"א נחזור, לכאורה, ליחסי ההימורים האמיתיים תחת ההנחה שהעמלה קבועה) נגלה שהם מוטים מאוד לעומת הקו האידיאלי של Y=X (אני לא ארחיב, אבל למעשה מדובר בצורת הסתכלות שונה על הגרף האחרון).

אם שתי הפסקאות האחרונות לא היו ברורות מספיק, זה לא מאוד משנה. העובדה הפשוטה היא שווינר, ולצורך העניין גם אתרי הימורים באינטרנט, לא מנסים לקבוע את יחס ההימור כך שישקף את המציאות! הסיבה לכך היא שהשאיפה של אתרי הימורים היא לא להמר בעצמם, אלא להרוויח כסף ללא סיכון. במקום להתעמק בקשר של הדיון הנוכחי למושג השונות, אני אתן דוגמא שתבהיר את הכל:

אתר הימורים א' מציע הימור על האם מחר ירד גשם או לא (נניח שהסיכוי לגשם הוא בדיוק שליש). האתר קובע יחס אמיתי של 1:3 לאפשרות שמחר ירד גשם ויחס אמיתי של 1:1.5 לאפשרות שמחר לא ירד גשם. כדי להרוויח משהו, האתר מחליט לגבות עמלה של 10% ולכן יחסי ההימורים שהוא מפרסם הם 1:2.7 על האפשרות שירד גשם, ו-1:1.35 על האפשרות שלא ירד גשם.

לעומתו, אתר הימורים ב' בוחר בשיטה הבאה: בשלב הראשון, הוא קובע את יחסי ההימורים כך שישקפו עמלה של 10% אם אותו מספר אנשים מהמרים על כל אפשרות (ז"א יחס זהה של 1:1.9 לשתי האפשרויות). בהמשך, בכל פעם שמישהו מהמר על אחת האפשרויות, האתר מקטין מעט את היחס של האפשרות שהרגע הימרו עליה ומעלה את היחס של האפשרות השניה, כך שהעמלה הסופית תשאר 10%.

נבחן כעת מה קורה לאתרים בשני תרחישים טיפוסיים:

בתרחיש הראשון, נניח שקהל המהמרים יודע שהסיכוי לגשם מחר הוא אכן בערך שליש, ולמהמרים מסויימים יש הטיה קלה לכאן או לכאן. עבור אתר א', ההימורים יתחלקו פחות או יותר שווה בשווה בין האפשרויות, והאתר יגרוף רווח יפה של 10%. עבור אתר ב', תחילה יהיו הרבה הימורים על האפשרות שלא ירד גשם (האתר מציע יחס של 1:1.9 על הימור שלדעתך יקרה ב-1:1.5, ז"א הימור משתלם מאוד), אבל מהר מאוד יחסי ההימורים ישתנו, עד שלבסוף יזדהו עם יחסי ההימורים של האתר הראשון, וישארו כך (זוהי נקודת שיווי משקל). בסופו של דבר, גם אתר ב' יגרוף רווח של כ-10%.

בתרחיש השני, נניח שלקהל המהמרים יש הטיה, וההערכה שלהם היא שהסיכוי לגשם מחר הוא כ-80%. במקרה של האתר הראשון, יהיו הרבה יותר הימורים על האפשרות שירד גשם. במקרה של האתר השני, יחסי ההימורים ישתנו בהתאם, ולבסוף יתאזנו על יחס של 1:4.5 שלא ירד גשם, ויחס של 1:1.125 שירד גשם. אם בסופו של דבר לא ירד גשם מחר, אתר א' יגרוף עמלה אדירה. לעומת זאת, אם מחר ירד גשם, אתר א' יפסיד סכום כסף עצום (וה-odds compiler שקבע את היחס ילך לישון עם הדגים). אתר ב', לעומת זאת, יגרוף בכל מקרה עמלה של כ-10%.

אז מה קרה כאן בעצם? אתר א' ממלא תפקיד של מהמר: הוא לוקח סיכון, ומרוויח או מפסיד בהתאם לתוצאה הסופית. אתר ב' ממלא תפקיד של מתווך: הוא עוזר למהמרים להמר זה מול זה, וגובה עמלה קבועה על שירותיו. הרווח שלו גדל ככל שמהמרים יותר אנשים, ובכל מקרה הוא אינו מסתכן בהפסד. בהקשר זה, ראו גם מאמר של סטיבן לויט מפריקונומיקס [2004].

ואכן, אתרי ההימורים באינטרנט משנים באופן דינמי את יחסי ההימורים שהם מציעים, בצורה דומה מאוד לאתר ב' בדוגמא. השינויים מתבצעים אונליין, ויחסי ההימורים משתנים ממש מדקה לדקה (כמובן, יחס ההימורים המעודכן רלוונטי רק להימורים עתידיים, ולא להימורים שכבר התבצעו ביחס הקודם).

כל זה טוב ויפה, אבל במקרה של ווינר לא ניתן לשנות את יחסי ההימורים מהרגע שנקבעו, כיוון שטפסי ווינר מודפסים מראש ונשלחים לנקודות המכירה. לכן, ווינר עצמם מחוייבים להמר - הנקודה היא שכדי להקטין ככל האפשר את הסיכון שלהם להפסיד, ווינר לא צריכים להתאים את יחסי ההימורים שלהם ליחס ההימורים האמיתי, אלא ל"יחס ההימורים האמיתי הנתפס" של ציבור המהמרים, מוטה ככל שיהיה.

איזה סוגי הטיות צפויים להיות בקרב המהמרים?

הטיה אחת היא מה שמכונה Wishful Thinking: הנטיה של אנשים לבצע הערכת-יתר לסיכוי שמאורע רצוי אכן יקרה. לדוגמא, אלישע בבד ויוסי כץ הראו [1991] שאוהדים במשחק כדורגל מגזימים בהערכת סיכויי קבוצתם לנצח בהשוואה לצופים חסרי העדפה בולטת, ושהתופעה מתקיימת אפילו כאשר האוהדים ממלאים טפסי טוטו (במובן מסוים, המהמרים במקרה האחרון שילמו כדי לשמר את ההטיה). כיוון שאנשים נוטים לאהוד את הקבוצה המנצחת, Wishful Thinking תבוא לידי ביטוי, בדרך כלל, בהטיה לטובת הפייבוריט בהימור.

הטיה נוספת היא תחזית של תורת הערך של כהנמן וטברסקי. אנשים הם "שונאי סיכון" בתחום הרווח, ויעדיפו, למשל, לקבל 100 שקל ביד מאשר להשתתף בהימור שיתן להם 250 שקל בסיכוי של 50% (למרות שתוחלת הרווח גבוהה יותר במקרה השני). אני מאמין שהימורים בווינר נתפסים בדרך כלל כרווח (ז"א שרוב המהמרים בווינר עושים זאת כדי להרוויח, ולא כדי להמנע מהפסד), ולכן יעדיפו להמר על הפייבוריט ולזכות בסיכוי גבוה יותר, אפילו במחיר של הקטנת תוחלת הרווח. ואמנם, נראה שהשיקול שרוב האנשים עושים בבחירת אפשרות ההימור הוא "איזה קבוצה כנראה תנצח", ולא "עבור איזה הימור אני מקבל יחס טוב יותר לעומת היחס האמיתי שאני חושב שמתקיים" (או במילים אחרות: אני מהמר על מכבי כי אני חושב שהיא תנצח, ולא כי אני חושב שהיא תנצח ביחס של 1:5 אבל מציעים לי עליה הימור ביחס של 1:10). ובשורה התחתונה, כל האמור לעיל יגרום, שוב, להטיה לטובת הפייבוריט בהימור.

ובחזרה לעמלות של ווינר: ראינו שווינר גובים עמלה נמוכה יותר ממי שמהמר על הפייבוריט, ז"א הופכים את ההימור על הפייבוריט לאטרקטיבי יותר. אם  ווינר מנסים לקלוע ליחסי ההימורים האמיתיים כפי שהם נתפסים ע"י המהמרים, המשמעות היא שווינר חושבים שלמהמרים יש הטיה טבעית להמר דוקא על האנדרדוג, וזאת בניגוד מוחלט לאמור בשתי הפסקאות האחרונות!

בהנחה שווינר לא טפשים (ז"א לא טועים לגמרי בדרך שבה הם קובעים את העמלות), ומצד שני גם לא גאונים (ז"א לא גילו הטיות קוגניטיביות שאינן מוכרות לפסיכולוגיה המודרנית), נשאלת השאלה מה ההגיון בקביעת העמלות בצורה הזו?

אני אציע הסבר אפשרי אחד, אבל האמת היא שאין לי מושג. אם למישהו יש רעיון, או מכיר מישהו שעובד בווינר ויכול לספק הסבר טוב יותר, אני אשמח מאוד לשמוע. בכל מקרה, תיאוריית הקונספירציה שלי היא כדלהלן:

כפי שראינו, העמלה הממוצעת שווינר גובים על כל הימור היא כ-19% (עד כדי סטיית תקן מזערית, שיכולה אפילו לנבוע משגיאות עיגול), ונניח שמסיבה כלשהי ווינר מחוייבים לגבות עמלה בשיעור הזה בדיוק (לדוגמא שהעמלה הזו מוגדרת בחוק להסדר ההימורים בספורט או באחד מהתיקונים שלו). הנקודה החשובה היא שמדובר בעמלה גבוהה מאוד, ובפרט עמלה גבוהה יותר משמעותית מזו שגובים המתחרים של ווינר: אתרי ההימורים באינטרנט (בדיקה אקראית של כמה אתרי הימורים גדולים מראה שהם לוקחים עמלות של פחות מ-5% על משחקי כדורגל).

עכשיו, מי שרוצה להמר על מכבי צריך להחליט אם לעשות את זה בווינר, או באתר אינטרנט כלשהו. לווינר יש יתרון אחד גדול - ההימור חוקי - ובשבילו אנשים מוכנים לשלם כסף (התשלום מתבטא בכך שהם מקבלים יחס הימור גרוע יותר מאשר באינטרנט, על אותם הימורים בדיוק). השאלה היא כמה כסף אנשים יהיו מוכנים לשלם, אבל בלי קשר לתשובה המדויקת ברור שיש הפרש עמלות מסויים שממנו והלאה אנשים יעדיפו לא להמר בווינר.

אמרנו שווינר מחוייבים, לכאורה, לגבות עמלה קבועה של 19% על כל משחק (משחק הוא למעשה שלושה הימורים שונים שקשורים זה לזה: הימור על התוצאות 1, 2 או X של משחק מסויים). העמלה הזו כל כך גבוהה יחסית לעמלות של אתרי הימורים, שקשה להאמין שמישהו יסכים להמר בווינר.

תיאוריית הקונספירציה שלי היא שווינר מצאו דרך לעקוף את הבעיה הזו. לכאורה, הם מציעים יחסי הימורים שמבטאים עמלה פוטנציאלית של 19% למשחק. בפועל, הם מטים את יחסי ההימורים כך שרוב העמלה באה לידי ביטוי בהימור על האנדרדוג, שאף אחד לא לוקח גם ככה. ההימורים שאנשים כן לוקחים (ההימורים על הפייבוריט) מגלמים עמלה של כ-10% - עדיין גבוהה יותר מבאתרי ההימורים, אבל לא גבוהה מספיק בשביל להצדיק עבירה על החוק. בקיצור, אני מאמין שווינר מציעים הימורים עם עמלה ממוצעת של 19%, אך בפועל גוזרים קופון של מעט יותר מ-10%.

עדיין נשאלת השאלה עד כמה ווינר מסתכנים - אני לא מאמין שהם ממלאים תפקיד של מתווך בין מהמרים, כי סביר שהרוב המוחלט של ההימורים מתבצעים על הפייבוריט בכל משחק (ויחסי ההימורים לא מאזנים זאת, בניגוד לדוגמא של אתר הימורים ב' מקודם). מצד שני, הם גובים עמלות גבוהות כל כך שיכול להיות שהן מכסות את הסיכון.

בשורה התחתונה: לא כדאי להמר בכלל. ואם מהמרים, לא כדאי להמר בווינר. ואם מהמרים בווינר, לא כדאי להמר על האנדרדוג.

טראק, שש בש וגשם

חמישי, 11 באוקטובר 2007

בחודש האחרון טיילתי בתורכיה עם שלושה חברים, בעיקר באיזור הרי הקצ'קר שבצפון מזרח המדינה. הפוסט הזה הוא אוסף של כמה אנקדוטות משם.

סדר הליכה בטראק
סדר היום בטראק די קבוע: קמים בבוקר (לא מוקדם מדי!), מעמיסים את המוצ'ילה על הגב, ומתחילים ללכת לפי סיפור הדרך. בכל יום הולכים 7-8 שעות נטו, עם הפסקות קצרות בין לבין. במהלך היום הולכים ביחד כקבוצה, והיום מסתיים כשכולם מגיעים ליעד המתוכנן.

כבר החל מהיום הראשון היה ברור שקצב ההליכה של כל אחד מאיתנו שונה משל האחרים. אלעד הוא יוצא פלחה"ן צנחנים, והיה נראה שהטראק והשבוע שבילינו בבודרום היו פחות או יותר שקולים עבורו מבחינת האתגר הפיסי. אחריו הלך אלון, שלזכותו יאמר שסחב את המשקל הגדול ביותר. אני הלכתי שלישי בדר"כ, וארז השתרך מאחור עם רגליים כואבות ומיובלות. כדי שלא יווצרו פערים גדולים מדי ביננו (במיוחד בערפל של הקצ'קר, שהגביל את הראות לעשרה מטרים בערך), היינו עוצרים מדי פעם להפסקה זריזה, מחכים שכולם יישרו קו, ואז ממשיכים ללכת.

האם סדר ההליכה הטבעי (ז"א, מי שהולך מהר יותר הולך ראשון) הוא גם סדר ההליכה האופטימלי?

מתברר שלא. בספר המטרה (קריאת חובה בקורס יסודות ניהול התפעול והייצור, שנה ג' בחוג לניהול) עושה ד"ר אליהו גולדרט עבודה טובה בלשכנע שסדר ההליכה האידיאלי הוא בדיוק הפוך לקצב ההליכה, ז"א הסדר האידיאלי הוא זה שבו האדם האיטי ביותר הולך ראשון. גולדרט מראה את זה בעזרת עקרונות של תורת האילוצים שפיתח, אבל גם אינטואיטיבית ברור מדוע זה כך: זמן ההגעה ליעד נקבע בכל מקרה ע"י האדם האיטי ביותר, והמרחק בין האנשים (שהיינו רוצים לצמצם) קטן ביותר כשהוא הולך ראשון, כיוון שהשאר "מצטופפים" אחריו.

אבל גולדרט מניח שקצב ההליכה אינו מושפע מסדר ההליכה, ולכן עוסק רק בנסיונות לצמצם את המרחק בין האנשים (לא מפתיע, בהתחשב בכך שעבורו סדר ההליכה בטראק הוא רק אנלוגיה לקו ייצור במפעל). הטענה שלי היא שסדר ההליכה שמציע גולדרט יעשה יותר מכך - הוא אפילו יקטין את זמן ההגעה ליעד! ספציפית, אני טוען כי קצב ההליכה של אדם גדל כשאחריו הולך אדם אחר.

למה שזה יקרה, בעצם? ההסבר הטריויאלי הוא שכשהולך אחריך מישהו מהיר יותר, אתה מעכב אותו. זה רע משתי בחינות: ראשית, אתה מפריע לו (ולכן, לפחות בהנחה שמדובר בחבר שלך, תווצר אצלך תחושת חוסר נעימות). שנית, אתה נמצא בסיטואציה שמדגישה את הנחיתות הפיסית שלך מולו (ולכן תווצר אצלך תחושת בושה). בשני המקרים מדובר בתחושות שלילית, ולכן תנסה להמנע מהן: פתרון אפשרי אחד הוא לתת לו לעקוף אותך, ופתרון אפשרי שני הוא להאיץ את הקצב.

אבל ההסבר הזה (שהוא מוטיבציוני במהותו) הוא לא ההסבר היחיד. הסבר נוסף הוא שעצם הנוכחות של אדם אחר מאחוריך מאפשרת לך - ברמה הפיזיולוגית ממש! - ללכת מהר יותר.

לפי תיאוריית ה-Social Facilitation של רוברט זיינס, עצם הנוכחות של אחרים סביבנו מגבירה עוררות. התוצאה של הגברת העוררות היא הגדלת הסיכוי שהאדם יפעל בצורה הרגלית, ז"א יבצע תגובות דומיננטיות-אוטומטיות. לכך יש השפעה מורכבת: במטלות פשוטות, התגובה ההרגלית היא לרוב התגובה הנכונה - ואז יהיה שיפור בביצוע; במטלות קשות, התגובה ההרגלית היא לרוב התגובה הלא הנכונה - ואז תהיה הרעה בביצוע. לדוגמא: שחקן סקווש מנוסה ישחק טוב יותר בנוכחות קהל, בעוד שחקן סקווש מתחיל ישחק גרוע יותר (כדוגמא קיצונית, תחשבו על ההשפעה של "משחק בלי קהל" על איכות המשחק של שחקני כדורגל מקצוענים). במקרה של טראק, ברור שהליכה היא תגובה אוטומטית ודומיננטית, ולכן קצב ההליכה יגבר עם רמת העוררות.

לא חסרים ניסויים שמאששים את התיאוריה, ואחד המעניינים יותר מביניהם אפילו לא עוסק בבני אדם. זיינס עצמו הראה ב-1969 שהתיאוריה פועלת גם עבור ג'וקים: הניסוי שלו כלל ג'וק באחד משני סוגי מבוכים (מבוך קל, שבו הג'וק היה צריך ללכת בקו ישר בלבד; מבוך קשה, שבו הג'וק היה צריך לבצע פניה אחת) ותיבת צפיה שקופה שבה היו ג'וקים אחרים. לפי התיאוריה, נוכחות הצופים תגרום לג'וק לפתור את המבוך הקל מהר יותר לעומת מצב שבו אין צופים, אבל לפתור את המבוך הקשה לאט יותר לעומת מצב שבו אין צופים - ואכן כך היה.

גירסאות עדכניות ונכונות יותר של התיאוריה זונחות את העיסוק בנוכחות בני אדם אחרים כשלעצמה, ומתמקדות ביכולת של אחרים לקלוט ולהעריך את מה שאתה עושה. למשל, הטענה היא שרמת העוררות שלך לא תגדל אם אתה נמצא בנוכחות אנשים שעיניהם ואוזניהם מכוסות.

ובחזרה לסדר ההליכה בטראק. בסדר ההליכה הטבעי, האדם האיטי ביותר הולך אחרון. במקרה זה, שני ההסברים שציינתי לא באים לידי ביטוי במלוא עוצמתם (הוא לא מעכב איש באופן ישיר, ושאר ההולכים מפנים אליו את הגב ולכן אינם קולטים אותו ואינם גורמים לו לעוררות מוגברת). זה כמובן לא המצב בסדר ההליכה ההפוך. במקרה זה, האדם האיטי מפריע למספר המקסימלי של אנשים, ובמקביל המספר המקסימלי של אנשים קולט אותו ומעריך אותו. לכן, ניתן לצפות שבמקרה זה קצב ההליכה שלו יגבר.

בקיצור, אני טוען שאם היינו כופים על ארז ללכת ראשון תמיד, היינו מגיעים מהר יותר ליעד בכל יום. מצד שני, תנסו אתם להסביר את זה למישהו בזמן טראק…

שש בש
אחרי ארבעה ימי הליכה הגענו לכפר קטן בשם ברהל, שם נחנו במשך יומיים. חלק משמעותי מהזמן הוקדש למשחק המקומי - שש בש (או טבלא בתורכית).

אחרי רצף נצחונות ארוך במיוחד שלי (44:10, עם הכפלות) אלון התחיל להתלונן שאני מרמה בקוביות. אני, לעומת זאת, טענתי שהקוביות מוטות לטובת שש (למה זה שיפר דוקא את המשחק שלי? לא יודע - באופן כללי אני משתדל לשחק בהתאם להסתברויות הצפויות במשחק).

כדי לבדוק את הטענה, הטלתי את אחת הקוביות 36 פעמים וספרתי את מספר הפעמים שיצא שש. אם הקוביה הוגנת, ניתן לצפות שזה יקרה בערך 6 פעמים. בפועל, זה קרה 11 פעם. האם מדובר בהבדל מקרי, או שהקוביה באמת נוטה לשש? לפי הקירוב הנורמאלי להתפלגות הבינומית סטיית התקן של מספר השש'ים במדגם בגודל 36 (בהנחה שהקוביה אינה מוטית) היא שורש 5, ז"א בערך 2.25. אם כן, מספר השש'ים במדגם מתפלג בקירוב נורמאלית ורחוק מהצפוי ביותר מ-2 סטיות תקן, ולכן ההבדל מובהק ברמת בטחון של 95% - הקוביה אכן נוטה לטובת שש!

כדי לוודא שההטיה היא בקוביה ולא בזורק, ביקשתי מארז לחזור על הניסוי ולזרוק גם הוא את הקוביה 36 פעם. הפעם המספר שש יצא 10 פעמים, ז"א הבדל של בערך 4/2.25 = 1.75 סטיות תקן. שוב, הבדל מובהק ברמת בטחון של 95% (יותר מ-1.65 סטיות תקן).

מעניין לשים לב לנקודה טכנית נחמדה: באופן עקרוני ניתן לעשות את הניתוח הסטטיסטי שלמעלה בצורה מדויקת בעזרת התפלגות בינומית. כל זה טוב ויפה במעבדה, אבל בכפר נידח ללא מחשבון או מחשב (ולמעשה, ביום השני גם ללא חשמל), חישוב כזה היה אורך שעות. השימוש בקירוב הנורמאלי בשילוב עם בחירה חכמה של מספר הזריקות הפך את החישוב לפעולה חשבונית פשוטה שאורכת 10 שניות בראש (בהנחה שזוכרים את הנוסחא לסטיית התקן המקורבת, שהיא פשוטה למדי), תוך שמירה על רמת דיוק גבוהה מאוד.

לסיכום: סטטיסטיקה היא מדע הנאחס.

גשם
כל ההמלצות שקראתי לפני הטיול טענו שהזמן האחרון לטייל בקצק'ר הוא באמצע ספטמבר, כי אחרי זה מתחיל להיות שם קר מאוד. אנחנו התחלנו את הטראק בערך ב-8 לספטמבר, כך שאת העליה לפסגת הקצק'ר עשינו בדיוק ב-16. באותו יום בלילה, ממש רגע אחרי שהקמנו את האוהל ונכנסנו לתוכו, התחיל לרדת גשם שוטף.

אחד המשפטים שאני אוהב להגיד ברגעים קשים (ובטראק היו כמה כאלה) הוא "היה יכול להיות גרוע יותר - היה יכול לרדת גשם". הפעם יכולתי רק להגיד: "היה יכול להיות גרוע יותר…." [שתיקה].

ואז אלעד אמר משהו מפתיע - שבעצם זה טוב שיורד עכשיו גשם! והוא הסביר: באיזור של הקצק'ר יש בממוצע כמות משקעים שנתית מסויימת. לכן, אם לא יורד עכשיו גשם, צריך "להשלים יותר" גשם (בהמשך השנה) בשביל להגיע לממוצע, ובפרט יש סיכוי גבוה יותר שירד מחר גשם. המסקנה היא שהסיכוי שירד גשם מחר קטן יותר אם יורד עכשיו גשם מאשר אם לא.

זאת דוגמא קלאסית לכשל המהמר - הנטיה לייחס תלות לאירועים בלתי תלויים. כשל המהמר בא לידי ביטוי, לדוגמא, אצל אנשים שחושבים ש-10 זריקות קוביה בהן לא יצא המספר שש מגדילות את הסיכוי שיצא שש בזריקה הבאה (מפתיע כמה כאלה יש). אבל כיוון שזריקות קוביה אינן מושפעות מזריקות קודמות (לפחות בתיאוריה), הסיכוי אמור להשאר קבוע - 1/6 בדיוק.

מעניין לשים לב שההסבר של אלעד היה תקף אם, למשל, היה ידוע שכמות המשקעים השנתית בקצ'קר היא קבועה, כי במקרה כזה לא ניתן לטעון שכמות הגשם מחר אינה תלויה בכמות הגשם היום (למשל אם אנחנו ביום הלפני-אחרון של השנה, והרגע הגענו לכמות המשקעים הידועה - מחר בודאות לא ירד גשם). הטעות של אלעד נבעה כנראה מהסתכלות על הממוצע השנתי כמעין חסם עליון, מה שכמובן אינו נכון.

מה שאני אוהב במיוחד בכשל המהמר, הוא שלא רק שהוא לא צודק - הוא אפילו טועה: במקרים רבים באמת מתקיים קשר בין אירועים שהם לכאורה בלתי תלויים, אבל הקשר הזה הוא בדיוק הפוך מזה שהמהמר חושב עליו. הנה דוגמא מהחיים שממחישה את זה:

רובם המוחלט של המבחנים בחוג לפסיכולוגיה (בתואר ראשון בתל אביב, לפחות) הם אמריקאיים. נניח שאתה עונה על מבחן כזה, ונאלץ להמר בשאלה מסויימת. מה תבחר - א', ב', ג' או ד'? מתברר שלא מעט סטודנטים לפסיכולוגיה סופרים את מיקומי התשובות הנכונות שכבר סימנו, ומסמנים את המיקום שהופיע הכי מעט פעמים. ההגיון כאן זהה בדיוק לזה שעומד מאחורי טיעון הגשם של אלעד - אם התשובה הנכונה בכל שאלה ממוקמת באקראי ע"י מחבר השאלון, במבחן כולו יהיה מספר שווה, בערך, של תשובות נכונות שהן א', ב', ג' או ד'. לכן, לכאורה, בהעדר מידע נוסף כדאי להמר על משהו שמקרב אותנו לאיזון הזה. זאת כמובן שטות מוחלטת - אם מיקום התשובה הנכונה נבחר באקראי, מיקום התשובות הנכונות בשאלות האחרות במבחן אינו תורם כל מידע לגבי מיקום התשובה הנכונה בשאלה מסויימת כלשהי (כמובן, המצב שונה אם בשאלון מתבצע איזון פיקטיבי של התשובות).

בפועל, אסטרטגיה טובה יותר תהיה לבחור דוקא את התשובה שהופיעה עד כה הכי הרבה פעמים. הסיבה היא שמיקום התשובות הנכונות בכל שאלה לא נקבע באקראי ע"י מחשב, אלא נקבע ידנית ע"י המרצה. אם למרצה יש הטיה לטובת מיקומים מסויימים (למשל נטיה שהתשובה הנכונה תהיה ג'), סביר שהיא תבוא לידי ביטוי בשאלון כולו. במובן מסויים, אפשר לחשוב על השאלות שעליהן כבר ענינו כעל מדגם שבודק את התפלגות התשובות הנכונות במבחן המסויים הזה, ובאופן כללי במבחנים של המרצה המסויים הזה. למשל, אם הרבה מהתשובות הנכונות במדגם יצאו ג' - סביר להניח כי גם בשאלות שלא ענינו עליהן יש סיכוי גבוה יותר שהתשובה הנכונה היא ג' (זו בדיוק האסטרטגיה שלי במבחנים בפסיכולוגיה, ועד כה היא הוכיחה את עצמה כטובה למדי).

אם כן, סיכום זריז: מטילים קוביה 36 פעמים, ולא יוצא שש בכלל. מה הסיכוי שיצא שש בהטלה הבאה? מהמר יגיד שיותר מ-1/6 ("כדי להשלים"); חכם יגיד שבדיוק 1/6 ("אין קשר"); סטטיסטיקאי יגיד שפחות מ-1/6 ("הקוביה מוטה"). ראו גם את החלק על השש-בש מקודם.

ובחזרה לאוהל. אחרי כמה דקות בהן הסברתי לאלעד על כשל המהמר, הוא השתכנע שהסיכוי לגשם מחר לא קטן בעקבות הגשם שיורד ברגע זה (ואם כבר רק גדל), ורק שאל איך קוראים לכשל המהמר במתמטיקה. התשובה הטובה ביותר שהצלחתי למצוא היא שכשל המהמר פשוט לא קיים במתמטיקה - כשמנסחים שאלה בהסתברות מצוין בדר"כ במפורש האם המאורעות תלויים או לא, ולכן כשל המהמר יקרא פשוט "טעות".

והשורה התחתונה? כשקמנו מצאנו את האוהל תחת 20 ס"מ שלג שהצטברו במהלך הלילה. גשם לא ירד למחרת, בהמשך הטראק או בהמשך הטיול.

המלצת קריאה
אחרי הטראק המשכנו לשבוע של של בטן-גב בבודרום, ורוב מה שעשיתי שם (לפחות בשעות היום) היה לקיים הבטחה ישנה למאיה, ולקרוא את Cryptonomicon של Neal Stephenson. הספר הזה פשוט מעולה בצורה יוצאת דופן. אני לא אספר שום דבר על העלילה, רק אומר שאלן טיורינג הוא אחת הדמויות ושכבר בעמוד 11 מופיעה הנוסחא של פונקציית זטא של רימן. אם זה לא מספיק, ברוס שנייר כתב אלגוריתם הצפנה במיוחד עבור הספר (ספוילר), ואיאן גולדברג מימש אותו ב-Perl. בקיצור, מומלץ ביותר.

אנחנו ניצחנו, מכבי הפסידה

שלישי, 22 במאי 2007

"קבוצות" הוא אחד מהנושאים הבודדים שזוכים להתייחסות גם במתמטיקה וגם בפסיכולוגיה: במתמטיקה תחת המטריה הרחבה של תורת הקבוצות (שהיא אולי הבסיס למתמטיקה כולה), ובפסיכולוגיה תחת המטריה הרחבה לא פחות של הפסיכולוגיה החברתית.

את העיסוק המתמטי בקבוצות אשאיר להזדמנות אחרת (למעשה כבר נגעתי בו מעט כשכתבתי על קבוצות אינסופיות), והפעם אתמקד בפן הפסיכולוגי בלבד: אתאר בקצרה תיאוריה פסיכולוגית שעוסקת בקבוצות חברתיות וההשתייכות אליהן, ואראה כיצד היא באה לידי ביטוי בטוקבקים של אוהדי מכבי תל אביב בכדורסל.

ההגדרה המדוייקת של קבוצה חברתית עמומה למדי (בדומה להגדרות של מושגים פסיכולוגיים רבים אחרים), אבל היא כמעט ברורה מאליה בצורה אינטואיטיבית. קבוצות חברתיות לדוגמא הן קבוצת כדורסל, קבוצת האוהדים שלה, קבוצת הפסיכולוגים, קבוצת הנשים, קבוצת הישראלים וכו'.

קל לראות שכל אחד מאיתנו חבר במספר רב של קבוצות חברתיות שונות. השאלה המתבקשת, אם כן, היא איזה צורך מספקת החברות בקבוצה?

אחת התיאוריות שמנסה לענות על השאלה היא תיאורית הזהות החברתית של Tajfel ו-Turner, שטוענת כי הזדהות עם קבוצות נועדה לשפר את ההערכה העצמית של הפרט.

כנגזרת מכך, השערה מרכזית של התיאוריה היא שקיים קשר חיובי בין היוקרה (סטטוס) של קבוצה לבין מידת ההזדהות איתה, ובמילים אחרות: ככל שקבוצה תחשב כ"מוצלחת יותר", אנשים ייטו יותר להזדהות איתה.

הנקודה האחרונה נראית, על פניו, כמעט טריוויאלית. בכל זאת, התיאוריה צופה גם את קיומן של תופעות מורכבות יותר, למשל שאנשים שיחוו ירידה זמנית בהערכה העצמית ייטו יותר להזדהות עם קבוצות, וכתוצאה מכך ההערכה העצמית שלהם באמת תעלה.

ואכן, שתי הטענות הנ"ל אומתו במספר ניסויי מעבדה קלאסיים, מה שהביא לביסוס משמעותי של התיאוריה. אבל התיאוריה אינה מסבירה רק תופעות שמתרחשות במעבדה:

במאמר קלאסי [1976] בדק רוברט סיאלדיני שבע אוניברסיטאות גדולות בארה"ב, והראה שבבוקר שלאחר נצחון של קבוצת הפוטבול של האוניברסיטה נראים בקמפוס יותר סטודנטים לבושים בחולצת האוניברסיטה, לעומת בבוקר שלאחר הפסד של קבוצת הפוטבול. בנוסף, סטודנטים נטו להשתמש בביטוי We (גוף ראשון) כשתיארו נצחון של קבוצת הפוטבול, ובביטוי They (גוף שלישי) כשתיארו הפסד. סיאלדיני תיאר זאת כ-"basking in reflected glory" - התחממות מהתהילה המשתקפת עליך בעקבות הצלחה של קבוצה שאתה חלק ממנה. כמובן, כל זה מסתדר מצוין עם ההשערה המרכזית של תיאורית הזהות החברתית.

מתברר שהתופעה אינה מוגבלת רק לאוניברסיטאות בארה"ב, והיא מתקיימת גם במחוזותינו:

בשבועיים הראשונים של חודש אפריל 2007, התמודדה קבוצת הכדורסל מכבי תל אביב מול אלופת אירופה צסק"א מוסקבה, בשלב ההצלבה של אליפות אירופה בכדורסל (יורוליג). ההתמודדות היתה בשיטת הטוב משלוש, כשהמשחק הראשון והשלישי נערכים במוסקבה, והמשחק השני בישראל.

בסופו של דבר, כל קבוצה ניצחה את משחקי הבית שלה (צסק"א – את המשחקים הראשון והשלישי; מכבי – את המשחק השני), כך שבסיום ההתמודדות צסק"א העפילה לשלב הפיינל-פור ומכבי הודחה מהתחרות. שלושת המשחקים הסתיימו בהפרשים משמעותיים (80:58, 56:68, 92:71).

לאחר כל משחק, מתפרסמת ב-ynet כתבת סיכום במדור הספורט, ובעקבותיה מספר רב של טוקבקים. הטוקבקים אנונימיים לחלוטין, ועוסקים בקשת רחבה של נושאים: מניתוחי ספורט מעמיקים, ועד קללות נמוכות כנגד שחקנים, מאמנים, פרשני הערוץ הראשון, כותב המאמר וטוקבקיסטים אחרים.

כאמור, השערה מרכזית של תיאוריית הזהות החברתית היא שקיים קשר חיובי בין היוקרה (סטטוס) של קבוצה לבין מידת ההזדהות איתה. ספציפית, ניתן לשער כי לאחר ניצחון של מכבי תל אביב מידת ההזדהות איתה תהיה גדולה יותר מאשר לאחר הפסד, והדבר יבוא לידי ביטוי בטוקבקים.

כדי לבדוק האם ההשערה אכן מתקיימת, ערכתי את הבדיקה הבאה: בשלב הראשון, סיננתי מתוך 535 הטוקבקים שנלוו לכתבות (משחק 1, משחק 2, משחק 3) את אלה שנכתבו ע"י אוהדי מכבי מוצהרים - מי שהזדהה כ"צהוב", "אוהד מכבי" או "מכביסט", וטוקבקים נוספים שמתוכנם היה ברור שהכותב הוא אוהד מכבי. בשלב השני, סיננתי טוקבקים בהם התייחסו האוהדים למכבי תל אביב עצמה (בניגוד לתגובות כלליות בסגנון "איזה משחק!"). כעת נשארתי עם 58 טוקבקים בלבד, אותם חילקתי לשתי קטגוריות: אלה בהם ההתייחסות למכבי היתה בגוף ראשון ("ניצחנו בפוקס"), ואלה בהם ההתייחסות למכבי היתה בגוף שני או שלישי ("מכבי ניצחו בפוקס"). את המקרים הבודדים בהם היו התייחסויות משני הסוגים ספרתי בקטגוריה הראשונה. להלן מספרי הטוקבקים שנכנסו לניתוח, בחלוקה לפי הקטגוריות:

משחק 1, "אנחנו": 18 79 123 137 155 172 180
משחק 1, "הם": 21 33  35  36  80  92  97 104 112 133 150 154 167
משחק 2, "אנחנו": 18 40 48 54 57 73  82  90 102 150
משחק 2, "הם": 26 34 68 88 94 96 115 151
משחק 3, "אנחנו": 5  35  58  93 156 191
משחק 3, "הם": 1 110 121 123 135 138 150 167 171 179 180 182 183 185

הגרף הבא מציג את הנתונים בצורה ברורה יותר:

maccabi-comments1.gif

והגרף הבא מאחד את המשחק הראשון והשלישי לקטגוריה בודדת של "הפסד":

maccabi-comments2.gif

כפי שניתן לראות, הנתונים עומדים בקנה אחד עם ההשערה ועם התיאוריה: אחוז גדול יותר של אוהדי מכבי תל אביב התייחסו לקבוצה בגוף ראשון לאחר ניצחון מאשר לאחר הפסד.

האם מדובר בהבדל מקרי? נראה שלא. ניתוח שונות חד-גורמי בין נבדקים (שתי קטגוריות, לפי המנצח במשחק; השערה חד-צדדית) מצביע על כך שמדובר באפקט מובהק סטטיסטית, ברמת בטחון קרובה ל-95% (F(1, 56)=2.795; p=.05006).

בשורה התחתונה, הניבוי המרכזי ביותר של תיאורית הזהות החברתית מתקיים גם עבור אוהדי מכבי. בכל מקרה, אני מעדיף את ההסבר הזה מאשר את ההסבר של "סטיב קפלן ראש העיר האדום", שכתב כי "אוהדי הצלחות מכבי = האוהדים הגרועים בעולם! " (משחק 1, תגובה 161).

הערת צד: בדרך כלל מקובל להתייחס לאפקט כמובהק אם p<.05. בניתוח הסטטיסטי האחרון התקבל p שקרוב באופן מחשיד לערך הקריטי, ובכל זאת גדול ממנו במעט. חוקרים מסויימים עלולים לטעון שבמקרה כזה אסור לומר שהאפקט מובהק סטטיסטית. באופן אישי, אני מאמין שנכון יותר לציין את ערך ה-p המדויק שהתקבל ולהשאיר לקוראים את ההחלטה כיצד להתייחס לתוצאות, מאשר להתייחס לאפקט בצורה דיכוטומית כמובהק או לא.

סיכום שנה

שישי, 27 באפריל 2007

בדיוק לפני שנה כתבתי פה את הפוסט הראשון, וחשבתי שזו הזדמנות טובה לסכם את השנה הראשונה של הבלוג. אז מה היה לנו פה?

פוסטים
בסה"כ כתבתי השנה 30 פוסטים.

ניתחתי את הקמת הקואליציה החדשה בעזרת עקרונות של תורת המשחקים. המלצתי למלצרים על מספר טכניקות פשוטות להגדלת הטיפ. הסברתי מדוע הסקרים שנעשו לפני הבחירות נכשלו בחיזוי החלשות קדימה והתחזקות הגימלאים. המצאתי שיטה לייצור שמות לאתרי אינטרנט שנשמעים טוב ובכל זאת עדיין פנויים. רטנתי על ההתעלמות של בלו סקיוריטי מתגובה שכתבתי להם. חלמתי בהקיץ על סוף עידן הסלולר ועל רשתות תקשורת שיתופיות. הפרכתי כתבה שהתפרסמה בעמוד הראשי של מעריב ודיווחה על תופעה מדהימה שקשורה לגירושין בישראל. סיפרתי על הקשר בין סדר הלידה במשפחה לבין הסיכוי להיות הומוסקסואל. תיארתי רמאות אינטרנט מעניינת שמסבירה מדוע קרנות נאמנות שהצליחו בשנה שעברה לאו דוקא יצליחו בשנה הבאה. טענתי שמופע הזיקוקים של שגרירות צרפת איכזב בגלל כלל השיא-סוף. התלהבתי משימוש בנתוני טלפונים סלולריים כדי ללמוד על התנהגות האוכלוסיה בזמן אמת, ומאתר שמציג סטטיסטיקות על הפער העולמי בצורה ייחודית. ניסיתי לכמת את יציבות הממשל בישראל, והצעתי פתרון לא אינטואיטיבי להגדלת היציבות. הרהרתי על היעילות של מבחנים אמריקאיים וסיפרתי על מבחן אמריקאי מוזר במיוחד, ובכל זאת טוב יותר. ברוח המונדיאל הראיתי שהכדור לא עגול, וכתבתי על הקשר בין כדורי רגל לפצצות אטום. התפלספתי כי תורות האישיות לא יאבדו מערכן גם בעולם של מחקרי מוח. קיוויתי לגמר מונדיאל ללא פנדלים למען השוערים, הבועטים ובעיקר הצופים בבית. טענתי כי אנו לוקים בטעות הייחוס הבסיסית כשאנחנו משווים את מניעי ישראל למניעי חזבאללה. סיפרתי על עיצוב כסאות בעזרת אקראיות, שראיתי בתערוכת הבוגרים של בצלאל. הסברתי את ההגיון מאחורי שיטה מוזרה לחלק את החשבון במסעדה, ובמקביל ניסיתי להבין איך קרה שהתשובה צצה בראשי פתאום, אחרי למעלה מחודש ללא התעסקות בבעיה. התעמקתי בדקויות החוק לגבי מכירת המניות של הרמטכ"ל ביומה הראשון של מלחמת לבנון השניה. נהניתי מהקשר בין משחק פשוט לבין השקעות ספקולטיביות בבורסה. בדקתי את טענת האלוף שטרן לגבי הדמוגרפיה של לוחמי צה"ל, והראיתי שגודל היישוב משחק תפקיד משמעותי בהחלטה להתגייס לקרבי. הצעתי שיטה לסימון תגובות איכותיות באופן אוטומטי, בעזרת שילוב בין captcha לסוג מסויים של מבחן אינטלגנציה. כתבתי על תאונת דרכים שראיתי, ואיך תגובות האנשים בעקבותיה קשורות לכך שזוכי מדליות הארד מאושרים יותר מזוכי מדליות הכסף. הוכחתי כי על כדור הארץ קיימות בהכרח שתי נקודות מנוגדות עם טמפרטורה זהה, אבל לאו דוקא שתי נקודות מנוגדות בהן יורד גשם. הזמנתי אתכם לתחרות מחשבים מדליקה. עקצתי את הקצרנית של ועדת וינוגרד ואת ההכרות שלה עם מושגים מתורת המשחקים. התבדחתי ברצינות שתיבת המייל האינסופית של Yahoo לא גדולה מספיק.

מה לגבי תדירות הפוסטים? בממוצע בין פוסט לפוסט שאחריו עברו מעט יותר מ-12 יום, עם סטיית תקן של מעט פחות מ-16. אבל הסיפור האמיתי נמצא בגרף הבא:

post-frequency.gif

נראה שתדירות הפוסטים היתה במגמת ירידה לאורך השנה. הסיבה, אגב, היא לא מחסור ברעיונות, אלא פשוט תעדוף הזמן שלי לדברים אחרים. פרטים נוספים בעתיד :)

איזה פוסטים היו פופולריים במיוחד? הטבלה הבאה מציגה את חמשת הפוסטים הנצפים ביותר (לפי גוגל אנליטיקס) ואת חמשת הפוסטים המועדפים עלי. מתברר שיש ביניהם חפיפה די גדולה:

הנצפים ביותר
1. סימון אוטומטי של טוקבקיסטים אינטליגנטים
2. טעות הייחוס הבסיסית
3. הדמוגרפיה של לוחמי צה“ל (המשך)
4. איך לבחור שם לאתר אינטרנט?
5. משקיעים חכמים ומשקיעים צודקים

המועדפים שלי
1. הדמוגרפיה של לוחמי צה“ל (המשך)
2. סימון אוטומטי של טוקבקיסטים אינטליגנטים
3. טעות הייחוס הבסיסית
4. חלוקת החשבון ואפקט זייגרניק
5. על יציבות הממשל בישראל

תגובות
בסה"כ כתבנו השנה 268 תגובות.

אני מפריד בין תגובות "ערכיות" לתגובות "לא ערכיות", כשמבחינתי תגובה ערכית היא כל תגובה שמוסיפה מידע על הפוסט או תורמת לדיון סביבו. תגובות שרק מספרות לי כמה הקורא נהנה מהפוסט הן לא ערכיות לפי ההגדרה הזו (למרות שאני כמובן נהנה מאוד לקרוא אותן!). לדעתי, התגובות הערכיות הן הסיבה העיקרית לכך שקוראים חוזרים למאמר גם לאחר הקריאה הראשונה. 

מי כתב יותר תגובות ערכיות - אני או אתם? 

comments-breakdown.gif         

מתברר שבערך אותו הדבר: 72% מהתגובות שלכם ו-70% מהתגובות שלי היו ערכיות. הטבלה הבאה מציגה את חמשת הפוסטים שזכו לתגובות הרבות ביותר, ללא התייחסות לערכיות:

המוגבים ביותר
1. סימון אוטומטי של טוקבקיסטים אינטליגנטים
2. מעבר לאינסוף
3. טעות הייחוס הבסיסית
4. חלוקת החשבון ואפקט זייגרניק
5. על יציבות הממשל בישראל

ולסיכום
כשהתחלתי לכתוב את הבלוג, חשבתי שאנסה את זה למשך שנה ואז אחליט אם להמשיך. השנה האחרונה בבלוג היתה מצוינת, ומבחינתי הניסוי הוכתר בהצלחה. תודה לכל הקוראים והמגיבים!

הדמוגרפיה של לוחמי צה"ל (המשך)

ראשון, 17 בספטמבר 2006

בפוסט הקודם תיארתי את הקשר בין גיוס ליחידות קרביות לבין סוג היישוב שבו אתה גר. ספציפית, הראיתי שביישובים כפריים שיעור הגיוס הקרבי גבוה מאוד בהשוואה ליישובים עירוניים.

בסוף הפוסט, הזהרתי כי סביר שהקשר מבטא מתאם מזויף. חשוב להבין שהכוונה היא לא שהקשר אינו קיים במציאות (מובהקות סטטיסטית מבטיחה לנו שהקשר אמיתי וקיים), אלא רק שמדובר בסימפטום של תופעה עמוקה יותר. בזמנו, חשבתי שניתן יהיה לרדת לשורש העניין רק בעזרת נתונים נוספים, שאינם פומביים.

מתברר שטעיתי. בחינה נוספת של אותם נתונים מאפשרת לזהות קשר עמוק יותר, כפי שניתן לראות בגרף הבא:

lebanon2.jpg

מבחן חי בריבוע לטיב התאמה מאשר שלא מדובר בהבדל מקרי אלא בהבדל מובהק סטטיסטית ברמת בטחון קרובה לודאית (p < 10-14). ניתוח שאריות מתוקננות מראה כי אכן ברמת בטחון גבוהה, ביישובים קטנים שיעור ההרוגים גבוה מהצפוי (p < 10-14) וביישובים גדולים שיעור ההרוגים נמוך מהצפוי (p < 0.05). ביישובים בינוניים שיעור ההרוגים גבוה מעט מהצפוי, אך ברמה שאינה מובהקת סטטיסטית.

במילים פשוטות: ככל שהיישוב בו אתה גר קטן יותר, גדלים סיכוייך להתגייס לשירות קרבי. מעניין לציין שהתופעה חזקה מאוד כשמשווים בין קטגוריות היישובים שציינתי למעלה, אך כמעט ואינה קיימת כשמשווים בין שני יישובים גדולים (ז"א, אין הבדל מהותי בין יישוב של 50,000 איש, ליישוב של 250,000 איש). יתכן שהסיבה לכך היא מיעוט הנתונים שאינו מאפשר מובהקות סטטיסטית, אך תחושת הבטן שלי היא שמדובר פשוט בסף קריטי, שמעבר לו גודל היישוב כבר לא משחק תפקיד.

אם כן, מדוע מדובר בתופעה עמוקה יותר מזו שתיארתי בפוסט הקודם?

הסיבה היא שרובם המוחלט של היישובים הקטנים הם יישובים כפריים, ורובם המוחלט של היישובים הגדולים הם יישובים עירוניים. למעשה, אם מתמקדים אך ורק בקטגוריית היישובים הבינוניים (המכילה כמות שווה, פחות או יותר, של יישובים כפריים ועירוניים), מתברר כי דוקא ביישובים העירוניים שיעור ההרוגים גבוה מעט מהצפוי, וביישובים הכפריים שיעור ההרוגים נמוך מעט מהצפוי (אך ההבדל אינו מובהק סטטיסטית).

אם כן, האלוף שטרן צדק כשטען שהשכול במלחמת לבנון לא התחלק בצורה שווה באוכלוסייה, אך טעה בקשר לסיבה: הגורם הבסיסי אינו החינוך השונה שמקבל נער עירוני לעומת נער קיבוצניק, כיוון שכשגודל היישוב דומה - נראה שביישובים כפריים וביישובים עירוניים שיעורי גיוס קרבי דומים. כדוגמא הפוכה לטענתו של שטרן ניתן להביא את היישוב העירוני עומר שמנה 5,995 תושבים בשנת 2004 - שיאן כל הפרמטרים לפי נתוני צה"ל (שיעור גיוס: 92%; שיעור גיוס קרבי: 75%). כמובן, דוגמא ספציפית אחת אינה מספיקה כדי להפריך תיאוריה סטטיסטית, אך במקרה זה כבר ראינו שתיאוריית שטרן אינה עולה בקנה אחד עם הנתונים.

ולכן, בשורה התחתונה: קיים קשר בין גודל היישוב לשיעור הגיוס הקרבי, אך לא נראה כי עובדת היותו של היישוב עירוני או כפרי משחקת תפקיד משמעותי. בתיאוריה, את המסקנה האחרונה ניתן להוכיח בעזרת מתאם חלקי. בפועל, מיעוט הנתונים לא יאפשר מובהקות סטטיסטית.

אך כיצד יכול גודל היישוב כשלעצמו להשפיע על שיעור הגיוס הקרבי?

מחקר של ד"ר פטרישיה פאנק, כלכלנית שוויצרית מ-Stockholm School of Economics, מציע תיאוריה מעניינת:

המחקר [2005] עסק בשיעור ההצבעה בבחירות בשוויץ, לאורך העשור וחצי האחרונים. מתברר שהחל משנת 1994, אחד הקנטונים בשוויץ מאפשר לבוחרים להצביע באמצעות הדואר. ההצבעה בדואר היא אופציונלית, ז"א הבוחר יכול להחליט האם להגיע לקלפי ולהצביע כרגיל, או לשלוח את הצבעתו בדואר.

לכאורה, הגיוני לצפות ששיעור ההצבעה בקנטון זה יגדל, כיוון שלבוחר הפוטנציאלי קל יותר להצביע (אין לו צורך לצאת מהבית במיוחד, לעמוד בתור לקלפי וכו'). במקרה הגרוע, היינו מצפים ששיעור ההצבעה ישאר ללא שינוי. אך במציאות, באופן מדהים, שיעור ההצבעה רק ירד, כשהירידה המשמעותית ביותר היתה דוקא בקהילות קטנות!

וההסבר? החוקרת טוענת כי ההחלטה האם להצביע בבחירות מושפעת מאוד מנורמות חברתיות: הצבעה בבחירות נחשבת חיובית, וכתוצאה מכך אנשים מעוניינים שהסובבים אותם ידעו שהלכו להצביע בבחירות. כל עוד ההצבעה בבחירות היתה בקלפי בלבד, חלק מהאנשים הלכו להצביע ולו רק בשביל שיראו אותם מצביעים. ברגע שהצבעה באמצעות הדואר הפכה לאופציה, לאנשים אלה לא היתה יותר סיבה להצביע בכלל. הרי בכל מקרה, תמיד יתכן שהצביעו בדואר…

לטענת החוקרת, תופעה זו השפיעה במיוחד על קהילות קטנות משתי סיבות: ראשית, הפרטים בקהילות אלה מושפעים יותר מדעתם של הסובבים אותם. שנית, בקהילות אלה המידע על הפרטים בקהילה זורם בצורה חופשית יותר (דרך רכילות, למשל). לכן, בקהילות קטנות "הרווח היחסי" בלהראות בקלפי היה גבוה יותר, ובפרט גם ההשפעה של העלמותו היתה גדולה יותר.

ובחזרה לנושא המרכזי: מדוע בקהילות קטנות בישראל שיעור גיוס קרבי גבוה יותר?

יתכן שאחד הגורמים הוא שגיוס לצה"ל בכלל וליחידה קרבית בפרט, עדיין מהווה נורמה חיובית בחברה הישראלית. במקרה זה, הגיוני שבקהילות קטנות בהן כולם מכירים את כולם, "הרווח היחסי" של גיוס ליחידה קרבית יהיה גדול יותר, ו"העונש" על השתמטות, או לחילופין גיוס ליחידה לא קרבית, יהיה גם הוא גדול יותר.

בפשטות, קל יותר להשתמט כשאינך צריך לפגוש את חבריך לשכבה בכל סופ"ש, במכולת השכונתית.