ארכיון פוסטים שפורסמו בחודש מאי 2006

שימוש בנתוני מיקום של טלפונים סלולריים למחקר עירוני

שבת, 27 במאי 2006

ביום שני הזדמן לי לשמוע הרצאה מרתקת של ד"ר נעם שובל (המחלקה לגיאוגרפיה באוניברסיטה העברית) על שימוש אגרגטיבי בנתוני מיקום של טלפונים סלולריים, ככלי עזר למחקר ולתכנון עירוני (ההרצאה הועברה בכנס "מציאות ומציאות מדומה" שעסק בתכנון ובמחקר עירוני).

הרעיון הבסיסי הוא כזה: שיעור החדירה של טלפונים סלולריים לשוק הישראלי גבוה מאוד (106%, לפי הנתונים שהוצגו בכנס), וכיום לרוב המוחלט של אוכלוסיית ישראל יש טלפון סלולרי. ספקי הסלולר (פלאפון, אורנג', סלקום, מירס) מסוגלים לאכן בכל רגע נתון (ברמת דיוק כזו או אחרת) את מיקומו של כל משתמש סלולר. נניח שהיינו מקבלים מהספקים את הנתונים האלה - מה היינו יכולים ללמוד מהם?

למעשה, היינו מקבלים תמונת זמן-אמת של העיר והאוכלוסיה שבה, או במילים אחרות: היינו רואים כיצד האוכלוסייה מפוזרת במרחב העירוני בחתכי זמן שונים (ד"ר שובל השתמש בדימוי של "MRI לעיר"). לדוגמא: בזמן תצוגת הזיקוקים הגדולה לפני שבועיים היינו רואים כמות אדירה של אנשים מרוכזת באיזור הטיילת בתל אביב.

למידע כזה יש משמעות אדירה בהקשרים של ניטור זמן-אמת של פקקי תנועה: למשל, מנתוני המיקום של מכשירים סלולריים בכביש החוף ניתן לחשב את מהירות התנועה בכביש בקטעים שונים, ולזהות פקקי תנועה בשלב מוקדם יחסית. תחשבו על שילוב של מערכת אוטומטית כזאת לזיהוי פקקי תנועה בזמן אמת, עם מערכת ניווט ברכב (GPS): לראשונה, מערכת הניווט תוכל להציע לכם מסלולים עוקפי פקק!

השלב הטבעי הבא הוא להשתמש בנתונים ככלי עזר לתכנון העיר: לראות איזה כבישים כדאי להרחיב, לזהות אתרי תיירות פופולריים במיוחד (ואז להשקיע יותר בפיתוח שלהם, או להיפך - להשקיע יותר בפרסום של אתרים פחות פופולריים), וכו'.

חשוב לשים לב שאין כאן פגיעה אמיתית בפרטיות משתמשי הסלולר, כיוון שבשום שלב לא מועברים נתונים שיכולים לזהות משתמש ספציפי (למשל, אין צורך שחברות הסלולר יעבירו את מספרי הטלפון של המכשירים). אמנם ניתן להסיק פרטים מסויימים על המשתמש רק מנתוני המיקום (איפה הוא ישן בלילה, למשל), אבל האיכון לא מדויק מספיק בשביל להסיק מכך את כתובתו המדויקת.

יחד עם זאת, אם בכל זאת יועברו מספר פרטים כלליים על כל משתמש (למשל גיל ורמת הכנסה), יפתח פתח למחקר חסר תקדים בהיסטוריה האנושית: כיצד אוכלוסיות שונות מתפזרות במרחב ובזמן, ולמעשה כיצד מתנהג "האורגניזם האנושי".

לקריאה נוספת: שני מחקרים פורצי דרך של קרלו ראטי [2005, 2005] ואחד של ריין האס [2005].

אכזבת הזיקוקים

ראשון, 21 במאי 2006

ביום שלישי האחרון הייתי בטיילת בתל אביב וראיתי את מופע הזיקוקים שנערך בחסות שגרירות צרפת. במהלך המופע עצמו דוקא נהניתי מאוד, אבל כנשאלתי בדיעבד איך היה - התגובה המיידית שלי היתה משהו בסגנון "מרשים, אבל לא וואו".

משום מה הרגשתי מעט מאוכזב מהמופע, אך לא יכולתי להצביע על משהו ספציפי שגרם לזה: הרי בסה"כ הזיקוקים היו מרהיבים, המופע נמשך כמעט 20 דקות והאווירה מסביב היתה מחשמלת. למעשה, עצם הנוכחות של מאות אלפי הצופים על החוף (ועשרות הסירות במים) היתה כשלעצמה מדהימה.

בימים שעברו מאז עקבתי אחר סיקור האירוע בעיתונות הדיגיטלית (1, 2, 3, 4, 5, 6), ונדהמתי לגלות שחלק ניכר מתגובות הגולשים הביע את אותה תחושת אכזבה מהמופע (כדי להווכח בכך בעצמכם, אתם מוזמנים לספור בזריזות את התגובות בהן מופיע השורש "כזב"). חשוב לציין כי מדובר בניגוד מוחלט להתנהגות הקהל בזמן המופע עצמו, בו היו גלי מחיאות כפיים ספונטניים כל מספר דקות. בנוסף, מעניין לשים לב לכך שהאכזבה בתגובות כוונה בעיקר למופע עצמו, וכמעט בכלל לא לפקקים שקדמו לו.

איך יתכן, אם כן, שמופע מרשים ומהנה בזמן אמת, מעורר תגובה שלילית כל כך בדיעבד?

בניסוי קלאסי [1996], דגם הנובליסט דניאל כהנמן הערכות כאב רגעיות (בסולם 0-10) של מטופלי קולונוסקופיה תוך כדי הטיפול, ובנוסף ביקש מהם לספק הערכת כאב של התהליך כולו בדיעבד.

לכאורה, היה סביר לצפות שההערכה בדיעבד תהיה מעין "סכום" (או אינטגרל) של ההערכות הרגעיות. לדוגמא, הגיוני לצפות שטיפול ארוך יחשב בדיעבד ככואב יותר מטיפול קצר, ושטיפול שרובו כואב מאוד יחשב בדיעבד ככואב יותר מטיפול שרובו כואב מעט.

בפועל, התברר כי הערכת הנבדקים את עוצמת החוויה בדיעבד התבססה בעיקר על שני רגעים: רגע השיא של החוויה (שיא הכאב, בניסוי המתואר), ורגע הסוף שלה (ז"א הדרך בה הסתיימה החוויה). משך החוויה, מתברר, כמעט ולא השפיע על ההערכה שלה בדיעבד.

לדוגמא: אצל חלק מהמטופלים הוארך הטיפול באופן מלאכותי כך שיסתיים בכאב עמום, לאחר הכאב החד שאופייני לסיום טיפול רגיל (שאותו חוו כלל המטופלים בכל מקרה). המטופלים שזכו לטיפול הארוך יותר נטו להעריך את הטיפול כולו ככואב פחות - למרות שחוו את אותה עוצמת כאב כשל המטופלים הרגילים, וכן כאב נוסף! האפקט הנ"ל אושש מאז בניסויים נוספים, וזכה לכינוי "כלל שיא-סוף".

ובחזרה לזיקוקים: מדוע חווית המופע הוערכה בדיעבד כאכזבה?

הגורם העיקרי, לדעתי, הוא הדרך בה המופע הסתיים: לאחר כמעט 20 דקות של זיקוקים מרהיבים, המופע פשוט… הפסיק. למעשה, למאות אלפי הצופים על החוף אפילו לא היה ברור האם מדובר בסיומו הטבעי של המופע, או בהפסקה רגעית. רק לאחר מספר דקות של ציפיה, הודיעה מערכת הכריזה שהמופע אכן הסתיים והקהל (שהתבקש לעזוב את המקום) החל לנטוש את הטיילת. המשמעות המיידית היתה שלקהל לא ניתנה הזדמנות סבירה לסיים את האירוע בגל מחיאות כפיים.

כלל השיא-סוף חוזה שהערכת החוויה בדיעבד תושפע בעיקר מרגע הסיום המאכזב, ואכן - כך היה.

לקריאה נוספת: "רציונליות, הוגנות, אושר", פרק 13.

שרשרת הצלחות: הונאות אינטרנט וקרנות נאמנות

רביעי, 17 במאי 2006

אתה מקבל מכתב מחברת השקעות, בו נטען שהחברה פיתחה מודל מתמטי מורכב שמאפשר לה לנבא בצורה מדויקת אילו מניות יעלו ואילו ירדו בשבוע הקרוב. כדי להוכיח לך שלא מדובר בהונאה, במכתב ניתנת תחזית לכך שמניית "טבע" תרד בשבוע הקרוב. ואכן, סוף השבוע מגיע ומתברר שערך המנייה אכן ירד.

בעשרת השבועות הבאים המכתבים ממשיכים להגיע, ובכל אחד מהם תחזית לגבי מניה אחרת. באופן מדהים, כל התחזיות מתגשמות במדויק.

בסופו של דבר, מגיע המכתב הבא: "כפי שהוכחנו לך כבר 10 פעמים ברציפות, המודל המתמטי שפיתחנו מאפשר לנו לנבא בצורה מדויקת את ביצועי המניות בבורסה. על מנת להמשיך לקבל תחזיות שבועיות בעתיד, עליך לרכוש מנוי תמורת מחיר סמלי של 200 שקלים לשנה".

לפני קריאת ההמשך, עצרו רגע וחשבו האם הייתם עושים מנוי על השבועון.

לכאורה, התשובה צריכה להיות חיובית: אם מדובר בהונאה, לכל תחזית יש סיכוי של 50% להתגשם "במקרה". לכן, הסיכוי שהחברה תצליח לספק 10 תחזיות מוצלחות ברצף הוא מעט פחות מ-0.1% (בערך 1 ל-1000), או במילים פשוטות: ממש לא סביר שמדובר בהונאה. 200 שקלים הם תשלום זעום תמורת חיזוי מדויק של הבורסה, לא?

אבל התשובה האמיתית שונה מאוד. לחברה אין מודל מתמטי מסובך לחיזוי הבורסה, והתהליך כולו מבוסס על רמאות פשוטה: תחילה, הרמאים אוספים מליון כתובות אימייל. לאחר מכן, הם שולחים לחצי מהן תחזית שמניה מסויימת תעלה, ולחצי השני תחזית שאותה המניה תרד. נניח שבסוף השבוע מתברר שהמניה עלתה. בשלב זה, הרמאים זורקים את חצי מליון הכתובות להם נתנו תחזית מוטעה, וממשיכים לשלוח תחזיות לשאר. בכל "סיבוב" כזה הרמאים מאבדים חצי מהכתובות שנשארו, כך שלאחר עשרה סיבובים הם ישארו עם כ-1000 כתובות, שלכל אחת מהן נשלחו 10 תחזיות מדויקות ברצף. המכתב האחרון נשלח לכתובות אלה בלבד. מספיק שאחד משני אנשים יעשה מנוי על השבועון, והרמאים ירוויחו כמאה אלף שקל.

(למיטב ידיעתי, הונאה דומה תוארה לראשונה ע"י ברוס שנייר)

ההונאה תעבוד בצורה זהה גם אם כל התחזיות ישלחו ביחד, ז"א אם ישלח מכתב בודד שיכיל 10 תחזיות לגבי מניות שונות בבורסה, ובקשה לשלם על מנוי שנתי.

יותר מזה- ההונאה תעבוד גם אם כל אדם יבחר בעצמו לגבי אילו 10 מניות הוא מעוניין לקבל תחזית! במקרה זה, המספר המדויק של אנשים שיקבלו 10 תחזיות אמת לא מובטח, אך ניתן להראות שיהיה בתוחלת כ-1000 איש.

ובמעבר חד לעולם "האמיתי":

האם כדאי להשקיע בקרן הנאמנות שהשיגה את התשואה הגבוהה ביותר בשנה האחרונה? במילים אחרות: האם שרשרת ארוכה של הצלחות שקרן נאמנות כלשהי הציגה בשנה שעברה אומרת משהו על התשואה שתשיג בשנה הבאה?

על פניו, נראה שכן - הרי אם הקרן מהמרת על מניות "באקראי", הסיכוי שתצליח להשיג רצף ארוך של הצלחות נמוך למדי. אם כך, קיומו של רצף כזה נובע, לכאורה, ממשהו שהוא מעבר ל"מזל" מקרי.

אך כמו בסיפור ההונאה למעלה, אסור להתעלם מהעובדה שכשמספר הנסיונות גדול מאוד, גם אירועים "חסרי סיכוי" יקרו בסבירות גבוהה: אם יש מספר גדול של קרנות נאמנות שמהמרות על הבורסה באקראי, סביר מאוד שלפחות אחת מהן תצליח להשיג תשואה גבוהה לאורך השנה. זאת, במיוחד אם הבורסה עלתה באופן כללי בשנה האחרונה (כפי שאכן המצב בפועל), כך שאפילו ההימור "הממוצע" ישיג תשואה חיובית כלשהי.

במקרה זה, ברור שאין משמעות להשקיע דוקא בקרן שהשיגה את התשואה הגבוהה ביותר בשנה האחרונה. הרי אין לכך כל משמעות לגבי התשואה שתשיג בשנה הבאה!

לעומת זאת, מדד חשוב הוא הצלחה לאורך זמן. קרן שמציגה תשואה חיובית גבוהה מהממוצע לאורך מספר שנים (אבל לאו דוקא התשואה הגבוהה ביותר בכל שנה) - ניתן להראות שבסיכוי גבוה מעורב בכך משהו מעבר ל"מזל" מקרי, ולכן סביר להעריך שגם בשנה הבאה תשיג תשואה מעל הממוצע.

בשורה התחתונה: בבחירת קרן נאמנות הגיוני יותר לבחור קרן שמציגה תשואה חיובית "סבירה" לאורך מספר שנים, מאשר את זו שהרוויחה תשואה גבוהה במיוחד, אך בשנה האחרונה בלבד.

הומוסקסואליות וסדר הלידה

שישי, 12 במאי 2006

נתחיל במספר עובדות יוצאות דופן לגבי הומוסקסואליות בקרב גברים [1996]:

  1. לבן השני במשפחה סיכוי גבוה ב-33% להיות הומוסקסואל מאשר לבן הבכור, והסיכוי עולה עם כל בן נוסף בכ-33% נוספים.
  2. כמות הבנות במשפחה אינה משפיעה, ז"א ילד שלישי במשפחה עם שתי אחיות גדולות יחשב כבן בכור מבחינת הסטטיסטיקה, אחיו הקטן יחשב כבן שני וכו'.
  3. הגורם המשפיע הוא באמת סדר הלידה, ז"א בן בכור שאומץ ע"י משפחה עם שלושה בנים גדולים יותר, יחשב כבן בכור ולא כבן רביעי מבחינת הסטטיסטיקה.

קצת משחקי מספרים, כדי להמחיש את משמעות האמור לעיל:

למרות קיומם של נתונים רבים בנושא, אין היום הערכה מדויקת של שיעור ההומוסקסואליות הכללי בקרב גברים. זאת, כיוון שמטבע הדברים בנושא כל כך רגיש, קל מאוד לערער על האמינות של כל נתון סטטיסטי שנאסף. האמונה המקובלת היא שמדובר על שיעור שבין 3% ל-10%, ושאין הבדל משמעותי בין תרבויות שונות בעולם.

אם נניח ששיעור ההומוסקסואליות בקרב בנים בכורים עומד על כ-5%, נקבל את התוצאות הבאות:

בן מספר סיכוי להומוסקסואל סיכוי להומוסקסואל במשפחה
1  5% 5% 
2  6.67% 11.33%
3  8.89% 19.21%
4  11.85% 28.79% 
5  15.8% 40.04% 
6  21.07% 52.68% 

מסקנה: ברוב המשפחות בנות שישה בנים, לפחות אחד הבנים יהיה הומוסקסואל!

חשוב להדגיש שהעובדות למעלה אוששו במספר רב של מחקרים, ואין היום ויכוח לגבי אמינותן. השאלה היא כיצד להסביר אותם - מה הקשר בין סדר הלידה לנטיה מינית הומוסקסואלית?

התיאוריה המקובלת טוענת שמדובר בהשפעה של המערכת החיסונית של האם על העובר, בזמן ההריון: בעוברים זכרים קיים פרוטאין בשם HY, שמעורב בתהליכים מוקדמים של הפיכת המוח לזכרי יותר (masculanization). כיוון שהפרוטאין קיים בזכרים בלבד, המערכת החיסונית של האם מזהה אותו כעוין ומנסה לתקוף אותו. ככל שהמערכת החיסונית של האם תתקל יותר בפרוטאין הזה (ז"א ככל שהאם תביא לעולם יותר בנים זכרים), היא תעשה טובה יותר בתקיפה שלו - וההשפעה על התפתחות העובר תהיה גדולה יותר. התוצאה היא פגיעה בתהליך הפיכת המוח לזכרי, ולפי התיאוריה - סיכוי גבוה יותר להומוסקסואליות.

ולראיה: כשהזריקו לחולדות נקבות פרוטאין HY (כדי "לאמן" את המערכת החיסונית שלהם לתקוף אותו), שיעור ההומוסקסואליות בקרב הזכרים שהולידו היה כ-90%.

חשוב להדגיש: למרות שלסדר הלידה השפעה חזקה על הסיכוי להומוסקסואליות בקרב גברים, לא מדובר בגורם יחיד, ולגורמים אחרים (מולדים או נרכשים) יכולה להיות השפעה משמעותית לא פחות.

לקריאה נוספת: מאמר המסכם את רוב הנתונים שהוזכרו, כולל הפניות למחקרים נוספים [2001].

סטטיסטיקות גירושין - הטעות והמציאות

חמישי, 04 במאי 2006

בתחתית העמוד הראשי של "מעריב" התפרסמה הבוקר (4.5.2006) הכותרת המפתיעה הבאה: מלכודת חתונת הכסף: רוב הגירושים אחרי 25 שנות נישואים.

הכתבה המלאה (מאת דורית גבאי) מופיעה בעמ' 20 של המוסף הראשי (ועכשיו גם באתר NRG), ומפרטת:

נתונים מפתיעים: הכי הרבה זוגות מתגרשים בשנה ה-25 לנישואיהם. אחרי שנים רבות של חיים משותפים, ואולי דוקא בגללן - מחליטים בני זוג רבים ללכת לרבנות.

עומדים לחגוג את חתונת הכסף? זהירות, אתם משתייכים לקבוצת סיכון, ולא רק מטעמי בריאות. דווקא בשלב שבו בני זוג אמורים להתחיל לרוות נחת מהחיים, מתברר כי אחוז הגירושים בישראל דווקא עולה. מנתונים של הלשכה המרכזית לסטטיסטיקה עולה כי אחוז הגירושים הגבוה ביותר בישראל הוא בקרב זוגות בשנות ה-25 לנישואים - כ-18 אחוז מהזוגות המתגרשים עושים זאת בשנה זו.

בנוסף, קובעים הנתונים כי בשנה ה-20 לנישואים מתגרשים 15 אחוז מכלל המתגרשים. בשנה העשירית לנישואים מתגרשים כ-11 אחוז מהזוגות, ואילו בשנה הראשונה לנישואים - רק כמחצית האחוז.

נשמע סביר? ממש לא. מצד שני, מדובר לכאורה בנתונים רשמיים של הלשכה המרכזית לסטטיסטיקה, גוף רציני לכל הדעות. החלטתי לבדוק את העניין בעצמי.

חיפוש זריז באתר הלשכה המרכזית לסטטיסטיקה העלה מסמך מה-11.4.2005 הטוען כך:

מסך כל הזוגות היהודיים הנישאים בישראל מדי שנה, כחצי אחוז מתגרשים בשנה הראשונה לנישואיהם, למעלה מאחוז בשנה השנייה, וכאחוז בכל שנת נישואין נוספת. מתוך סך כל הזוגות שנישאו בישראל משנת 1964 ועד 2001 (944,919 זוגות), התגרשו 14.2% (134,366 זוגות). 8% מהזוגות שנישאו בשנות ה-60, התגרשו תוך 10 שנים. האחוז המצטבר עולה עם השנים, ומתוך הזוגות שנישאו בסוף שנות ה-70 ובשנות ה-80, אחוז הזוגות המתגרשים תוך 10 שנים עולה על 10%, ומתוך הנישאים ב-1988-1989 מגיע אחוז הגירושין המצטבר עד 2001 ל 14.8%. הדבר מעיד על נטייה גוברת לגירושין.

זאת אומרת, נראה שדווקא השנה השניה לנישואים היא השנה הקריטית, ולא השנה ה-25 (כפי שנטען בכתבה). על פניו, זה גם נשמע הגיוני יותר.

ובכן, מדוע טעתה הכותבת? חיפוש נוסף באתר העלה מסמך מה-11.9.2005 ובו טבלת "זוגות יהודיים שנישאו בישראל והתגרשו, לפי שנת נישואין ואורך תקופת נישואין". בטבלה זו נתונים על כל הזוגות שנישאו בישראל מאז 1964, וחיתוכים לפי שנת הגירושין:

זוגות יהודיים שנישאו בישראל והתגרשו, לפי שנת נישואין ואורך תקופת נישואין

נראה, אם כן, שהגורם לטעות בכתבה היא שהנתונים בטבלה מצויינים כאחוזים מצטברים, והכותבת התייחסה אליהם כאל אחוזים שאינם מצטברים! במילים אחרות, העובדה ש-13.7% מהזוגות שנישאו בין השנים 1964-1967 התגרשו לאחר 25 שנה, כוללת בתוכה גם את כל הזוגות שהתגרשו בשנים מוקדמות יותר של הנישואין. הסיבה שדוקא בשנה ה-25 לנישואין האחוז המצטבר הוא הגבוה ביותר, היא אך ורק מכיוון שזו השנה המאוחרת ביותר שמופיעה במדידה…

ולמי שעוד לא השתכנע, הנה עוד שתי אינדיקציות לכך שזה אכן הגורם לטעות בכתבה:

  1. אחוז הגירושין שמצויין בכתבה עולה עם השנים (0.5% בשנה הראשונה, 11% בשנה העשירית, 15% בשנה העשרים, 18% בשנה העשרים וחמש), מה שעולה בקנה אחד עם אחוזים מצטברים.
  2. נניח שהנתונים בכתבה היו נכונים. המשמעות היא שבסה"כ 0.5+11+15+18 = 44.5% מהזוגות המתגרשים היו עושים זאת ב-4 השנים המדוברות. ז"א, בערך חצי מהגירושין היו מתרחשים ב-4 שנים "עגולות" מסויימות, והחצי השני בשאר 21 השנים - לא נשמע סביר במיוחד.

בכל מקרה, אם כבר בגירושין עסקינן, הנה ניתוח מעמיק (גם הוא של הלמ"ס) של היקף הגירושין בישראל ושל הגורמים המשפיעים על הסיכוי להתגרש (גיל הנישואין, השכלת האישה ועוד).

בשורה התחתונה: אין סיבה ללחץ מיוחד לקראת חתונת הכסף.