איך לבחור שם לאתר אינטרנט?
בחירת שם לאתר אינטרנט היא לא עניין פשוט. שם טוב הוא-
- קל לביטוי ו"מתגלגל על הלשון".
- קל לכתיבה ולאיות.
- שם שכתובת ה-.com שלו פנויה.
הדרישה האחרונה בעייתית במיוחד, כיוון שבימינו קשה למצוא מילה או ביטוי באנגלית שה-.com שלהם עוד לא נתפס. למעשה, שמות רבים נקנו ע"י חברות מסחריות רק כדי למכור אותם למרבה במחיר. למי שמתעקש לאמת זאת בעצמו, כדאי לבדוק האם כתובת מבוקשת פנויה בעזרת אתר ייעודי (ולא סתם לנסות לגלוש אליה בעזרת הדפדפן), כיוון שלעיתים קרובות הכתובת תפוסה אך אינה מצביעה על אתר פעיל.
הדרישה שלנו, אם כן, היא כזו: אנחנו רוצים שם קצר וקליט (5-6 אותיות לכל היותר) שישמע טבעי כמו מילה באנגלית, אך לא יהיה מילה אמיתית (או לפחות לא מילה פופולארית). דוגמאות לשמות מפורסמים כאלה: Nike, Google, Skype, Joga, Ubuntu, Baidu, Xanga.
ניסיתי להמציא בעצמי שמות כאלה, והגעתי למסקנה שזה לא פשוט בכלל (תזכרו שה-.com שלהם צריך עדיין להיות פנוי!). האם יש דרך אוטומטית (או חצי-אוטומטית) לעשות זאת?
לכאורה, היינו יכולים לייצר את כל המחרוזות בנות 5 או 6 אותיות, לעבור עליהן בעין ולמצוא שמות טובים. בפועל, מדובר בכמות לא סבירה בעליל - מיליונים רבים של שמות פוטנציאליים, שרובם זבל מוחלט (בסגנון "sjdffq").
פתרון אלגנטי מגיע מכיוון המתמטיקה: נבנה מודל סטטיסטי של השפה האנגלית, ו"נייצר" בעזרתו באקראי רצפי אותיות שמקיימים את התכונות הסטטיסטיות של מילים תקניות. מודל טוב אמור לחזות, למשל, שהמחרוזת "gfkklj" נשמעת פחות טוב מהמחרוזת "tripod" - וזאת מבלי לדעת שהאחרונה היא אכן מילה באנגלית.
השתמשתי במודל סטטיסטי פשוט של "שרשראות מרקוב", שהרעיון הבסיסי בו הוא כזה: נעבור על רשימת כל המילים באנגלית, ועבור כל רצף של שלושה תווים שמופיע במילה נרשום בצד מה האות הבאה שהופיעה אחריו. לדוגמא: עבור המילה "lucky" נרשום בצד שאחרי הרצף "luc" הופיעה האות "k", ואחרי הרצף "uck" הופיעה האות "y". בסופו של דבר, נקבל רשימה ארוכה של רצפים בני 3 אותיות, שעבור כל אחד מהם ידוע אילו אותיות יכולות להופיע אחריו (ובאיזו שכיחות).
לדוגמא, הנה הפלט המתקבל עבור הרצף "nik" (בסוגריים מספר הפעמים שהאות הופיעה לאחר הרצף):
nik –> a (2)
nik –> e (10)
nik –> i (24)
nik –> o (2)
nik –> s (13)
ז"א, לפי המודל הרצף "nikf" אינו סביר כלל (ואכן אינו נשמע טוב), ולעומתו הרצף "niki" סביר מאוד (ואכן נשמע לא רע בכלל).
בשלב זה, ניתן להשתמש במודל כדי לייצר רצפים שישמעו טוב, בכל אורך שנרצה. נגריל 3 אותיות התחלתיות, ובכל פעם נגריל אות בודדת נוספת לפי ההסתברויות שהמודל חוזה. לדוגמא, נניח שהתחלנו עם הרצף "ram". נוסיף את האות "s" (לפי המודל, יש לה סיכוי גבוה להופיע לאחר הרצף הזה) וקיבלנו "rams". נסתכל כעת על הרצף "ams", ונגלה שבסבירות טובה תופיע אחריו האות "h", וכך נמשיך עד לקבלת רצף באורך המבוקש. עבור 6 אותיות, הרצף שיתקבל בסופו של דבר הוא ramshi. וכמובן, ניתן לכתוב תוכנה שתבצע את כל התהליך בצורה אוטומטית לחלוטין.
הנה רשימה קצרה של "מילים" שיוצרו בדרך זו: robulo, spanti, seromi, orshir, ticolo, weeksa, kineti, ricato, jackke - אף אחת מהן אינה מילה תקנית באנגלית, אך כולן נשמעות כך ברמה זו או אחרת.
בשורה התחתונה, ניתן לייצר רשימה באורך סביר של מילים שכמעט כולן "נשמעות טוב". כעת נותר רק לבחור אחת מהן, ולקרוא בשמה לאתר המבוקש.
שלישי, 02 במאי 2006 בשעה 11:19
השאלה המתבקשת היא - האם תרמת לעולם טוב יותר בכך שפרסמת את המודל הזה (שהוא מגניב מאוד), הרי שאם איכרי חוות הלינקים יניחו את ידיהם השמנמנות על האוצר הזה, משמע ששום כתובת שאינה מילה כמו aaeeeaiaaieeii תהיה תפוסה.
אולי הפתרון לא אמור להגיע מהכיוון הזה, אלא מכיוון של רגולציה מסודרת וחוקים כמו - אם תוך חודש אתה לא מעלה תוכן נורמלי לאתר שלך, הדומיין יבוטל ויחזור ל - pool. דומיינים שעמודי הבית שלהם מכילים יותר מ - 30 לינקים חיצוניים יעלו יותר. שינוי התלות האדירה של אלגוריתמי החיפוש על לינקים נכנסים מעמודים רוויי לינקים חיצוניים, וכו'.
שישי, 05 במאי 2006 בשעה 12:46
It’s better to use phonems and their respective markov’s chains as the building block for artificial words.
It would allow you to access a broader word space than what’s compatible with english spelling.
שבת, 06 במאי 2006 בשעה 23:00
הכל טוב ויפה (וחשוב - ראה דוגמה קיצונית של BT באנגליה) - אבל:
ב-90% מהמקרים בחברות קטנות אתה בכלל לא משתמש בכתובת אלא עושה חיפוש
במנוע החביב עליך.
אם (נניח) בא לך להזמין פיצה מטר (דרך הרשת), אתה בדרך כלל לא
תזכור את שם האתר שלהם, אלא תחפש בגוגל, דפי זהב MSN וכד'.
ועם כל הכבוד למי שתפס את sex.com - כמה אנשים לדעתך מקלידים את הכתובת הזו בחיפוש אחרי הפורנו שלהם (אני רק שואל, יכול להיות שהרבה).
לגבי האלגוריתם - אתה עדיין צריך להחליט מה נשמע יותר יפה - tikolo או serome ומה לא נשמע כמו חרא של דולפין בגרוזינית עתיקה.
ראשון, 04 ביוני 2006 בשעה 10:16
בהמשך לפוסט: מחקר שנערך באוניברסיטת פרינסטון [2006] (התפרסם השבוע) מראה שמניות עם שם קל לביטוי מצליחות יותר.
שישי, 28 ביולי 2006 בשעה 20:54
[…] למתעניינים, כתבתי כאן בעבר על שימוש בקונספט דומה כדי למצוא שם טוב לאתר אינטרנט. […]
רביעי, 11 באוקטובר 2006 בשעה 2:04
אני מבקש להצטרף לדעתו של מומי והחתול, ולציין לטובה את השמות שמכילים "oo".
חמישי, 12 באוקטובר 2006 בשעה 22:39
ואם כבר, הנה מאמר קצר ומצחיק מאוד של ה-Sun הבריטי שמסביר איך לא לבחור שם לאתר אינטרנט (כל הדוגמאות במאמר אמיתיות).
שישי, 13 באוקטובר 2006 בשעה 0:47
למה אף אחד עם מוח לא עבר על שמות המתחם האלה?
בסדר, אתם איטלקים, זו לא סיבה לקרוא לאתר Power Genitalia.
שישי, 06 באפריל 2007 בשעה 3:05
[…] דמיינו לרגע שאתם עובדים במחלקת השיווק של אטליז גדול, ושהוטלה עליכם המשימה החשובה למצוא שם למוצר החדש שלו, נקניקיות מבשר חזיר. עומדות בפניכם מספר אפשרויות: להמציא שם מותג חדש מאפס, לקשור את הנקניקיות החדשות לשאר המוצרים שלכם (”נקניקיות האטליז הגדול”), או להצמיד להן שם מעודד־מכירות (”נקניקיות ישוע”). תוכלו גם לכנות אותן “נקניקיות חזיר”. יש להניח שזו האפשרות שהיה בוחר האדם שהמציא את קוצץ הציפורניים. […]
שישי, 11 במאי 2007 בשעה 22:29
אם ב WEB 2.0 מדובר, הרי שהבעייה אינה קשה :
http://www.hackslash.net/?page_id=48