ככל שתנסה יותר סטאפים, כך גדל הסיכוי שה"הכי טוב" שלך הוא פשוט המזל של הגרלה מתוך רעש, ולא יתרון אמיתי.
כל מי שהריץ פעם חיפוש גדול מכיר את הרגע המפתה. אחרי מאות קונפיגורציות, אחת נדלקת עם מספר מרשים. האינסטינקט אומר: מצאתי משהו. הסטטיסטיקה אומרת: רגע.
הבעיה איננה שהתוצאה הכי טובה נראית טוב. הבעיה היא שכאשר בודקים מספיק אפשרויות, תוצאה טובה במיוחד היא בדיוק מה שצפוי לקבל, גם אם כל האסטרטגיות שנבדקו הן רעש טהור. הפער בין "נראה כמו יתרון" לבין "הוא יתרון" הוא אחד הפערים היקרים ביותר במסחר כמותי, וכמעט תמיד הוא נסגר לרעת החשבון החי.
המאמר הזה עוסק בשאלה אחת: איך מבדילים בין מזל של הגרלה לבין יתרון סטטיסטי אמיתי, לפני ששמים על זה כסף. זו לא שאלה טכנית שולית. זו ההבחנה שמפרידה בין תהליך מחקר בריא לבין מכונה שמייצרת אשליות בקצב תעשייתי.
דמיינו שאתם מטילים מטבע הוגן עשר פעמים. הסיכוי לקבל שמונה עצים ומעלה נמוך. עכשיו דמיינו שאלף אנשים עושים את אותו ניסוי במקביל. כמעט בוודאות, כמה מהם יקבלו שמונה עצים ומעלה. אם תסתכלו רק על אלו שהצליחו ותכריזו שהם "יודעים להטיל מטבע", טעיתם טעות בסיסית: לא בחנתם אדם מוכשר, בחרתם את הזנב של התפלגות אקראית.
בדיקת אסטרטגיות עובדת בדיוק אותו הדבר. כל וריאציה שאתם בודקים היא עוד הטלת מטבע. אם תבדקו מספיק וריאציות, אחת מהן תציג עקומת הון יפה, יחס תשואה-סיכון גבוה ומדד ביצוע מרשים, גם אם אף אחת מהן לא נשענת על מנגנון שוק אמיתי. ככל שהרשת גדולה יותר, כך "הטוב ביותר" שתשלפו ממנה יהיה מרשים יותר, ופחות אמין.
הנקודה העדינה: זה קורה גם כשאתם לא מרגישים שאתם עורכים חיפוש ענק. כל פרמטר שהזזתם, כל פילטר שהוספתם וגם הורדתם, כל טווח שניסיתם ונטשתם, כולם ניסיונות. הם נספרים, גם אם לא רשמתם אותם.
הכלי הבסיסי כאן הוא רעיון אחד: אל תשפטו את המנצח מול אפס, שפטו אותו מול מספר הניסיונות שבאמת הרצתם. בעולם האקדמי הרעיון הזה מקבל שמות כמו Deflated Sharpe Ratio או תיקוני False Discovery Rate, אבל האינטואיציה זהה בכל הגרסאות.
מדד ביצוע גולמי, למשל יחס שארפ, אומר כמה טובה נראתה האסטרטגיה. מדד מנוכה שואל שאלה אחרת: בהינתן שבדקתם מאות אפשרויות, כמה גבוה היה המדד הזה צריך להיות כדי שלא ניתן להסביר אותו במזל בלבד? ככל שבדקתם יותר, כך הרף עולה. מה שנראה יוצא דופן מול ניסיון בודד יכול להיות ממוצע לחלוטין מול חמש מאות ניסיונות.
שתי טעויות נפוצות שמאבדות את כל הערך של התיקון:
העיקרון
יתרון אמיתי צריך לשרוד לא רק את המבחן, אלא את מספר המבחנים. אם התוצאה מתאדה ברגע שמנכים ממנה את גודל החיפוש שהוליד אותה, מלכתחילה לא היה שם יתרון, אלא רעש שנבחר בקפידה.
טענה נפוצה של חוקרים היא "האסטרטגיה הזו הייתה עקבית לאורך כל התקופה". זה נשמע משכנע, אבל הוא בדרך כלל לא אומר מה שחושבים שהוא אומר.
עקביות בתוך אותו מדגם שעליו נבחרה האסטרטגיה איננה עדות ליתרון, כי היא בדיוק התכונה שהחיפוש בחר לפיה. כשמריצים חיפוש גדול, אחת האסטרטגיות תוביל את כל התקופה לא כי היא נכונה, אלא כי צירוף המקרים שהיטיב איתה נמשך לאורך המדגם. עקומת ההון החלקה שלה היא סיבת הבחירה, לא הוכחה בלתי תלויה שלה.
אפשר לנסח את זה חד יותר. אסטרטגיה יכולה להיות בינונית ועקבית, ובכל זאת להיבחר כמנצחת, רק משום שהובילה חיפוש רחב במיוחד. הביצוע שלה בתקופה שבה נבחרה מספר לכם משהו על תהליך הבחירה, וכמעט כלום על מה שיקרה מחר. המבחן היחיד שנחשב הוא ביצוע על נתונים שהאסטרטגיה מעולם לא ראתה, ושלא השתתפו בבחירה שלה.
הבדיקה שמרמה אתכם בשקט
אם השתמשתם באותם נתונים גם כדי לבחור את האסטרטגיה וגם כדי "לאמת" אותה, לא אימתתם כלום. בחנתם את הזיכרון שלה, לא את היכולת שלה לחזות. יציבות על נתוני הבחירה היא ברירת המחדל, לא ההישג.
יש סימן היכר אחד שקל לזהות ושחוסך הרבה עוגמת נפש: הפרמטר המנצח הוא פסגה מבודדת שסביבה שכנים מתים. כלומר, ההגדרה שנבחרה מבריקה, אבל ההגדרות הקרובות לה, אלו שכמעט זהות, נכשלות.
למה זה חשוד? כי מנגנוני שוק אמיתיים אינם רגישים לשינוי זעיר. אם קיים כוח כלכלי אמיתי מאחורי היתרון, ההגדרות השכנות אמורות לעבוד גם הן, אולי פחות טוב, אבל לעבוד. יתרון אמיתי מייצר רמה יציבה, מישור רחב שבו כל האזור סביב הבחירה נותן תוצאות סבירות. פסגה חדה וגבוהה שצונחת לאפס בשני צדדיה איננה חוזק, היא טביעת האצבע של רעש שהתאים את עצמו למקרה ספציפי אחד.
לכן בדיקת יציבות מקומית שווה יותר מכל מדד ביצוע בודד. במקום לשאול "כמה טובה הנקודה הכי טובה", שאלו "כמה רחב האזור שעובד סביבה". שאלה שנייה זו קשה בהרבה לזייף במקרה.
כל התיקונים שתוארו כאן מותנים בכך שאתם יודעים כמה ניסיונות באמת ערכתם. וכאן טמונה הבעיה האנושית: קל מאוד לרמות את עצמכם בדיעבד. הזיכרון מוחק את עשרות הווריאציות שנכשלו וזוכר רק את זו ששרדה, כך שהמנצח נראה כאילו נבחר מבין שלוש אפשרויות ולא מבין שלוש מאות.
המשמעת שמונעת את זה פשוטה במהותה: לרשום מראש את גודל הרשת. לפני שמתחילים, מגדירים כמה משפחות רעיונות ייבחנו, כמה פרמטרים בכל אחת, ואיזה טווחים. לאחר מכן סופרים כל ריצה, כולל כישלונות, כולל סבבים קודמים על אותה משפחה. המספר הזה הוא המכנה שמולו נשפוט את המנצח בסוף.
אין כאן קסם וגם אין נוסחה שתחליף שיקול דעת. יש כאן הרגל אחד: להתייחס לכל בדיקה כאל עוד הטלת מטבע שנספרת, ולזכור שהתוצאה שהכי מרגשת אתכם היא בדיוק זו שהכי סביר שנבחרה על ידי מזל. חוקר בריא איננו זה שמוצא את התוצאה הכי יפה, אלא זה שיודע כמה פעמים היה צריך לחפש כדי למצוא אותה.
אם התיקון תמיד מוריד את המנצח, איך בכלל מוצאים יתרון אמיתי?
יתרון אמיתי שורד את הניכוי. מנגנון שוק חזק דיו יישאר מובהק גם אחרי שמחלקים אותו במספר הניסיונות, וגם יראה יציבות מקומית סביב ההגדרה שנבחרה. אם התוצאה קורסת ברגע שמנכים ממנה את גודל החיפוש, זה עצמו התשובה: לא היה שם יתרון.
בדיקה על נתונים חדשים לא פותרת את הבעיה לבד?
היא עוזרת מאוד, אבל רק אם מקפידים לא לעבור עליה שוב ושוב. ברגע שאתם מכווננים את האסטרטגיה כדי לעבור את מבחן הנתונים החדשים, הפכתם גם אותם לחלק מהחיפוש, והם מאבדים את מעמדם כמבחן בלתי תלוי. נתונים שנשמרים לבדיקה יחידה שווים הרבה יותר מנתונים שנשחקים בעשרה ניסיונות.
מה עדיף, מדד גבוה על נקודה אחת או מדד בינוני על אזור רחב?
אזור רחב, כמעט תמיד. שיא בודד וגבוה הוא לרוב מזל שהתאים את עצמו למקרה מסוים, ולכן לא יחזור על עצמו מחוץ למדגם. מישור רחב שבו גם ההגדרות השכנות עובדות מרמז על כוח יציב שאיננו תלוי בכיול מדויק, וזה בדיוק סוג היתרון ששורד מעבר לרעש.
גילוי נאות: מסחר בשווקים הפיננסיים כרוך בסיכון להפסד הון. אין באמור ייעוץ השקעות או המלצה לפעולה. המידע מובא לצרכים חינוכיים בלבד.