אלפא זירו - תוכנת לימוד עצמי חדשנית של גוגל המטילה אור חדש על שחמט, שוגי וגו
ידיעה זו תורגמה על ידי צופה מהטבע
ידיעה זו הובאה על ידי חבר הפורום deadlockedבאמצעות פורום עיתונות זרה
לקראת סוף שנת 2017, התוודענו לAlphaZero תכנה שלימדה את עצמה מאפס משחקים כגון שחמט, שוגי(שחמט יפני), וגו, בעודה מנצחת את התכנות שאז היו המערכות הטובות ביותר בתחום. התלהבנו מהתוצאות הראשוניות ומהתגובות שקיבלנו על ידי חברים בקהילת השחמט.
כיום, אנו גאים להציג בפניכם את ההערכה המלאה של AlphaZero (שפורסמה בjournal science), שמאשרת ומעדכנת את התוצאות הראשוניות הללו. המאמר מתאר באיזו מהירות המערכת AlphaZero לומדת כל משחק ע"מ להפוך לשחקן (ית) הטוב בהסטוריה בכל אחד מהם., וכל זאת - ללא ידע מקדים שתוכנת לתוך התכנה, מלבד חוקים בסיסיים של המשחקים.
היכולת ללמוד כל משחק מחדש, ללא הגבלה ע"י נורמות של משחק אנושי, נותנת תוצאות ייחודיות ויצירתיות.
על-מומחה השחמט מת'יו סדלר ומומחית השחמט הבינלאומית נטשה רגן , שנתחו עשרות ממשחקי השחמט של AlphaZero בשביל הספר Game Changer שיצא לאור בקרוב, אומרים שהסטייל של התכנה אינו דומה לשום משחק אחר של תכנות מסורתיות לשחמט. "זה כמו לגלות את מחברותיט הסודיות של שחקן גדול עלום שם מהעבר" אומר מת'יו.
תכנות מסורתיות לשחמט, כולל סטוקפיש (התכנה הטובה בעולם לשחמט) ותכנת כחול עמוק שלIbm, נסמכות על אלפי חוקים ועבודת יד מעשרות שחקנים אנושיים הטובים במשחק. תכנות של משחק השחמט היפני, שוגי, גם מסתמכות על אלגוריתמים למשחקי שחמט.
לעומת זאת, AlphaZero, נוקטת בגישה חדשה, ומחליפה את החוקים מעשי ידי אדם על ידי בינה טכנולוגית ואלגוריתמים שלא מוגדר בהם כלום מלבד חוקיו הבסיסיים של המשחק.
בשחמט, AlphaZero התעלתה על הביצועים של המערכת המתחרה סטוקפיש ב4 שעות בלבד.
על מנת ללמוד כל משחק, מערכת בינה מלאכותית משחקת מליוני פעמים נגד עצמה על מנת להאמן את עצמה ולהסתגל למשחק, תהליך הניסוי והשגיאה הזה נקרא "חיזוק לימודי".
בהתחלה, התכנה משחקת ברנדומליות לחלוטין, אבל עם הזמן התכנה לומדת מהנצחונות ומההפסדים ומסגלת את עצמה למשחק כך שבפעם הבאה המהלכים שלה יהיו מחושבים יותר.
כמות הזמן שהתכנה צריכה כדי ללמוד את המשחק תלוייה במורכבות ובסגנון המשחק, כ9 שעות לדחמט, 12 לשוגי ו13 ימים לגו.
לכל מהלך, AlphaZero מחפשת רק כמות קטנה מכמות המהלכים המחושבים על ידי תכנות המחשב הגדולות, בשחמט, לדוגמא, המערכת מחשבת רק 60 אלף מהלכים אפשריים לעומת סטוקפיש המחשבת 60 מיליון מהלכים אפשריים, כל זאת בזכות אלגוריתם הנקרא העץ של מונטה קרלו, אלגוריתם המחפש רק את המהלכים הטובים ביותר במשחק.
התכנה המאומנת לחלוטין נבדקה על ידי תכנות השחמט הטובות בעולם מעשי ידי אדם - סטוקפיש לשחמט, אלמו לשוגי, וביחד עם מערכת הלמידה העצמית הקודמת של גוגל AlphaGo Zero, שחקנית הגו הטובה ביותר בעולם.
כל המשחקים שוחקו בהגבלת זמן של 3 שעות למשחק, ו15 שניות נוספות לכל מהלך.
בכל הערכה, AlphaZero הביסה את המתחרה לחלוטין,
בשחמט AlphaZero הביסה את סטוקפיש, אלופת העולם בשחמט של 2016 בתחרות TCEC, בעודה מנצחת ב 155 משחקים והפסידה ב6 משחקים בלבד מתוך 1000.
כדי לוודא את חוזקה ועמידותה של AlphaZero, שחקנו גם סדרה של משחקים שהתחילו בפתיחות סטנדרטיות של בני אדם, בכל פתיחה, AlphaZero הביסה את סטוקפיש. בנוסף, שחקנו בסט של פתיחות שהשתמשו בהן בתחרות העולם של TCEC 2016, ביחד עם סדרת של משחקים נגד הגרסאות העדכניות ביותר של סטוקפיש, וגרסה של סטוקפיש שהשתמשה בפתיחות החזקות ביותר שקיימות.
בשוגי, AlphaZero הביסה את אלופת העולם של CSA 2017, אלמו, כשניצחה 91.2% מהמשחקים.
בגו, AlphaZero נצחה את הגרסה הקודמת, AlphaGo Zero, ונצחה 61% מהמשחקים.
בשחמט, AlphaZero גלתה באופן עצמאי את המוטיבים הנפוצים של בני האדם בשחמט במהלך תקופת הלימוד העצמי, כגון פתיחות, השמירה על המלך ומבנה הרגלים (חיילים).
אבל, מכיוון שהתכנה הינה תכנת לימוד עצמי ולא מוגבלת על ידי המוח האנושי, היא גם פתחה אינטואיציות משל עצמה ואסטרטגיות חדשות, דבר שהרחיב באופן ניכר את אסטרטגיות השחמט המוכרות לנו מהמאות האחרונות.
הדבר הראשון שחקנים ישימו לב אליו זה הסגנון של AlphaZero, אומר מת'יו סדלר, "הדרך שבה חלקי המשחק מתקהלים סביב המלך". מה שתומך בכך הוא המשחק הדינמי של AlphaZero, דבר שמעצים את יכולות חלקי המשחק של השחקן ומקטין את יכולות היריב. בניגור לאינטואציה שלנו, AlphaZero שמה פחות דגש על "חומר", חלקי המשחק, דבר שמחזק את המשחק המודרני שבו לכל חתיכת משחק יש ערך, ובמידה ולשחקן אחד יש שחקנים (פיסות משחק) בעלות ערך גבוה יותר, אזי יש לו יתרון "חומרי". במקום זאת, AlohaZero מקריבה שחקנים (חלקי משחק) שלה, בשלבים מוקדמים במשחק, על מנת להשיג עליונות במשחק בטווח הארוך.
"באופן מעורר השראה, התכנה מצליחה לכפות את הסגנון שלה לאורך כל המשחק, ועם מגוון רחב של פתיחות ומהלכים" אומר מת'יו.
תכנות מסורתיות הם חזקים באופן יוצא מגדר הרגיל ועושות טעויות ספורות בלבד, דבר היכול להשתנות במידה והתכנות ניצבות בפני עמדות במשחקים בלי פתרון מוחשי וחישובי, בעמדות כאלו, כאשר אינטואיציה היא הדבר הדרוש, AlphaZero משיגה את העליונות שלה.
היכולת הייחודית לתכנה שלא נראתה במנועי שחמט אחרים, כבר נוצלה לטובת שחקני שחמט והביאה להם מבט אחר לגבי אליפות העולם האחרונה בשחמט בין מגנוס קארלסן לפאביאנו קארואנה.
"זה היה דבר מרתק לראות כיצד AlphaZero מנתחת הכל בשונה ממנועי שחמט אחרים" אומרת נטשה רגן, "AlphaZero יכולה להיות כלי לימודי חזק ביותר לקהילת השחמט כולה".
היכולת של AlphaZero להתמחות ב3 משחקים מורכבים שונים היא צעד חשוב ביותר לקראת פתרון הבעיה, הדבר מראה כיצה אלגוריתם אחד יכול ללמוד מידע חדש במגוון רחב של הגדרות שונות.
היכולת של AlphaZero מעודדת אותנו במשימה שלנו ליצור מערכות לימוד עצמי רבות מטרות שיום אחד יעזרו לנו לפתור את תעלומות המדע הגדולות ביותר.
נשלח מהאנדרואיד שלי