sso
| Hello Guest - login | My Account | My bookshelf | My folders
Kotar website
איור ב 9 תיקון המדיניות בהתאם לפונקציית המצב לסיכום, השתמשנו במדיניות ראשונית, מאוזנת לכל הכיוונים, ועל פיה חישבנו את פונקציות המצב, משם בנינו מדיניות חדשה טובה יותר . כעת נוכל לעקוב אחרי המדיניות החדשה שלנו ולבנות פונקציית מצב חדשה בדיוק באותו האופן . בהינתן פונקציית מצב חדשה נוכל לשנות שוב את המדיניות וכך הלאה . יש לנו שני תהליכים שאנו מקווים שיתכנסו לנקודה אחת, היא המדיניות הטובה ביותר . מצד אחד, אנו מעריכים את פונקציית המצב, תהליך שנקרא evaluation . מצד שני, אנו משנים את המדיניות, תהליך שנקרא control . אנו נבצע את הליך ה‑‑ evaluation תחת מדיניות ראשונית, ואחר כך נבצע הליך של control כלומר שינוי המדיניות לפי ערכי ה‑‑ evaluation , ושוב evaluation הפעם תחת המדיניות החדשה ושוב control וכך הלאה . איטרציות העוברות בין שני התהליכים האלו יופיעו בהרבה הגרסאות של למידת חיזוק, בינה מלאכותית 113 כפי שנראה גם למטה ( ראו איור ב 10 ) . כאשר חישבנו את פונקציית המצב למעלה, חישבנו אותה עבור כל מצבי העולם במקביל, ובהינתן פונקציית מצב חישבנו את המדיניות, ושוב, עבור כל מצבי העולם במקביל . מאוחר יותר נר...  To the book
רסלינג

CET, the Center for Educational Technology, Public Benefit Company All rights reserved to the Center for Educational Technology and participating publishers
Library Rules About the library Help