سلام دوست من اگر منظورت اینه که این فرمول از کجا اومده که به صورت خلاصه بگم که همون طوری که میدونی گرادیان(مشتق جزئی روی هر درایه یک بردار) نرخ بیشترین تغییرات را نشان می دهد حال اگر منفی گرادیان رو داشته باشیم چیزی که به دست می آوریم بیشترین نرخ کاهش(یا همان نزول در امتداد گرادیان می باشد ) حال اگر شاخص را
least squares error
در نظر بگیریم و بر روی این شاخص نزول در امتداد گرادیان را انجام بدهیم پس کمترین نرخ خطا را خواهیم داشت
حال در این فرمولی که برای آموزش مطرح کرده اید یک ضریب اصلاح (اِتا) مطرح شده که وظیفه تعیین گام رو داره و اگه خیلی کوچیک باشه امکان داره در حین نزول در مینیمم های محلی گیر کنیم و اگر هم بزرگ باشه مشکلات دیگری به وجود میاد در سینتکس شما هم وo نشان دهنده خروجی واقعی و d نشان دهنده خروجی فعلی می باشد(چون ویدرو هاف یک یادگیری با نظارت می باشد ما خروجی های صحیح را میدانیم) پس با این ضرایب وزن را اصلاح می کنیم
البته من الان سر کارم !!!! نتونستم کامل تر توضیح بدم اگه جایی مشکل داشتیبگو رفتم خونه کامل تر توضیح میدم
میشه بگید این عمل ریاضی رو روی چی و چطور انجام بدم؟ این عمل برای آموزش شبکه(در اینجا تک نورون) و باید روی wها انجام بدی
منظورم اینه اینجا w کدوم یک از وزن ها هست؟
كد:
w new = w old + . . .
این کار رو چند بار باید روی چی انجام بدم؟ تا وقتی که شبکه همگرا بشه
به ازای هر ورودی؟ در اینجا هم دو روش داریم یکی بتچ و یکی یکی یکی:دی یعنی یک بار یک دور همه ورودی ها رو وارد می کنی بعد وزن به روز میشه ولی در حالت دیگه یکی یکی به روز میشه