අත්හදා බැලීම් සහ ප්රතිඵල මගින් ඉගෙන ගැනීම.
ශක්තිමත් කිරීමේ ඉගෙනුම යනු, නියෝජිතයෙක් (agent) යම් පරිසරයක් (environment) තුළ, අත්හදා බැලීම් සහ දෝෂ (trial and error) මගින් ඉගෙන ගන්නා ක්රමයකි. නියෝජිතයාගේ අරමුණ වන්නේ, කාලයත් සමඟ තමන්ට ලැබෙන මුළු ත්යාග (rewards) ප්රමාණය උපරිම වන පරිදි, හොඳම ක්රියාමාර්ග (policy) ඉගෙන ගැනීමයි.
බල්ලෙකුට (agent) අලුත් උපක්රමයක් (e.g., " වාඩිවෙන්න") පුහුණු කිරීමක් සිතන්න. බල්ලා නිවැරදි ක්රියාව (action) කළ විට, ඔබ ඔහුට සංග්රහයක් (reward) ලබා දෙයි. වැරදි ක්රියාවක් කළ විට, ඔබ කිසිවක් නොකරයි (no reward/penalty). කාලයත් සමඟ, බල්ලා සංග්රහය ලබාගැනීම සඳහා කළ යුතු නිවැරදි ක්රියාව කුමක්දැයි ඉගෙන ගනී.
ඉගෙන ගන්නා හෝ තීරණ ගන්නා තැනැත්තා (උදා: චෙස් ක්රීඩා කරන AI, රොබෝ).
නියෝජිතයා අන්තර්ක්රියා කරන ලෝකය (උදා: චෙස් පුවරුව, කාමරය).
නියෝජිතයාට කළ හැකි දේ (උදා: චෙස් ඉත්තෙකු ගෙන යාම, ඉදිරියට ගමන් කිරීම).
යම් ක්රියාවක් හොඳද (+ ත්යාග) නරකද (- දඬුවම්) යන්න පෙන්වන සංඥාව.
අප මෙම පාඩම් මාලාවේදී ඉගෙනගත් ML වර්ග තුන අතර ඇති ප්රධාන වෙනස්කම් පහත වගුවෙන් දැක්වේ.
| විශේෂාංගය | අධීක්ෂිත ඉගෙනුම | නිරීක්ෂණ රහිත ඉගෙනුම | ශක්තිමත් කිරීමේ ඉගෙනුම |
|---|---|---|---|
| දත්ත වර්ගය | ලේබල් කළ දත්ත | ලේබල් නොකළ දත්ත | පූර්ව දත්ත නොමැත (පරිසරය සමග අන්තර්ක්රියා) |
| ප්රධාන අරමුණ | අනාවැකි කීම හෝ වර්ගීකරණය | සැඟවුණු රටා හෝ ව්යුහයන් සෙවීම | ත්යාග උපරිම වන ක්රියාමාර්ගයක් ඉගෙන ගැනීම |
| ඇනලොජිය | ගුරුවරයෙකු සමඟ ඉගෙනීම | තනිවම ගවේෂණය කිරීම | අත්දැකීම් වලින් ඉගෙනීම |
| ප්රධාන ගැටළු | ප්රතිගමනය (Regression), වර්ගීකරණය (Classification) | පොකුරු ගැසීම (Clustering), ආශ්රිත නීති (Association) | පාලනය (Control), ක්රීඩා කිරීම (Game Playing) |
මෙම පාඩම් මාලාව පුරාවට, ඔබ Machine Learning යනු කුමක්ද, එහි ප්රධාන වර්ග මොනවාද, සහ ඒවා ක්රියාත්මක වන ආකාරය පිළිබඳව ශක්තිමත් අවබෝධයක් ලබා ගත්තා.
ඊළඟට කුමක්ද?
මෙම දැනුම පදනම් කරගෙන, ඔබට දැන් එක් එක් ML ඇල්ගොරිතම (උදා: Decision Trees, Neural Networks) ගැඹුරින් අධ්යයනය කිරීමට හෝ සැබෑ ලෝකයේ දත්ත කට්ටලයක් භාවිතා කර ඔබගේම ML ව්යාපෘතියක් ආරම්භ කිරීමට හැකියාව ඇත. AI ලෝකයේ ඔබගේ ගමනට සුභ පැතුම්!