දත්ත නමැති බොරතෙල්, තීක්ෂ්ණ බුද්ධිය නමැති ඉන්ධන බවට පිරිපහදු කිරීම.
පියසේන මහතාට කුඩා කඩයක් තිබුණා. ඔහුගේ කඩයට දිනපතා බොහෝ පිරිසක් පැමිණියා. දවස අවසානයේදී ඔහු බිල්පත් දෙස බලා මෙසේ සිතුවා: "මගේ පාරිභෝගිකයන් ඇත්තටම කැමති මොනවාටද? මම වැඩියෙන්ම ගෙන ආ යුත්තේ මොනවාද? මගේ ලාභය වැඩි කරගන්නේ කොහොමද?"
ඔහු ඉදිරියේ තිබුණේ දත්ත (Data) කන්දරාවකි - බිල්පත් සිය ගණනක්. නමුත් එයින් කිසිදු තේරුමක් ගැනීමට ඔහුට අපහසු වුණා. එය හරියට තේරුමක් නැති අංක ගොඩක් දෙස බලා සිටීමක් වැනියි.
දිනක්, ඔහුගේ පාසල් යන දියණිය, AI ගැන ඉගෙනගනිමින් සිටියා. ඇය පියසේන මහතාට මෙසේ පැවසුවා: "තාත්තේ, අපි මේ දත්ත වලින් කතාවක් ගොඩනගමු. අපි සංඛ්යානය පාවිච්චි කරමු."
මේ කතාවෙන් අපට පෙනී යන්නේ, නිකම්ම නිකන් අංක ගොඩක් වන දත්ත, සංඛ්යානය නැමැති මෙවලම භාවිතා කළ විට, තීරණ ගැනීමට උපකාරී වන වටිනා තොරතුරු (Information) බවට පත්වන බවයි. AI එකක් කරන්නේද, හරියටම මේ කාර්යයයි. නමුත් එය මිනිසෙකුට වඩා මිලියන වාරයක් වේගයෙන්, විශාල දත්ත ප්රමාණයක් සඳහා සිදු කරයි.
මෙම මිනුම් දත්තවල "මැද" හෝ "සාමාන්ය" අගය කොතැනදැයි අපට කියයි.
අර්ථ දැක්වීම: දත්ත සමූහයක ඇති සියලුම අගයන්ගේ එකතුව, එම අගයන් ගණනින් බෙදූ විට ලැබෙන අගයයි. මෙය අප "සාමාන්යය" ලෙස හඳුන්වයි.
ඇනලොජිය: ලී දණ්ඩක් මත බර තබා සමබර කරනවා යැයි සිතන්න. දණ්ඩ සමබර වන ලක්ෂ්යය (fulcrum) යනු එම බර වල මධ්යන්යයයි.
ගණනය කිරීම: දත්ත = `[10, 20, 30, 40, 50]`. එකතුව = 150. අගයන් ගණන = 5. මධ්යන්යය = 150 / 5 = 30.
අවාසිය: අන්ත අගයන්ට (Outliers) ඉතා සංවේදී වේ. උදාහරණයක් ලෙස, `[10, 20, 30, 40, 500]` යන දත්ත සමූහයේ මධ්යන්යය 120 ක් වේ. මෙය දත්තවල සැබෑ කේන්ද්රය නිරූපණය නොකරයි.
අර්ථ දැක්වීම: දත්ත ආරෝහණ (කුඩාම සිට විශාලම) පිළිවෙලට සැකසූ විට, හරියටම මැදට එන අගයයි.
ඇනලොජිය: පන්තියක ළමයින් උස අනුව පේළියකට සැකසූ විට, හරියටම මැද සිටින ළමයාගේ උස මධ්යස්ථයයි.
ගණනය කිරීම (ඔත්තේ සංඛ්යාවක්): දත්ත = `[72, 85, 85, 90, 93]`. මැද අගය 3 වන අගයයි, එනම් 85.
ගණනය කිරීම (ඉරට්ටේ සංඛ්යාවක්): දත්ත = `[72, 80, 85, 90, 93, 98]`. මැද අගයන් දෙක 85 සහ 90 වේ. මධ්යස්ථය = (85 + 90) / 2 = 87.5.
වාසිය: අන්ත අගයන්ට (Outliers) සංවේදී නොවේ. එම නිසා ආදායම, නිවාස මිල වැනි විෂම (skewed) දත්ත සඳහා වඩාත් සුදුසුය.
අර්ථ දැක්වීම: දත්ත එකතුවක බහුලවම (වැඩිම වාර ගණනක්) හමුවන අගයයි.
ඇනලොජිය: කඩයක වැඩියෙන්ම විකිණෙන බිස්කට් වර්ගය.
භාවිතය: වර්ගීකරණ දත්ත (categorical data) සඳහා ඉතා වැදගත් වේ. (උදා: වඩාත්ම ජනප්රිය මෝටර් රථ වර්ණය). දත්ත සමූහයකට මාත එකකට වඩා (bimodal, multimodal) හෝ එකදු මාතයක්වත් නොතිබිය හැක.
කේන්ද්රීය ප්රවණතා මිනුම් පමණක් ප්රමාණවත් නොවේ. පන්ති දෙකකම සාමාන්ය ලකුණු 50 විය හැකි නමුත්, එක් පන්තියක ලකුණු 45-55 අතරද, අනෙක් පන්තියේ ලකුණු 10-90 දක්වාද පැතිරී තිබිය හැක. ව්යාප්ති මිනුම් මගින් දත්ත කෙතරම් "පැතිරී" ඇත්දැයි කියයි.
Range: විශාලතම අගය - කුඩාම අගය. පැතිරීම ගැන ඉතා සරල අදහසක් ලබාදේ, නමුත් outliers වලට සංවේදී වේ.
Quartiles & IQR: දත්ත පිළිවෙලට සකසා, සමාන කොටස් 4කට බෙදනු ලැබේ.
අර්ථ දැක්වීම: දත්ත ලක්ෂ්යයක්, මධ්යන්යයෙන් "සාමාන්යයෙන්" කොපමණ දුරින් පිහිටා ඇත්ද යන්න මනිනු ලබයි. මෙය ව්යාප්තිය මැනීමට ඇති වඩාත්ම වැදගත් සහ බහුලවම භාවිතා වන මිනුමයි.
පියවරෙන් පියවර ගණනය කිරීම:
සංඛ්යා දහසකට වඩා එක් රූපයක් වටී. දත්තවල සැඟවුණු කතාන්දරය පහසුවෙන් දැක ගැනීමට ප්රස්තාර අපට උපකාරී වේ.
භාවිතය: එක් සංඛ්යාත්මක විචල්යයක ව්යාප්තියේ හැඩය (distribution shape) බැලීමට. (උදා: ශිෂ්යයන්ගේ ලකුණු, මිනිසුන්ගේ උස).
කියවීම: X-අක්ෂය දත්ත පරාස (bins) වලට බෙදා ඇති අතර, Y-අක්ෂය එක් එක් පරාසයේ ඇති දත්ත ලක්ෂ්ය ගණන (frequency) පෙන්වයි. කණු උසම තැන දත්ත වැඩිපුරම එකතු වී ඇත. ව්යාප්තිය සමමිතිකද (symmetric), දකුණට/වමට විෂමද (skewed) යන්න මින් දැකගත හැක.
භාවිතය: සංඛ්යාත්මක විචල්යයක සාරාංශයක් (Minimum, Q1, Median, Q3, Maximum) එකවර දැකගැනීමට සහ outliers හඳුනාගැනීමට. දත්ත කට්ටල කිහිපයක් සංසන්දනය කිරීමට විශිෂ්ටයි.
කියවීම: පෙට්ටිය මගින් IQR (මැද 50%) නිරූපණය කරයි. පෙට්ටිය මැද ඇති රේඛාව Median (Q2) වේ. පෙට්ටියෙන් දෙපසට විහිදෙන දඬු (whiskers) දත්තවල ප්රධාන පැතිරීම පෙන්වයි. එම දඬු වලින් පිටත ඇති තිත් outliers ලෙස සැලකේ.
භාවිතය: සංඛ්යාත්මක විචල්යයන් දෙකක් අතර ඇති සම්බන්ධතාවය (සහසම්බන්ධතාව) බැලීමට.
කියවීම: තිත් පහළ වමේ සිට ඉහළ දකුණට යන ප්රවණතාවක් ඇත්නම්, එය ධන සහසම්බන්ධතාවකි. ඉහළ වමේ සිට පහළ දකුණට නම්, සෘණ සහසම්බන්ධතාවකි. තිත් පැහැදිලි රටාවකින් තොරව විසිරී ඇත්නම්, සහසම්බන්ධතාවක් නොමැත.
සහසම්බන්ධතාව යනු විචල්යයන් දෙකක් එකට ගමන් කරන ආකාරය මැනීමයි. නමුත් මතක තබාගන්න, එය එකක් අනෙකට හේතුවන බව අනිවාර්යයෙන්ම නොකියයි.
මෙය -1 සහ +1 අතර අගයක් ගන්නා සංඛ්යාවකි. එය රේඛීය සම්බන්ධතාවයේ දිශාව සහ ශක්තිය මනියි.
සම්භාවිතාව යනු, අවිනිශ්චිතතාවය ගණිතමය වශයෙන් මැනීමයි. එය 0 (නොවිය හැක) සහ 1 (නියත වශයෙන්ම සිදුවේ) අතර අගයකි.
මෙය AI සඳහා ඉතා වැදගත් සංකල්පයකි. මෙයින් කියවෙන්නේ, එක් සිදුවීමක් (A) දැනටමත් සිදුවී ඇති බව දන්නා විට, තවත් සිදුවීමක් (B) සිදුවීමේ සම්භාවිතාව කුමක්ද යන්නයි. මෙය $P(B|A)$ ලෙස ලියනු ලැබේ ("Probability of B given A").
උදාහරණයක්: ශිෂ්යයන් 100 දෙනෙකුගේ දත්ත පහත වගුවේ ඇත:
| විභාගය සමත් (Pass) | විභාගය අසමත් (Fail) | එකතුව | |
|---|---|---|---|
| පාඩම් කළා (Studied) | 60 | 10 | 70 |
| පාඩම් නොකළා (Did Not Study) | 5 | 25 | 30 |
| එකතුව | 65 | 35 | 100 |
ප්රශ්නය: ශිෂ්යයෙකු "පාඩම් කළ" බව දන්නා විට, ඔහු විභාගය "සමත්" වීමේ සම්භාවිතාව ($P(\text{Pass} | \text{Studied})$) කුමක්ද?
පිළිතුර: අපි දැන් සලකා බලන්නේ "පාඩම් කළ" ශිෂ්යයන් 70 දෙනා පමණි. ඔවුන්ගෙන් 60 දෙනෙකු සමත් වී ඇත. එබැවින්, $P(\text{Pass} | \text{Studied}) = 60 / 70 \approx 0.857$ (හෝ 85.7%).
මෙම සවිස්තරාත්මක පාඩමේදී ඔබ, දත්තවල කේන්ද්රය (Mean, Median, Mode) සහ පැතිරීම (Std Dev, IQR) මැනීමට, ප්රස්තාර (Histogram, Box Plot, Scatter Plot) මගින් දෘශ්යකරණය කිරීමට, විචල්යයන් අතර සම්බන්ධතා (Correlation) හඳුනාගැනීමට, සහ අවිනිශ්චිතතාවය (Probability) ගණිතමය වශයෙන් මැනීමට ඉගෙන ගත්තා.