පාඩම 3: සංඛ්‍යානය සහ සම්භාවිතාව

දත්ත නමැති බොරතෙල්, තීක්ෂ්ණ බුද්ධිය නමැති ඉන්ධන බවට පිරිපහදු කිරීම.

3.1 AI වලට සංඛ්‍යානය අවශ්‍ය ඇයි? (කතාන්දරයක්)

පියසේන මහතාට කුඩා කඩයක් තිබුණා. ඔහුගේ කඩයට දිනපතා බොහෝ පිරිසක් පැමිණියා. දවස අවසානයේදී ඔහු බිල්පත් දෙස බලා මෙසේ සිතුවා: "මගේ පාරිභෝගිකයන් ඇත්තටම කැමති මොනවාටද? මම වැඩියෙන්ම ගෙන ආ යුත්තේ මොනවාද? මගේ ලාභය වැඩි කරගන්නේ කොහොමද?"

ඔහු ඉදිරියේ තිබුණේ දත්ත (Data) කන්දරාවකි - බිල්පත් සිය ගණනක්. නමුත් එයින් කිසිදු තේරුමක් ගැනීමට ඔහුට අපහසු වුණා. එය හරියට තේරුමක් නැති අංක ගොඩක් දෙස බලා සිටීමක් වැනියි.

දිනක්, ඔහුගේ පාසල් යන දියණිය, AI ගැන ඉගෙනගනිමින් සිටියා. ඇය පියසේන මහතාට මෙසේ පැවසුවා: "තාත්තේ, අපි මේ දත්ත වලින් කතාවක් ගොඩනගමු. අපි සංඛ්‍යානය පාවිච්චි කරමු."

  • පළමුව, ඔවුන් සියලු බිල්පත් වල එකතුව අරන්, බිල්පත් ගණනින් බෙදුවා. "තාත්තේ, මේ බලන්න, ඔයාගේ එක පාරිභෝගිකයෙක් සාමාන්‍යයෙන් (Mean) රු. 850 ක් වියදම් කරනවා."
  • නමුත් පියසේන මහතා දැක්කා, එක් දිනක මංගල උත්සවයකට රු. 50,000 ක බඩු ගෙන ගොස් ඇති බව. "ඒ බිල නිසා සාමාන්‍යය ගොඩක් වැඩි වෙලානේ." දියණිය පැවසුවා, "ඒකට තමයි මධ්‍යස්ථය (Median) තියෙන්නේ. අපි බිල්පත් ටික පිළිවෙලට තියලා, හරියටම මැද තියෙන බිල බැලුවම, ඇත්ත සාමාන්‍යය තේරුම් ගන්න පුළුවන්. ඒක රු. 600 ක් විතරයි."
  • "වැඩියෙන්ම විකිණෙන්නේ මොකක්ද?" ඔහු ඇසූ විට, දියණිය බිල්පත් සියල්ල ගණන් කර, "බලන්න, හැම බිලකම වගේ 'කිරි පැකට්' තියෙනවා. වැඩියෙන්ම විකිණිලා තියෙන්නේ ඒකයි. ඒ තමයි මාතය (Mode)."
  • "මගේ ආදායම හැමදාම එක වගේද, නැත්නම් ලොකු වෙනසක් තියෙනවද?" පියසේන මහතා ඇසූ විට, දියණිය සම්මත අපගමනය (Standard Deviation) ගණනය කර, "සති අන්තයේ ආදායම ගොඩක් වැඩියි, ඒත් දවස් පහේම ආදායම ගොඩක් දුරට සමානයි, පැතිරීම අඩුයි" කියා පැහැදිලි කළා.

මේ කතාවෙන් අපට පෙනී යන්නේ, නිකම්ම නිකන් අංක ගොඩක් වන දත්ත, සංඛ්‍යානය නැමැති මෙවලම භාවිතා කළ විට, තීරණ ගැනීමට උපකාරී වන වටිනා තොරතුරු (Information) බවට පත්වන බවයි. AI එකක් කරන්නේද, හරියටම මේ කාර්යයයි. නමුත් එය මිනිසෙකුට වඩා මිලියන වාරයක් වේගයෙන්, විශාල දත්ත ප්‍රමාණයක් සඳහා සිදු කරයි.

3.2 දත්ත විස්තරාත්මක සංඛ්‍යානය (Descriptive Statistics)

Python Libraries: මෙම කොටසේදී අපි Python හි Data Science සඳහා අත්‍යවශ්‍ය libraries තුනක් භාවිතා කරමු: `NumPy` (සංඛ්‍යාත්මක ගණනය කිරීම්), `Pandas` (වගු ආකාර දත්ත හැසිරවීම), සහ `Matplotlib` (ප්‍රස්තාර නිර්මාණය). ඒවා ස්ථාපනය කිරීමට: `pip install numpy pandas matplotlib seaborn`
A. කේන්ද්‍රීය ප්‍රවණතා මිනුම් (Measures of Central Tendency)

මෙම මිනුම් දත්තවල "මැද" හෝ "සාමාන්‍ය" අගය කොතැනදැයි අපට කියයි.

1. Mean (මධ්‍යන්‍යය)

අර්ථ දැක්වීම: දත්ත සමූහයක ඇති සියලුම අගයන්ගේ එකතුව, එම අගයන් ගණනින් බෙදූ විට ලැබෙන අගයයි. මෙය අප "සාමාන්‍යය" ලෙස හඳුන්වයි.
ඇනලොජිය: ලී දණ්ඩක් මත බර තබා සමබර කරනවා යැයි සිතන්න. දණ්ඩ සමබර වන ලක්ෂ්‍යය (fulcrum) යනු එම බර වල මධ්‍යන්‍යයයි.
ගණනය කිරීම: දත්ත = `[10, 20, 30, 40, 50]`. එකතුව = 150. අගයන් ගණන = 5. මධ්‍යන්‍යය = 150 / 5 = 30.
අවාසිය: අන්ත අගයන්ට (Outliers) ඉතා සංවේදී වේ. උදාහරණයක් ලෙස, `[10, 20, 30, 40, 500]` යන දත්ත සමූහයේ මධ්‍යන්‍යය 120 ක් වේ. මෙය දත්තවල සැබෑ කේන්ද්‍රය නිරූපණය නොකරයි.

2. Median (මධ්‍යස්ථය)

අර්ථ දැක්වීම: දත්ත ආරෝහණ (කුඩාම සිට විශාලම) පිළිවෙලට සැකසූ විට, හරියටම මැදට එන අගයයි.
ඇනලොජිය: පන්තියක ළමයින් උස අනුව පේළියකට සැකසූ විට, හරියටම මැද සිටින ළමයාගේ උස මධ්‍යස්ථයයි.
ගණනය කිරීම (ඔත්තේ සංඛ්‍යාවක්): දත්ත = `[72, 85, 85, 90, 93]`. මැද අගය 3 වන අගයයි, එනම් 85.
ගණනය කිරීම (ඉරට්ටේ සංඛ්‍යාවක්): දත්ත = `[72, 80, 85, 90, 93, 98]`. මැද අගයන් දෙක 85 සහ 90 වේ. මධ්‍යස්ථය = (85 + 90) / 2 = 87.5.
වාසිය: අන්ත අගයන්ට (Outliers) සංවේදී නොවේ. එම නිසා ආදායම, නිවාස මිල වැනි විෂම (skewed) දත්ත සඳහා වඩාත් සුදුසුය.

3. Mode (මාතය)

අර්ථ දැක්වීම: දත්ත එකතුවක බහුලවම (වැඩිම වාර ගණනක්) හමුවන අගයයි.
ඇනලොජිය: කඩයක වැඩියෙන්ම විකිණෙන බිස්කට් වර්ගය.
භාවිතය: වර්ගීකරණ දත්ත (categorical data) සඳහා ඉතා වැදගත් වේ. (උදා: වඩාත්ම ජනප්‍රිය මෝටර් රථ වර්ණය). දත්ත සමූහයකට මාත එකකට වඩා (bimodal, multimodal) හෝ එකදු මාතයක්වත් නොතිබිය හැක.


B. ව්‍යාප්ති මිනුම් (Measures of Dispersion)

කේන්ද්‍රීය ප්‍රවණතා මිනුම් පමණක් ප්‍රමාණවත් නොවේ. පන්ති දෙකකම සාමාන්‍ය ලකුණු 50 විය හැකි නමුත්, එක් පන්තියක ලකුණු 45-55 අතරද, අනෙක් පන්තියේ ලකුණු 10-90 දක්වාද පැතිරී තිබිය හැක. ව්‍යාප්ති මිනුම් මගින් දත්ත කෙතරම් "පැතිරී" ඇත්දැයි කියයි.

1. Range (පරාසය) සහ Interquartile Range (IQR)

Range: විශාලතම අගය - කුඩාම අගය. පැතිරීම ගැන ඉතා සරල අදහසක් ලබාදේ, නමුත් outliers වලට සංවේදී වේ.
Quartiles & IQR: දත්ත පිළිවෙලට සකසා, සමාන කොටස් 4කට බෙදනු ලැබේ.

  • Q1 (පළමු චතුර්ථකය): දත්ත වලින් 25% ක් මෙයට වඩා අඩුය.
  • Q2 (දෙවන චතුර්ථකය): මෙය මධ්‍යස්ථයයි (Median). 50% ක් මෙයට වඩා අඩුය.
  • Q3 (තෙවන චතුර්ථකය): දත්ත වලින් 75% ක් මෙයට වඩා අඩුය.
  • IQR යනු $Q3 - Q1$ වේ. මෙය දත්තවල මැද 50% පැතිරී ඇති ආකාරය පෙන්වන අතර, outliers වලට සංවේදී නොවන ඉතා ශක්තිමත් මිනුමකි.

    2. Standard Deviation (සම්මත අපගමනය, $\sigma$)

    අර්ථ දැක්වීම: දත්ත ලක්ෂ්‍යයක්, මධ්‍යන්‍යයෙන් "සාමාන්‍යයෙන්" කොපමණ දුරින් පිහිටා ඇත්ද යන්න මනිනු ලබයි. මෙය ව්‍යාප්තිය මැනීමට ඇති වඩාත්ම වැදගත් සහ බහුලවම භාවිතා වන මිනුමයි.
    පියවරෙන් පියවර ගණනය කිරීම:

    1. දත්ත සමූහයේ මධ්‍යන්‍යය (Mean) සොයාගන්න.
    2. සෑම දත්ත ලක්ෂ්‍යයකින්ම මධ්‍යන්‍යය අඩු කර, එම පිළිතුර වර්ග කරන්න (මෙයින් සෘණ අගයන් ඉවත් වී, විශාල වෙනස්කම් වලට වැඩි බරක් ලැබේ).
    3. මෙම වර්ග කළ වෙනස්කම් සියල්ලේ සාමාන්‍යය (Mean) සොයාගන්න. මෙය Variance ($\sigma^2$) ලෙස හැඳින්වේ.
    4. Variance හි වර්ගමූලය ගන්න. මෙය Standard Deviation ($\sigma$) වේ. (වර්ගමූලය ගැනීමෙන්, නැවත මුල් දත්තවල ඒකක වලටම පැමිණේ).
    අර්ථ නිරූපණය: කුඩා $\sigma$ අගයක් යනු දත්ත, මධ්‍යන්‍යය වටා ඉතා සමීපව පොකුරු ගැසී ඇති බවයි (ඉහළ ස්ථාවරත්වයක්). විශාල $\sigma$ අගයක් යනු දත්ත, බොහෝ සෙයින් පැතිරී ඇති බවයි (අඩු ස්ථාවරත්වයක්).

    3.3 දත්ත දෘශ්‍යකරණය (Data Visualization)

    සංඛ්‍යා දහසකට වඩා එක් රූපයක් වටී. දත්තවල සැඟවුණු කතාන්දරය පහසුවෙන් දැක ගැනීමට ප්‍රස්තාර අපට උපකාරී වේ.

    Histogram (හිස්ටෝග්‍රෑම්)

    භාවිතය: එක් සංඛ්‍යාත්මක විචල්‍යයක ව්‍යාප්තියේ හැඩය (distribution shape) බැලීමට. (උදා: ශිෂ්‍යයන්ගේ ලකුණු, මිනිසුන්ගේ උස).
    කියවීම: X-අක්ෂය දත්ත පරාස (bins) වලට බෙදා ඇති අතර, Y-අක්ෂය එක් එක් පරාසයේ ඇති දත්ත ලක්ෂ්‍ය ගණන (frequency) පෙන්වයි. කණු උසම තැන දත්ත වැඩිපුරම එකතු වී ඇත. ව්‍යාප්තිය සමමිතිකද (symmetric), දකුණට/වමට විෂමද (skewed) යන්න මින් දැකගත හැක.

    Box Plot (පෙට්ටි සටහන)

    භාවිතය: සංඛ්‍යාත්මක විචල්‍යයක සාරාංශයක් (Minimum, Q1, Median, Q3, Maximum) එකවර දැකගැනීමට සහ outliers හඳුනාගැනීමට. දත්ත කට්ටල කිහිපයක් සංසන්දනය කිරීමට විශිෂ්ටයි.
    කියවීම: පෙට්ටිය මගින් IQR (මැද 50%) නිරූපණය කරයි. පෙට්ටිය මැද ඇති රේඛාව Median (Q2) වේ. පෙට්ටියෙන් දෙපසට විහිදෙන දඬු (whiskers) දත්තවල ප්‍රධාන පැතිරීම පෙන්වයි. එම දඬු වලින් පිටත ඇති තිත් outliers ලෙස සැලකේ.

    Scatter Plot (ව්‍යාප්ති සටහන)

    භාවිතය: සංඛ්‍යාත්මක විචල්‍යයන් දෙකක් අතර ඇති සම්බන්ධතාවය (සහසම්බන්ධතාව) බැලීමට.
    කියවීම: තිත් පහළ වමේ සිට ඉහළ දකුණට යන ප්‍රවණතාවක් ඇත්නම්, එය ධන සහසම්බන්ධතාවකි. ඉහළ වමේ සිට පහළ දකුණට නම්, සෘණ සහසම්බන්ධතාවකි. තිත් පැහැදිලි රටාවකින් තොරව විසිරී ඇත්නම්, සහසම්බන්ධතාවක් නොමැත.

    3.4 සහසම්බන්ධතාව (Correlation)

    සහසම්බන්ධතාව යනු විචල්‍යයන් දෙකක් එකට ගමන් කරන ආකාරය මැනීමයි. නමුත් මතක තබාගන්න, එය එකක් අනෙකට හේතුවන බව අනිවාර්යයෙන්ම නොකියයි.

    Correlation Coefficient (r)

    මෙය -1 සහ +1 අතර අගයක් ගන්නා සංඛ්‍යාවකි. එය රේඛීය සම්බන්ධතාවයේ දිශාව සහ ශක්තිය මනියි.

  • $r = +1.0$: පරිපූර්ණ ධන රේඛීය සම්බන්ධතාවක්.
  • $r > 0$: ධන සම්බන්ධතාවක් (එකක් වැඩි ሲሆን අනෙකත් වැඩිවේ).
  • $r = 0$: රේඛීය සම්බන්ධතාවක් නොමැත.
  • $r < 0$: සෘණ සම්බන්ධතාවක් (එකක් වැඩි ሲሆን අනෙක අඩු වේ).
  • $r = -1.0$: පරිපූර්ණ සෘණ රේඛීය සම්බන්ධතාවක්.
  • Correlation vs. Causation: වැදගත්ම රීතිය!
    සහසම්බන්ධතාව, හේතුඵල සම්බන්ධයක් (Causation) අදහස් නොකරයි! උදාහරණයක් ලෙස, ග්‍රීෂ්ම කාලයේදී අයිස්ක්‍රීම් අලෙවිය සහ දියේ ගිලීම් යන දෙකම වැඩිවේ (ධන සහසම්බන්ධතාව). නමුත් අයිස්ක්‍රීම් කෑම දියේ ගිලීමට හේතුවක් නොවේ. ඒ දෙකටම හේතුව උණුසුම් කාලගුණයයි. AI වලදී, වැරදි නිගමන වලට ඒම වැලැක්වීමට මෙම රීතිය තේරුම් ගැනීම අත්‍යවශ්‍යයි.

    3.5 සම්භාවිතාව (Probability)

    සම්භාවිතාව යනු, අවිනිශ්චිතතාවය ගණිතමය වශයෙන් මැනීමයි. එය 0 (නොවිය හැක) සහ 1 (නියත වශයෙන්ම සිදුවේ) අතර අගයකි.

    කොන්දේසිගත සම්භාවිතාව (Conditional Probability)

    මෙය AI සඳහා ඉතා වැදගත් සංකල්පයකි. මෙයින් කියවෙන්නේ, එක් සිදුවීමක් (A) දැනටමත් සිදුවී ඇති බව දන්නා විට, තවත් සිදුවීමක් (B) සිදුවීමේ සම්භාවිතාව කුමක්ද යන්නයි. මෙය $P(B|A)$ ලෙස ලියනු ලැබේ ("Probability of B given A").

    උදාහරණයක්: ශිෂ්‍යයන් 100 දෙනෙකුගේ දත්ත පහත වගුවේ ඇත:

    විභාගය සමත් (Pass)විභාගය අසමත් (Fail)එකතුව
    පාඩම් කළා (Studied)601070
    පාඩම් නොකළා (Did Not Study)52530
    එකතුව6535100

    ප්‍රශ්නය: ශිෂ්‍යයෙකු "පාඩම් කළ" බව දන්නා විට, ඔහු විභාගය "සමත්" වීමේ සම්භාවිතාව ($P(\text{Pass} | \text{Studied})$) කුමක්ද?

    පිළිතුර: අපි දැන් සලකා බලන්නේ "පාඩම් කළ" ශිෂ්‍යයන් 70 දෙනා පමණි. ඔවුන්ගෙන් 60 දෙනෙකු සමත් වී ඇත. එබැවින්, $P(\text{Pass} | \text{Studied}) = 60 / 70 \approx 0.857$ (හෝ 85.7%).

    3.6 පාඩමේ සාරාංශය සහ ඉදිරි පියවර

    විශිෂ්ටයි! ඔබ දත්ත විද්‍යාවේ ගැඹුරු අත්තිවාරමක් දමා ඇත!

    මෙම සවිස්තරාත්මක පාඩමේදී ඔබ, දත්තවල කේන්ද්‍රය (Mean, Median, Mode) සහ පැතිරීම (Std Dev, IQR) මැනීමට, ප්‍රස්තාර (Histogram, Box Plot, Scatter Plot) මගින් දෘශ්‍යකරණය කිරීමට, විචල්‍යයන් අතර සම්බන්ධතා (Correlation) හඳුනාගැනීමට, සහ අවිනිශ්චිතතාවය (Probability) ගණිතමය වශයෙන් මැනීමට ඉගෙන ගත්තා.

    🚀 ඊළඟ පාඩම: Machine Learning හැඳින්වීම
    දැන් අපට දත්ත කියවීමට, තේරුම් ගැනීමට සහ දෘශ්‍යකරණය කිරීමට හැකි නිසා, අපි සම්පූර්ණයෙන්ම සූදානම් මේ දත්ත භාවිතා කර පරිගණකයකට යමක් "ඉගැන්වීමේ" ක්‍රියාවලිය වන Machine Learning හි විශ්මිත ලෝකයට පිවිසීමට Next.