የውሂብ አይነቶች (Data Types) Continued...

 

የተደራጀ ዳታ (structured data)

የተደራጀ መረጃ አስቀድሞ የተቀመጠን ቅርጽ/ፎርማት ተከትሎ በመዝገብ ወይም ፋይል ውስጥ በቋሚ መስኮች (rows and columns) የሚኖር የተደራጀ መረጃን ያመለክታል። የተደራጀ መረጃ ሲባል በተወሰነ አይነት ፎርማት የተመሰረተ በሰዎችና ማሽኖች በቀላሉ ለመረዳት አመቺ የሆነ በመረጃ ቋት ላይ የሚቀመጥ የመረጃ አይነት ነው። ባህሪውን ስንመለከት በከፍተኛ ሁኔታ የተደራጀና በማሽን መማሪያ ቅደም ተከተሎች (machine learning algorithms) በቀላሉ ሊፈተሽ የሚችል ነው። በተዛማጅ ዳታቤዞች (RDMS) እንዲሁም በዝርግ ሰንጠረዦች (spreadsheets) ይቀመጣል። እያንዳንዱ የሚቀመጠው መረጃ የራሱ መቀመጃ በአግድም እና በቋሚ መስመሮች (row, column) የሚገለጽ ሲሆን በቀላሉ ፈልጎ ለማግኘት አስቸጋሪ አይደለም። በተጨማሪም እንዲህ አይነት በሰንጠረዥ መልክ የሚቀመጡ መረጃዎች በቀላሉ ለማዘመን (update, edit)፣ ለመሰረዝ(delete)፣ ለመፈለግና(search) ዘመናዊ የመረጃ መተንተኛ መሳሪያዎችን በመጠቀም በቀላሉ ለመተንተን (analysis) ቀላል ያደርጋቸዋል።

 የማከማቻ ቅርጹ/ፎርማቱ - የተደራጁ መረጃዎችን በዳታቤዝ (የመረጃ ጎተራ ልንለው እንችላለን) ውስጥ ማስቀመጥ ይቻላል በአብዛኛው በተዛማጅ ዳታቤዝ አስተዳደር ስርዓት (RDBMS) በመጠቀም ማስቀመጥ እንችላለን። ምሳሌ የሚሆኑን ተዛማጅ ዳታቤዝ አስተዳደር ስርዓት (RDBMS)፣ ጄሰን (JSON)፣ XML ፋይል፣ Excel Sheets፣ CSV (Comma-Separated Values፣ SQL (Structured Query Language) ተጠቃሽ ናቸው።

እነዚህን የመረጃ ማስቀመጫ ስርዓቶች በመጠቀም ቀናትን፣ ስሞችን፣ አድራሻዎችን፣ የክሬዲት ካርድ ቁጥሮችንና ሌሎች የቁጥር መረጃዎችን በተደራጀ የመረጃ ስርዓት (structured data) ስር ማስቀመጥ ይቻላል።

ያልተደራጀ ዳታ (unstructured data)

በአንጻሩ ያልተደራጀ የመረጃ ስርዓት ይህ ነው የሚባል ቅደም ተከተል የሌለው እና አስቀድመው በተቀመጡ የመረጃ ሞዴሎች የማይስማማ፣ በቀላሉ ሊታወቅ የሚችል አደረጃጀት የሌለው ስለሆነ ለኮምፒውተር ቋንቋዎች አመቺ አይደለም። ስለሆነም በብዛት ጥቅም ላይ እየዋሉ ባሉ የተዛማጅ ዳታቤዝ ስርዓቶች ላይ መቀመጥ አይችልም። ለምሳሌ ብናይ ምስሎች (Images)፣ ተንቀሳቃሽ ምስሎች (Videos)፣ የድምጽ ቅጅዎች (audio recordings) የጽሁፍ መዝገቦች (text documents)፣ ድህረ ገጾች፣ ማህበራዊ ሚዲያዎች፣ PDF ፋይሎች እና ሌሎችንም ያጠቃልላል።

የውሂብ አይነቶች (Data Types)

የተለያዩ አይነት ዳታዎችን እንይ። በጣም ተገቢ የሆኑ የትንታኔ መሳሪያዎችን (analytical tools) እና ስልተ ቀመሮችን (algorithms)  በሚያስፈልገን ጊዜ መጠቀም እንድንችል የውሂብ አይነቶችን መለየት አስፈላጊ ነው። ይህም ልንተነትነው ያሰብነውን የመረጃ ዓይነት መሰረት በማድረግ በቀላሉ የሚያስፈልገንን መምረጥ ያስችለናል። የዉሂብ አይነቶች በሁለት ሊከፈሉ ይችላሉ እነርሱም አይነታዊ (Qualitative) እና መጠናዊ (Quantitative) ተብለው ይጠራሉ።

1.    አይነታዊ (Qualitative) መረጃ - አይነታዊ መረጃ ተብሎ የሚጠራው የዉሂብ አይነት ማንኛውም ነገር ላይ የጥራት አመላካች ቃላት (ባህሪ) በመጨመር በርዕስ ብቻ የሚስተዋል፣ ሊለካ የማይችል ማንኛውም ውሂብ ወይም መረጃ አይነታዊ መረጃ ተብሎ ይገለጻል። የአንድ ነገር የማይለካ ባህሪያትን በመጠቀም መፈረጅ አይነታዊ (ጥራት ተኮር) መረጃ መፍጠርን ያመጣል። ለምሳሌ እንደ ቀለም፣ ማሽተት፣ ሸካራነት እና ጣዕም ያሉ ባህሪያት ተጠቃሽ ናቸው።

ሶስት አይነት አይነታዊ መረጃዎች ሲኖሩ እነሱም ከሚከተለው በታች ቀርበዋል።

A.  "ሁለትዮሽ አይነታዊ ዉሂብ (binomial data)" - ከሁለቱ ምድቦች ወይም አማራጮች ውስጥ አንዱ ብቻ ትክክል እና ተፈፃሚ የሚሆንበት እርስ በርስ የሚጋጩ ክስተቶችን የሚያመለክቱ የውሂብ አይነቶች ናቸው። ለምሳሌ፣ እውነት ወይም ሐሰት፣ አዎ ወይም አይደለም፣ አዎንታዊ ወይም አሉታዊ ይጠቀሳሉ።  የተለያዩ የሻይ ከረጢቶችን አንድ ሳጥን ዉስጥ አስቧቸው። ሁሉንም አይነት ጣዕም ሞክሯቸውና  የምትወዱትን "ጥሩ" እና የማትወዱትን "መጥፎ" ብለው መድቧቸው። በዚህ ሁኔታ "ጥሩ ወይም መጥፎ" እንደ ሁለትዮሽ አይነታዊ ዉሂብ ይመደባል። እንደነዚህ ያሉ የመረጃ ፍረጃዎች በሰፊው ጥቅም ላይ የሚዉሉት በስታቲስቲክስ ሞዴሎች (statistical models) ልማት ለትንበያ ትንተና (predictive analysis) ስራ ነው።

 

B.   "ስማዊ ወይም በቁጥር የማይገለጽ ውሂብ (Nominal or unordered data)" - "ስውር ወይም ተፈጥሯዊ እሴት" የሌላቸው የውሂብ ባህሪያት እንደ ስም ውሂብ ሊጠቀሱ ይችላሉ። የM&Ms ሳጥንን አስቡበት፣ የእያንዳንዱን M&M ቀለም በሳጥኑ ውስጥ በስራ ሉህ ውስጥ መመዝገብ ይችላሉ፣ እና ያ እንደ ስም መረጃ ሆኖ ያገለግላል። ይህ ዓይነቱ መረጃ እንደ "ቺ-ስኩዌር ትንተና" ያሉ ቴክኒኮችን በመጠቀም በመረጃ ስብስብ ውስጥ ያለውን የስታቲስቲክስ ልዩነት ለመገምገም በሰፊው ጥቅም ላይ ይውላል፣ ይህም በእያንዳንዱ የ M&M ቀለም መጠን ውስጥ "በእስታቲስቲካዊ ጉልህ ልዩነቶች" ይነግርዎታል።

 

C.  በቁጥር የሚገለጽ ወይም ልኬታዊ ውሂብ (Ordered or ordinal data)" - የዚህ የውሂብ አይነት ባህሪያት እንደ ትንሽ፣ መካከለኛ ወይም ትልቅ ያሉ አንዳንድ "ስውር ወይም ተፈጥሯዊ እሴት" ያላቸው ናቸው። ለምሳሌ እንደ "Yelp", "Amazon" እና "Trip Advisor" ባሉ ገፆች ላይ ያሉ የኦንላይን ግምገማዎች ከ1 እስከ 5 የሚደርስ የደረጃ አሰጣጥ ልኬት አላቸው ይህም ባለ 5-ኮከብ ደረጃ ያለው ከባለ 4 የተሻለ ነው ይህም ከ3 እና ከመሳሰሉት ሁሉ የተሻለ ነው።

 

2.   መጠናዊ ውሂብ (Quantitative data) - የማንኛውም ዉሂብ ባህሪያት በተጨባጭ ሊለኩ የሚችሉ ከሆነ "መጠናዊ ዉሂብ” በመባል ይታወቃል። ሊለኩ በሚችሉ ባህሪያት አንድን ቁስ መግለጽ ስንፈልግ ቁጥሮችን እንጠቀማለን። ይህም መጠናዊ ዉሂብ የሚፈጠርበት መንገድ ነው። ለምሳሌ የምርቶች ዋጋ፣ የሙቀት ልኬት፣ ርዝመት ያሉ ልኬቶች መጠናዊ ዉሂቦች ናቸው። ሁለት ዓይነት መጠናዊ ዉሂቦች አሉ።

A.    ተከታታይ መረጃ (Continuous Data) - እንደ ኪሎሜትር፣ ሜትር፣ ሴንቲሜትር እና ሌሎችም ዝቅተኛ የመለኪያ አሃዶች በተከታታይ ሊገለጹ የሚችሉ የውሂብ አይነቶች ቀጣይነት ያለው ውሂብ (Continuous Data) ይባላሉ። ለምሳሌ አንድ ሰው ግማሽ ወይም 500 ግራም ጨው፣ ሩብ ወይም 250 ግራም ስኳር መግዛት ይችላል። ይህ ተከታታይ የውሂብ አይነትን ያሳያል። እነዚህ አይነት መጠናዊ ዉሂቦች የተለያዩ አይነት መላምቶችን ለመፈተሽ እና ለማረጋገጥ ያስችላሉ። ለምሳሌ በስኳር ከረጢት ላይ የታተመውን ክብደት ትክክለኛነት ለክተን ማወቅ ያስችለናል።

B.    ውስን ዉሂብ (Discrete Data) - ይህ መጠናዊ የመረጃ አይነት ሊከፋፈል የማይችል እና ወደተሻለ ትክክለኛ ደረጃ ሊቀነስ የማይችል የቁጥር መረጃ አይነት ነው፣ ለምሳሌ የአንድ ሰው ንብረት የሆኑ መኪኖች ብዛት በሙሉ ቁጥሮች ብቻ ይገለጻሉ (1.5 ወይም 2.3 መኪና ሊኖረው አይችልም)። ይህ አይነት የቁጥር መረጃዎች ዉስን የውሂብ አይነቶች (Discrete Data types) ተብለው ይጠራሉ። ለምሳሌ፣ በጥቅል ውስጥ ባሉ አይስክሬም አሞሌዎች ቁጥር፣ አራት ወይም ስድስት የአይስ ክሬም ባር መግዛት ይቻላል። ይህ ለብቻው ዉስን መረጃን ያሳያል ነገር ግን የአይስክሬም ሳጥን አጠቃላይ ክብደት (ተከታታይ መረጃ) ከውስጥ ካለው አይስ ክሬም ባር (ዉስን መረጃ) ጋር የተዛመደ መሆኑን ለማረጋገጥ የአማካይ ተዛምዶ ትንተና (regression analysis) ለማካሄድ ከተከታታይ የውሂብ አይነት ጋር በማጣመር ጥቅም ላይ ሊውል ይችላል።

B.

 

የውሂብ ሳይንስ ስልቶች

ዳታ ሳይንስ በዋናነት በውሳኔ አሰጣጥ ሂደት ውስጥ ጥቅም ላይ የሚውለው “የትንበያ መንስኤ ትንተና (predictive causal analytics)”፣ "ትዛዛዊ ትንታኔ (prescriptive analytics)" እና የማሽን መማሪያን (machine learning) በመጠቀም ትክክለኛ ትንበያዎችን በማድረግ ነው።

ተገማች መንሰኤ ትንታኔዎች (Predictive causal analytics) - ወደፊት ሊከሰት የሚችል አንድ ክስተትን በትክክል የሚተነብይ ሞዴል ለማዘጋጀት ሊተገበር ይችላል። ለምሳሌ የፋይናንስ ተቋማት የደንበኞችን የክፍያ ታሪክ ከሁሉም የብድር ተቋሞቻቸው ጋር መተንተን የሚችል ሞዴል በማዘጋጀት ደንበኛው በክሬዲት ካርድ ክፍያዎች ላይ ጥፋት ሊደርስበት የሚችለውን እድል ለመገምገም ግምታዊ የምክንያት ትንታኔን መሰረት ያደረጉ መሳሪያዎችን ይጠቀማሉ።

የመመሪያ ትንታኔዎች (Prescriptive analytics) - የመመሪያ ትንታኔዎች “የማሰብ ችሎታ ያላቸው መሣሪያዎች እና አፕሊኬሽኖች” ልማት ውስጥ በሰፊው ጥቅም ላይ ይውላሉ። በተለዋዋጭ ሁኔታዎች ዉስጥ ሆነው ማስተካከል እና መማር የሚችሉ እና የራሳቸውን “ውሳኔዎች” የሚወስኑ መሳሪያች ናቸው። የወደፊቱን ክስተት መተንበይና ዉጤቱን መናገር ብቻ ሳይሆን በተለያዩ ድርጊቶች ላይ ምክሮችን መስጠት ያስችላሉ። ለምሳሌ፣ ራሳቸውን የሚያሽከረክሩ መኪናዎች ከማሽከርከር ጋር የተያያዙ መረጃዎችን ይሰበስባሉ እና የተሻሻለ የመንዳት እና የመንቀሳቀስ ውሳኔዎችን ለማድረግ እራሳቸውን ለማሰልጠን ይጠቀሙበታል።

ትንበያዎችን ለመስራት የማሽን መማር (Machine learning to make predictions) - የማሽን መማርያ ስልተ-ቀመሮች (Machine Learning Algorithms) በኩባንያዎች በተገኘ የግብይት መረጃ ላይ በመመርኮዝ የወደፊት አዝማሚያዎችን (Trends) የሚወስኑ ሞዴሎችን ለማዘጋጀት  አስፈላጊ ናቸው። ይህ እንደ “ክትትል የሚደረግበት የማሽን መማሪያ” ተደርጎ ይወሰዳል፣ በዚህ መጽሐፍ ውስጥ በኋላ ላይ እናብራራዋለን። ለምሳሌ፣ የማጭበርበር ማወቂያ ስርዓቶች (fraud detection systems) ግብይቱ የተጭበረበረ መሆኑን ለመለየት በተጭበረበሩ ግዢዎች ላይ  የማሽን መማሪያ ስልተ ቀመሮችን ይጠቀማሉ። 

Comments

Popular posts from this blog

ዳታ ሳይንስ ምንድን ነው?

my trip to be a good software engineer.