Data Science

 ዳታ ሳይንስ የሚለው ቃል ጥቅም ላይ የዋለው እ.ኤ.አ. ወደ 1960 ሲሆን ለፔት ኑር (Pete Naur) እውቅና ተሰጥቶታል ፣ እሱም ዳታ ሳይንስ የሚለውን ቃል ለኮምፒዩተር ሳይንስ ምትክ ሲጠቀም ነበር በሂደት “ዳታሎጅ” የሚለውን ቃል አስተዋወቀ። እ.ኤ.አ. በ 1974 ናኡር (Naur) በመጽሐፉ ውስጥ የመረጃ ሳይንስ  (data science) የሚለውን ቃል በነፃነት በመጠቀም “የኮምፒዩተር ዘዴዎች አጭር ዳሰሳ” የሚል መጽሐፍ አሳትሟል። እ.ኤ.አ. በ 1992 የዘመናዊው የመረጃ ሳይንስ ትርጉም “በሁለተኛው የጃፓን-ፈረንሣይ ስታቲስቲክስ ሲምፖዚየም” ላይ ቀርቦ ነበር ፣ ይህም አዲስ ስርዓተ ትምህርት መፈጠሩን እውቅና በመስጠት በዋነኝነት በመረጃ ዓይነቶች ፣ ልኬቶች እና አወቃቀሮች ላይ ነበር።

“ "በመረጃ ሳይንስ ለሠለጠኑ ባለሙያዎች የስራ ዘርፉ በጣም ተስፋ ሰጭ እና ተፈላጊ ከሆኑ የሙያ ዘርፎች እንደ አንዱ ነው።  ዛሬ፣ የተሳካላቸው የመረጃ ባለሙያዎች ብዙ መጠን ያለው መረጃን፣ የመረጃ ማዉጣት እና የፕሮግራም ችሎታዎችን የመተንተን ባህላዊ ክህሎቶችን በላቀ ሁኔታ ማሳደግ እንዳለባቸው ተረድተዋል። ለድርጅቶቻቸው ጠቃሚ መረጃን ለማግኘት የመረጃ ሳይንቲስቶች የውሂብ ሳይንስ የሕይወት ዑደትን ሙሉ ስፔክትረም ልምድ ማድርግ እና በእያንዳንዱ የእድገት ደረጃ ላይ ውጤቱን ከፍ ለማድረግ የመማርና እና የመረዳት ብቃት ሊኖራቸው ይገባል።” – University of California, Berkley

ከጊዜ ወደ ጊዜ እየጨመረ የመጣው የንግድ ሥራ ፍላጎት የውሂብ ሳይንስ የሚለው ቃል ተወዳጅነት እንዲኖረው ከፍተኛ አስተዋጽኦ አድርግዋል። ይሁን እንጂ ብዙ ቁጥር ያላቸው ጋዜጠኞች እና የአካዳሚክ ባለሙያዎች የውሂብ ሳይንስን ከስታቲስቲክስ መስክ የተለየ የጥናት መስክ አድርገው አይቀበሉትም። በዚህም የውሂብ ሳይንስ ለ"መረጃ ማውጣት (data mining)" እና "ትልቅ ዳታ (big data)" ምትክ ቃል እንደሆነ አድርገው ይቆጥሩታል። የመረጃ ሳይንስ ትርጉም በቴክኖሎጅ ማህበረሰቡ ውስጥ ለክርክር ክፍት ነው።

ከትላልቅ ጥሬ መረጃዎች ጠቃሚ ግንዛቤን ለማመንጨት የኮምፒዩተር ፕሮግራሚንግ ክህሎቶችን፣ የዶሜይን እውቀት እና በስታቲስቲክስ እና በሂሳብ ስልተ ቀመሮች ላይ ያለውን ብቃት ጨምሮ የክህሎት ስብስቦችን ጥምር የሚያስፈልገው የጥናት መስክ ዳታ ሳይንስ ይባላል።

 

የውሂብ ሳይንስ አስፈላጊነት (Importance of Data Science)

ዳታ ሳይንስ በትንበያ ትንተና (Predictive analysis) ውስጥ በብዛት ጥቅም ላይ ይውላል። ለምሳሌ የአየር ሁኔታ ትንበያ እንደ የመሬት መናወጥ፣ አውሎ ንፋስ እና ድንገተኛ ጎርፍ ያሉ የተፈጥሮ አደጋዎችን እንኳን ሳይቀር መተንበይ የሚችሉ የመረጃ ሞዴሎችን ለመስራት ከተለያዩ ምንጮች ማለትም ሳተላይት፣ ራዳር እና አውሮፕላኖች የተገኙ መረጃዎችን መሰብሰብ እና መተንተን ያስችላል። ሌሎች የመረጃ ሳይንስ ዘርፎች አሸን ዉሂብ እና አሸን ዉሂብ ትንታኔ (big data and big data analytics)" ሲሆን እነዚህም በድርጅቶች የተወሳሰቡ ቴክኒካል ችግሮችን ለመፍታት እንዲሁም ለሀብት አስተዳደር ያገለግላሉ። በዚህ መጽሐፍ ውስጥ ስለ አሸን ዉሂብ (ትልቅ መረጃ) በኋላ የበለጠ እንማራለን። እንደ ጤና አጠባበቅ፣ ትራንስፖርት፣ ፋይናንስ፣ ችርቻሮ እና ኢ-ኮሜርስ ያሉ ማናቸውንም እና ሁሉንም የኢንዱስትሪ ዘርፎች የሚያጋጥሟቸውን ተግዳሮቶች የመተንተን ችሎታ በንግድ ስራ አስፈፃሚዎች ዘንድ የመረጃ ሳይንስ ተወዳጅነት እየጨመረ እንዲመጣ ከፍተኛ አስተዋፅዖ አድርጓል።

  የውሂብ ሳይንስ የላቁ የማሽን መማሪያ ስልተ ቀመሮችን (advanced machine learning algorithms) መጠቀም እንዲቻል አድርጓል፣ ይህም በተለያዩ የኢንዱስትሪ ዘርፎች ላይ ብዙ አጠቃቀም ስልቶች አሉት። ለምሳሌ የላቁ ካሜራዎቻቸውን እና ሴንሰሮቻቸውን በመጠቀም የአካባቢያቸውን ካርታ በመስራት እና የተሽከርካሪውን ፍጥነት እና ሌሎች የማሽከርከር እንቅስቃሴዎችን በሚመለከቱ ውሳኔዎች መስጠት የሚችሉ፣ የእውነተኛ ጊዜ መረጃዎችን (real-time data) መሰብሰብ የሚችሉ በራስ የሚነዱ መኪኖች ልማት እንዲኖር አስችሏል። ኩባንያዎች የደንበኞቻቸውን ፍላጎት የበለጠ ለመረዳት ሁል ጊዜ በእንቅስቃሴ ላይ ናቸው። በአሁን ጊዜ በቀላሉ የደንበኛ የትዕዛዝ ታሪክን ፣ በቅርብ ጊዜ የታዩ ዕቃዎችን ፣ ጾታን ፣ ዕድሜን እና የስነሕዝብ መረጃን ከተሰበሰቡ ነባር ምንጮች በመተንተን እና መረጃ መተንተኛ መሳሪያዎችን (advanced analytical tools and algorithms) ጥቅም ላይ በማዋል ማግኘት ይቻላል።

የማሽን መማሪያ ስልተ ቀመሮችን በመጠቀም (machine learning algorithms) ከፍተኛ ትክክለኛነት ያላቸው የደንበኞች የምርት ምክሮችንና ጥቆማዎችን ማመንጨት ይችላል። ብልህ ሸማች ሁል ጊዜ በጣም አሳታፊ እና የተሻሻለ የተጠቃሚ ተሞክሮን ይፈልጋል፣ ስለዚህ ኩባንያዎቹ እነዚህን የትንታኔ መሳሪያዎች እና ስልተ ቀመሮችን በመጠቀም ተወዳዳሪነትን ለማግኘት እና ንግዳቸውን ለማሳደግ ይችላሉ።

 

የማሽን መማሪያ ስልተ ቀመሮችን በመጠቀም የውሂብ አዝማሚያዎችን (Data trends) እና ቅጦችን (patterns) የመተንተን እና በቅርበት የመመርመር ችሎታ የውሂብ ሳይንስ በሳይበር ደህንነት ቦታ ላይ ጉልህ በሆነ መልኩ እንዲተገበር አድርጓል። ዳታ ሳይንስ በመጠቀም ኩባንያዎች የሳይበር ጥቃቱን የጀመረውን ልዩ የኔትወርክ ተርሚናል(ዎች) መለየት ብቻ ሳይሆን ወደፊትም በስርዓታቸው ላይ ሊደርሱ የሚችሉ ጥቃቶችን ለመተንበይ እና ጥቃቶቹ እንዳይደርሱ አስፈላጊውን እርምጃ ለመውሰድ በሚያስችል ሁኔታ ላይ ይገኛሉ።    ማንኛውም የዉሂብ መረብ ላይ ያሉ ተጠቃሚዎችን እና መሳሪያዎችን የመከታተል እና ያልተለመዱ ተግባራትን የሚጠቁሙ "ንቁ የጥቃት ማወቂያ ስርዓቶችን (active intrusion detection systems)" መጠቀም በጠላፊዎች እና በሳይበር አጥቂዎች ላይ እንደ ኃይለኛ መሳሪያ ሆኖ ያገለግላል። ጥቅም ላይ ዉለው የነበሩ የማሽን መማሪያ ስልተ ቀመሮችን በመጠቀም "የመተንበይ የጥቃት ማወቂያ ስርዓቶች (“predictive intrusion detection systems)" የደህንነት ስጋቶችን ለመለየት፣ የሳይበር አዳኞችን ለመከላከል እንደ ኃይለኛ ጋሻ ሆነው ያገለግላሉ።

የሳይበር ጥቃቶች ከፍተኛ መረጃ ማጣትንና በድርጅቱ ላይ በዋጋ ሊተመን የማይችል ጉዳት ሊያስከትሉ ይችላሉየመረጃ ደህንነትን ለመጠበቅ የተራቀቀ ምስጥራ (encryption) እና ውስብስብ ፊርማዎች (complex signatures) ጥቅም ላይ ይውላሉ።

የመረጃ ሳይንስ እንደዚህ ያሉ የማይነኩ አሰራሮች (ፕሮቶኮሎችን) እና ስልተ ቀመሮችን ለማዘጋጀት ይረዳል። በተለያዩ የኢንዱስትሪ ዘርፎች ውስጥ ባሉ ኩባንያዎች ላይ ቀደም ሲል የሳይበር ጥቃቶችን አዝማሚያዎች (trends) እና ቅጦችን (patterns) በመተንተን በጣም በተደጋጋሚ ጥቃት ላይ የወደቁ የውሂብ ስብስቦችን (most frequently targeted data set) ለመለየት እና ወደፊት ሊከሰቱ የሚችሉ የሳይበር ጥቃቶችን ለመተንበይ የመረጃ ሳይንስ (Data science) ይረዳል። ኩባንያዎች ደንበኞቻቸው በሚያመነጩት እና በተፈቀደላቸው መረጃዎች ላይ በእጅጉ ይተማመናሉ ነገር ግን እየጨመረ ከመጣው የሳይበር ጥቃት አንፃር ደንበኞቻቸው የግል መረጃዎቻቸው እንዳይውጡ በጣም ይጠነቀቃሉ በዚህም የቢዝነስ(ንግድ) መረጃቸውን መጠበቅ ወደሚችሉ ኩባንያዎች ለመለወጥ ይገደዳሉ። እንዲህ ያሉ ኩባንያዎች የላቀ የመረጃ ደህንነት መሳሪያዎችን እና ቴክኖሎጂዎችን በመጠቀም ደህንነት እና ግላዊነት አደጋ ላይ እንዳይወድቅ ያደርጋሉ። ለዚህ ነው የመረጃ ሳይንስ (Data Science) ኩባንያዎቹ የሳይበር ደህንነት እርምጃዎችን እንዲያሳድጉ በመርዳት የሃብት ጋሻ እየሆነ የመጣው።

ባለፉት 20 ዓመታት ውስጥ፣ የውሂብ አዝማሚያዎች (data trends) በከፍተኛ ሁኔታ ተለውጠዋል፣ ይህም ያልተዋቀረ መረጃ (unstructured data) ቀጣይነት ያለው ጭማሪ አሳይቷል። እ.ኤ.አ. በ 2030 "ከ 80% በላይ የምንሰበስበው መረጃ ያልተዋቀረ ይሆናል" ተብሎ ይገመታል። ያከማችነው መረጃ በዋናነት የተዋቀረ እና ቀላል የቢዝነስ ኢንተለጀንስ መሳሪያዎችን በመጠቀም በቀላሉ ሊተነተን ይችላል ነገር ግን ያልተዋቀረ እና ከፊል የተዋቀረ መረጃ እየጨመረ መጥቷል። ይህ ደግሞ አሁን ካሉት የንግድ ኢንተለጀንስ መሳሪያዎች የበለጠ ኃይለኛ እና የላቀ የትንታኔ መሳሪያዎች እንዲዳብሩ እና እንዲጠቀሙበት ዋስትና ተሰጥቶታል እናም ይህን ያህል መጠን እና የተለያዩ መረጃዎችን ማቀናበር አይችሉም። ጠቃሚ ግንዛቤዎችን ለመስጠት ያልተዋቀሩ እና ከፊል የተዋቀሩ መረጃዎችን ማቀናበር እና መተንተን የሚችሉ ይበልጥ የተራቀቁ የትንታኔ መሳሪያዎች እና ስልተ ቀመሮች እንደሚያስፈልገን መረዳት ይቻላል። ከዚህ ቀጥሎ የተዋቀረ መረጃ ስንል ምን ማለት እንደሆነ አብራራለሁ።

የተደራጀ ዳታ (structured data)

የተደራጀ መረጃ አስቀድሞ የተቀመጠን ቅርጽ/ፎርማት ተከትሎ በመዝገብ ወይም ፋይል ውስጥ በቋሚ መስኮች (rows and columns) የሚኖር የተደራጀ መረጃን ያመለክታል። የተደራጀ መረጃ ሲባል በተወሰነ አይነት ፎርማት የተመሰረተ በሰዎችና ማሽኖች በቀላሉ ለመረዳት አመቺ የሆነ በመረጃ ቋት ላይ የሚቀመጥ የመረጃ አይነት ነው። ባህሪውን ስንመለከት በከፍተኛ ሁኔታ የተደራጀና በማሽን መማሪያ ቅደም ተከተሎች (machine learning algorithms) በቀላሉ ሊፈተሽ የሚችል ነው። በተዛማጅ ዳታቤዞች (RDMS) እንዲሁም በዝርግ ሰንጠረዦች (spreadsheets) ይቀመጣል። እያንዳንዱ የሚቀመጠው መረጃ የራሱ መቀመጃ በአግድም እና በቋሚ መስመሮች (row, column) የሚገለጽ ሲሆን በቀላሉ ፈልጎ ለማግኘት አስቸጋሪ አይደለም። በተጨማሪም እንዲህ አይነት በሰንጠረዥ መልክ የሚቀመጡ መረጃዎች በቀላሉ ለማዘመን (update, edit)፣ ለመሰረዝ(delete)፣ ለመፈለግና(search) ዘመናዊ የመረጃ መተንተኛ መሳሪያዎችን በመጠቀም በቀላሉ ለመተንተን (analysis) ቀላል ያደርጋቸዋል።

 የማከማቻ ቅርጹ/ፎርማቱ - የተደራጁ መረጃዎችን በዳታቤዝ (የመረጃ ጎተራ ልንለው እንችላለን) ውስጥ ማስቀመጥ ይቻላል በአብዛኛው በተዛማጅ ዳታቤዝ አስተዳደር ስርዓት (RDBMS) በመጠቀም ማስቀመጥ እንችላለን። ምሳሌ የሚሆኑን ተዛማጅ ዳታቤዝ አስተዳደር ስርዓት (RDBMS)፣ ጄሰን (JSON)፣ XML ፋይል፣ Excel Sheets፣ CSV (Comma-Separated Values፣ SQL (Structured Query Language) ተጠቃሽ ናቸው።

እነዚህን የመረጃ ማስቀመጫ ስርዓቶች በመጠቀም ቀናትን፣ ስሞችን፣ አድራሻዎችን፣ የክሬዲት ካርድ ቁጥሮችንና ሌሎች የቁጥር መረጃዎችን በተደራጀ የመረጃ ስርዓት (structured data) ስር ማስቀመጥ ይቻላል።

ያልተደራጀ ዳታ (unstructured data)

በአንጻሩ ያልተደራጀ የመረጃ ስርዓት ይህ ነው የሚባል ቅደም ተከተል የሌለው እና አስቀድመው በተቀመጡ የመረጃ ሞዴሎች የማይስማማ፣ በቀላሉ ሊታወቅ የሚችል አደረጃጀት የሌለው ስለሆነ ለኮምፒውተር ቋንቋዎች አመቺ አይደለም። ስለሆነም በብዛት ጥቅም ላይ እየዋሉ ባሉ የተዛማጅ ዳታቤዝ ስርዓቶች ላይ መቀመጥ አይችልም። ለምሳሌ ብናይ ምስሎች (Images)፣ ተንቀሳቃሽ ምስሎች (Videos)፣ የድምጽ ቅጅዎች (audio recordings) የጽሁፍ መዝገቦች (text documents)፣ ድህረ ገጾች፣ ማህበራዊ ሚዲያዎች፣ PDF ፋይሎች እና ሌሎችንም ያጠቃልላል።

የውሂብ አይነቶች (Data Types)

የተለያዩ አይነት ዳታዎችን እንይ። በጣም ተገቢ የሆኑ የትንታኔ መሳሪያዎችን (analytical tools) እና ስልተ ቀመሮችን (algorithms)  በሚያስፈልገን ጊዜ መጠቀም እንድንችል የውሂብ አይነቶችን መለየት አስፈላጊ ነው። ይህም ልንተነትነው ያሰብነውን የመረጃ ዓይነት መሰረት በማድረግ በቀላሉ የሚያስፈልገንን መምረጥ ያስችለናል። የዉሂብ አይነቶች በሁለት ሊከፈሉ ይችላሉ እነርሱም አይነታዊ (Qualitative) እና መጠናዊ (Quantitative) ተብለው ይጠራሉ።

Comments

Popular posts from this blog

ዳታ ሳይንስ ምንድን ነው?

my trip to be a good software engineer.

የካፒታል ገበያ ምንድን ነው?