ዳታ ሳይንስ ምንድን ነው?
መግቢያ
Telegram: https://t.me/Desalegn_Sendek,
መጠቀም ትችላላችሁ። መልካም ንባብ።
በሚከተሉት ምዕራፎች የመረጃ መሰረታዊ ጽንሰ ሀሳቦችን፣ ጥሬ መረጃን ለመተንተንና ጥቃሚ የሆኑ መረጃዎችን ለማመንጨት የሚያስችሉ
የሳይንስና ቴክኖሎጂዎች ትንበያዎችን እንዲሁም የንግድ ችግሮችን ለመፍታት የሚያስችሉ ሃሳቦችን እንመለከታለን። በዚህ መጽሐፍ ውስጥ 7 ምዕራፎች አሉ። በዚህ መጽሃፍ ሁሉንም መረጃ የመመርመር
ጽንሰ-ሃሳቦችን ለመረዳት እንሞክራለን። ትምህርቱ በአጭር ጊዜ ዉስጥ (በአንድ ሳምንት) ብቻ ብዙ መጠን ካለው መረጃ እንዴት ትርጉም
ያለው አተያይ ማግኘት እንደምንችል እናያለን።
ስለመጽሃፉ እያንዳንዱ ምዕራፎች እንደመግቢያ እንደሚከተለው እናብራራላችኋለን።
የመፅሃፉ የመጀመሪያና
ሁለተኛ ምዕራፎች ከአየር ሁኔታ ትንበያ እስከ የሳይበር ጥቃቶች ድረስ ያሉትን የመረጃ ሳይንስ ቴክኖሎጂዎች በዕለት ተዕለት ህይወታችን
ውስጥ ያላቸውን ጠቀሜታ ለመረዳት ይረዳናል። እንዲሁም የተለያዩ የውሂብ
(Data) አይነቶች እና የተለያዩ የውሂብ (Data) ሳይንስ አተገባበር
ስልቶችን እንማራለን። በአርቴፊሻል ኢንተለጀንስ እና/ወይም በማሽን መማሪያ (Machine Learning) ስልተ ቀመሮች ላይ የተመሰረቱ
ጥቅሞች (አፕሊኬሽኖች)ን መዘርጋት ለሚፈልጉ ፕሮጀክቶች በስፋት ጥቅም
ላይ የሚውለው የውሂብ (Data) ሳይንስ የህይወት ዑደት የሆነው
"የቡድን ዳታ ሳይንስ ሂደት (team data science process)" ዝርዝር አጠቃላይ እይታ በሁለተኛው ምዕራፍ ላይ ቀርቧል። በእያንዳንዱ
በዚህ የህይወት ዑደት 5 ደረጃዎች የተገለጹትን አላማዎች በእያንዳንዱ ደረጃ መጨረሻ ላይ ከተፈጠሩት አቅርቦቶች ጋር እንማራለን።
ሦስተኛው ምእራፍ ስለ አሸን ዉሂብ (Big Data)እና አሸን ዉሂብ (Big
Data)ትንታኔ ነው። ከአሸን ዉሂብ (Big Data)5 ቪዎች እና ከአሸን ዉሂብ (ትልቅ መረጃ) ግንዛቤዎችን ለማዳበር የሚያስፈልጉንን 3 ጠቃሚ
ጉዳዮች እንማራለን ። እንዲሁም በትልቁ የመረጃ ትንተና (Big Data Analysis) ውስጥ የተካተቱትን
የተለያዩ ደረጃዎች እና በጤና አጠባበቅ፣ በፋይናንስ እና በሌሎች የኢንዱስትሪ ዘርፎች ውስጥ ያሉትን አንዳንድ ጥቅሞች (Applications) እንማራለን ። “የውሂብ
ማይኒንግ መሰረታዊ ነገሮች (Basics of Data Mining)” በሚል ርዕስ ያለው ምእራፍ ስለ መረጃ ማውጣት ሂደት እና ጥቅሞች
(Applications) ግልጽ መግለጫ ይሰጣል። እንዲሁም የገሃዱ ዓለም የውሂብ ችግሮችን በመፍታት ረገድ የመረጃ ማውጣት
(Data Mining) ሂደት ያለውን ጥቅም እና ፈተና እንማራለን። በመረጃ ተንታኞች እየተጠቀሙባቸው ከሚገኙት በጣም በስፋት ጥቅም
ላይ ከሚውሉት የመረጃ ማምረቻ መሳሪያዎች መካከል ጥቂቶቹም ተብራርተዋል።
አምስተኛው ምእራፍ ከአንዳንድ ቁልፍ የመረጃ ትንተና ማዕቀፎች
(Frameworks) ዉስጥ የስብስብ ትምህርትን (ensemble learning)፣ የውሳኔ ዛፎችን (decision trees) እና
የዘፈቀደ ደኖችን (random forests) እናያለን። ብዙ ያልተደራጁና እና ያልተማከሉ መረጃዎችን በሂደት ለመለዎጥና ግንዛቤዎችን እና
ትንበያዎችን ለማመንጨት የሚያስችሉ ችሎታ ያላቸው በጣም ታዋቂ የማሽን
መማሪያ ስልተ-ቀመሮች ናቸው። በተጨማሪም እነዚህ ማዕቀፎች (Frameworks) ጥቅሞች እና ጉዳቶች እንዲሁም የዘፈቀደ የደን መልሶ ማገገምን
(random forest regression) በእውነተኛ የህይወት መረጃ ስብስብ ላይ ለመተግበር የሚያስፈልጉትን እርምጃዎች እንማራለን።
ምዕራፍ ስድስት፣ “የውሂብ ትንታኔ መረጃ ቋት (Libraries)” በሚል ርዕስ፣
IPython፣ Jupyter Notebook፣ Pandas፣ Matplotlib እና ሌሎችን ጨምሮ በተለያዩ ፓይተን ላይ የተመሰረቱ ዉሂብ
ትንተና መረጃ ቋት (Libraries) ሥራ ላይ ጥልቅ የሆነ ትምህርት እንማራለን። እነዚህን ኃይለኛ የመረጃ ቋቶች (Libraries)
እናዎርዳለን (Download)። እንዲሁም ልምድ ልናገኝባቸው በምንችላቸው ነጻ የመረጃ ናሙና ስብስብ (open
source sample dataset) እንዴት መረጃ ለመተንተን እንደምንችል
በተግባር እንማራለን።
የዚህ መጽሐፍ የመጨረሻ ምዕራፍ የመረጃ ትንተና የንግድ ትንበያና ደንበኛ ትንተናን
በመጠቀም የንግድ ጉዳዮችን እንዴት እንደሚፈቱ ያብራራል። የደንበኛ
ትንታኔ የሁሉም የግብይት እንቅስቃሴዎች እምብርት ሲሆን እንደ “ትንበያ ሞዴሊንግ (predictive modeling)”፣ ምስላዊ ዉሂብ (data visualization)”፣ “መረጃ አስተዳደር (information management)” እና
“ክፍልፋይ (segmentation)” ላሉ ቴክኒኮች የሚያገለግል ጃንጥላ ቃል ነው። የደንበኞችን ባህሪ ለመተንተን አስፈላጊ የሆነውን
የግብይት እና የሽያጭ አጣሪ ትንተና እንዲሁም ሶስት ዋና ዋና የደንበኞችን ባህሪ የመተንበያ ሞዴሎችን እንማራለን። የደንበኛ መረጃን
እና ግላዊ ግብይትን የማጣራት ፅንሰ ሀሳቦች ከአንዳንድ የኢንዱስትሪ አፕሊኬሽኖቻቸው ጋር በዝርዝር ተብራርተዋል። ይህንን መጽሐፍ
በተሻለ ሁኔታ ለመጠቀም፣ በዚህ መጽሐፍ ውስጥ የቀረቡትን ፅንሰ-ሀሳቦች ግንዛቤያችሁን ለማጠናከር የተግባር ልምምድ እንድታካሂዱ
እንመክራለን። ከፍተኛ ክፍያ ያላቸው የሥራ እድሎች ያለው ይህ የመረጃ ትንተና ችሎታ ሁል ጊዜ ተፈላጊ ነው። ይህ መጽሐፍ ወደ ሕልማችሁ
አንድ እርምጃ እንደሚዎስዳችሁ ተስፋ አደርጋለሁ።
ቀን 1፡ የውሂብ ሳይንስ መግቢያ (Introduction to data science)
በቴክኖሎጂ አለም ዳታ
"በኮምፒዩተር የሚሰራ እና የሚከማች መረጃ" ተብሎ ይገለጻል። የዲጂታል አለም በአሁኑ ወቅት ህይዎታችንን በመረጃ
አጥለቅልቆታል። ድህረ ገጽ ላይ ጠቅ ከማድረግ ጀምሮ በየሰከንዱ ስማርት ስልኮቻችን ያለንበትን ቦታ መከታተል እና መመዝገብ ጀምሮ
ዓለማችን በአሁኑ ጊዜ በመረጃ ውስጥ እየሰጠመች ትገኛለች። ይህ ግዙፍ የመረጃ ጥልቅ እስካሁን ያላጋጠሙንን ችግሮች ሳይቀር መፍትሄዎች
ማግኘት ሁሉ አስችሏል። ይህ የሂሳብ እኩልታዎችን እና ስታቲስቲክስን በመጠቀም ከሚለካ የውሂብ ስብስብ ግንዛቤዎችን የመሰብሰብ ሂደት
“ዳታ ሳይንስ” ተብሎ ሊገለጽ ይችላል።
የውሂብ ሳይንቲስቶች ሚና
በጣም ሁለገብ እና ብዙ ጊዜ ከኮምፒዩተር ሳይንቲስት እና ከስታቲስቲክስ ጋር ይመሳሰላል። በመሰረቱ ማንኛውም ሰው፣ መረጃን ለመሰብሰብ
ከፍተኛ መጠን ያለው መረጃን በጥልቀት ለመቆፈር ፈቃደኛ የሆነ ሰው ወይም ኩባንያ፣ እንደ የውሂብ ሳይንስ ባለሙያዎች ሊጠቀስ ይችላል።
ለምሳሌ፣ እንደ Walmart ያሉ ኩባንያዎች በደንበኞቻቸው የተደረጉ የሱቅ እና የበይነመረብ ላይ ግዢዎችን ይከታተላሉ እና ይመዘግባሉ፣
በምርቶች እና አገልግሎቶች ላይ ግላዊ ምክሮችን ለመስጠት ያስችላቸዋል።
እንደ ፌስቡክ ያሉ የማህበራዊ
ሚዲያ መድረኮች ተጠቃሚዎች አሁን ያሉበትን ቦታ እንዲዘረዝሩ የሚፈቅዱበት አሰራር በተጠቃሚዎች የተሰጣቸውን የመረጃ ሀብት በመመርመር
የአለምአቀፍ ፍልሰት ስርዓትን መለየት ይችላል።
ዳታ ሳይንስ የሚለው ቃል ጥቅም ላይ የዋለው እ.ኤ.አ. ወደ 1960 ሲሆን ለፔት
ኑር (Pete Naur) እውቅና ተሰጥቶታል ፣ እሱም ዳታ ሳይንስ የሚለውን ቃል ለኮምፒዩተር ሳይንስ ምትክ ሲጠቀም ነበር በሂደት
“ዳታሎጅ” የሚለውን ቃል አስተዋወቀ። እ.ኤ.አ. በ 1974 ናኡር (Naur) በመጽሐፉ ውስጥ የመረጃ ሳይንስ (data science) የሚለውን ቃል በነፃነት በመጠቀም “የኮምፒዩተር ዘዴዎች አጭር ዳሰሳ” የሚል መጽሐፍ
አሳትሟል። እ.ኤ.አ. በ 1992 የዘመናዊው የመረጃ ሳይንስ ትርጉም “በሁለተኛው የጃፓን-ፈረንሣይ ስታቲስቲክስ ሲምፖዚየም” ላይ
ቀርቦ ነበር ፣ ይህም አዲስ ስርዓተ ትምህርት መፈጠሩን እውቅና በመስጠት በዋነኝነት በመረጃ ዓይነቶች ፣ ልኬቶች እና አወቃቀሮች
ላይ ነበር።
“ "በመረጃ ሳይንስ ለሠለጠኑ ባለሙያዎች የስራ ዘርፉ በጣም ተስፋ ሰጭ እና
ተፈላጊ ከሆኑ የሙያ ዘርፎች እንደ አንዱ ሆኖ መሻሻሉ ይቀጥላል። ዛሬ፣ የተሳካላቸው የመረጃ ባለሙያዎች ብዙ መጠን ያለው መረጃን፣
የመረጃ ማዉጣት እና የፕሮግራም ችሎታዎችን የመተንተን ባህላዊ ክህሎቶችን በላቀ ሁኔታ ማሳደግ እንዳለባቸው ተረድተዋል። ለድርጅቶቻቸው
ጠቃሚ መረጃን ለማግኘት የመረጃ ሳይንቲስቶች የውሂብ ሳይንስ የሕይወት ዑደትን ሙሉ ስፔክትረም ልምድ ማድርግ እና በእያንዳንዱ የእድገት
ደረጃ ላይ ውጤቱን ከፍ ለማድረግ የመማርና እና የመረዳት ብቃትሊኖራቸው ይገባል።” – University of California, Berkley
ከጊዜ ወደ ጊዜ እየጨመረ የመጣው የንግድ ሥራ አስፈፃሚዎች ፍላጎት የውሂብ ሳይንስ
የሚለው ቃል ተወዳጅነት እንዲኖረው ከፍተኛ አስተዋጽኦ አድርግዋል። ይሁን እንጂ ብዙ ቁጥር ያላቸው ጋዜጠኞች እና የአካዳሚክ ባለሙያዎች
የውሂብ ሳይንስን ከስታቲስቲክስ መስክ የተለየ የጥናት መስክ አድርገው አይቀበሉትም። በዚህም የውሂብ ሳይንስ ለ"መረጃ ማውጣት
(data mining)" እና "ትልቅ ዳታ (big data)" ምትክ ቃል እንደሆነ አድርገው ይቆጥሩታል።
የመረጃ ሳይንስ ትርጉም በቴክኖሎጅ ማህበረሰቡ ውስጥ ለክርክር ክፍት ነው።
ከትላልቅ ጥሬ መረጃዎች ጠቃሚ ግንዛቤን ለማመንጨት የኮምፒዩተር ፕሮግራሚንግ ክህሎቶችን፣
የዶሜይን እውቀት እና በስታቲስቲክስ እና በሂሳብ ስልተ ቀመሮች ላይ ያለውን ብቃት ጨምሮ የክህሎት ስብስቦችን ጥምር የሚያስፈልገው
የጥናት መስክ ዳታ ሳይንስ ይባላል።
የውሂብ ሳይንስ አስፈላጊነት (Importance of Data Science)
ዳታ ሳይንስ በትንበያ ትንተና
(Predictive analysis) ውስጥ በብዛት ጥቅም ላይ ይውላል። ለምሳሌ የአየር ሁኔታ ትንበያ እንደ የመሬት መናወጥ፣ አውሎ
ንፋስ እና ድንገተኛ ጎርፍ ያሉ የተፈጥሮ አደጋዎችን እንኳን ሳይቀር መተንበይ የሚችሉ የመረጃ ሞዴሎችን ለመስራት ከተለያዩ ምንጮች
ማለትም ሳተላይት፣ ራዳር እና አውሮፕላኖች የተገኙ መረጃዎችን መሰብሰብ እና መተንተን ያስችላል። ሌሎች የመረጃ ሳይንስ ዘርፎች
አሸን ዉሂብ እና አሸን ዉሂብ ትንታኔ (big data and big data analytics)" ሲሆን እነዚህም በድርጅቶች የተወሳሰቡ ቴክኒካል ችግሮችን ለመፍታት እንዲሁም ለሀብት አስተዳደር ያገለግላሉ።
በዚህ መጽሐፍ ውስጥ ስለ አሸን ዉሂብ (ትልቅ መረጃ) በኋላ የበለጠ እንማራለን። እንደ ጤና አጠባበቅ፣ ትራንስፖርት፣ ፋይናንስ፣
ችርቻሮ እና ኢ-ኮሜርስ ያሉ ማናቸውንም እና ሁሉንም የኢንዱስትሪ ዘርፎች የሚያጋጥሟቸውን ተግዳሮቶች የመተንተን ችሎታ በንግድ ስራ
አስፈፃሚዎች ዘንድ የመረጃ ሳይንስ ተወዳጅነት እየጨመረ እንዲመጣ ከፍተኛ አስተዋፅዖ አድርጓል።
የውሂብ ሳይንስ የላቁ የማሽን መማሪያ ስልተ ቀመሮችን (advanced
machine learning algorithms) መጠቀም እንዲቻል አድርጓል፣ ይህም በተለያዩ የኢንዱስትሪ ዘርፎች ላይ ብዙ አጠቃቀም
ስልቶች አሉት። ለምሳሌ የላቁ ካሜራዎቻቸውን እና ሴንሰሮቻቸውን በመጠቀም የአካባቢያቸውን ካርታ በመስራት እና የተሽከርካሪውን ፍጥነት
እና ሌሎች የማሽከርከር እንቅስቃሴዎችን በሚመለከቱ ውሳኔዎች መስጠት የሚችሉ፣ የእውነተኛ ጊዜ መረጃዎችን (real-time
data) መሰብሰብ የሚችሉ በራስ የሚነዱ መኪኖች ልማት እንዲኖር አስችሏል። ኩባንያዎች የደንበኞቻቸውን ፍላጎት የበለጠ ለመረዳት
ሁል ጊዜ በእንቅስቃሴ ላይ ናቸው። በአሁን ጊዜ በቀላሉ የደንበኛ የትዕዛዝ ታሪክን ፣ በቅርብ ጊዜ የታዩ ዕቃዎችን ፣ ጾታን ፣
ዕድሜን እና የስነሕዝብ መረጃን ከተሰበሰቡ ነባር ምንጮች በመተንተን እና መረጃ መተንተኛ መሳሪያዎችን (advanced analytical
tools and algorithms) ጥቅም ላይ በማዋል ማግኘት ይቻላል።
የማሽን መማሪያ ስልተ ቀመሮችን
በመጠቀም (machine learning algorithms) ከፍተኛ ትክክለኛነት ያላቸው የደንበኞች የምርት ምክሮችንና ጥቆማዎችን
ማመንጨት ይችላል። ብልህ ሸማች ሁል ጊዜ በጣም አሳታፊ እና የተሻሻለ የተጠቃሚ ተሞክሮን ይፈልጋል፣ ስለዚህ ኩባንያዎቹ እነዚህን
የትንታኔ መሳሪያዎች እና ስልተ ቀመሮችን በመጠቀም ተወዳዳሪነትን ለማግኘት እና ንግዳቸውን ለማሳደግ ይችላሉ።
የማሽን መማሪያ ስልተ ቀመሮችን በመጠቀም የውሂብ አዝማሚያዎችን (Data trends) እና ቅጦችን (patterns) የመተንተን እና በቅርበት የመመርመር ችሎታ የውሂብ ሳይንስ በሳይበር ደህንነት ቦታ ላይ ጉልህ በሆነ መልኩ እንዲተገበር አድርጓል። ዳታ ሳይንስ በመጠቀም ኩባንያዎች የሳይበር ጥቃቱን የጀመረውን ልዩ የኔትወርክ ተርሚናል(ዎች) መለየት ብቻ ሳይሆን ወደፊትም በስርዓታቸው ላይ ሊደርሱ የሚችሉ ጥቃቶችን ለመተንበይ እና ጥቃቶቹ እንዳይደርሱ አስፈላጊውን እርምጃ ለመውሰድ በሚያስችል ሁኔታ ላይ ይገኛሉ። ማንኛውም የዉሂብ መረብ ላይ ያሉ ተጠቃሚዎችን እና መሳሪያዎችን የመከታተል እና ያልተለመዱ ተግባራትን የሚጠቁሙ "ንቁ የጥቃት ማወቂያ ስርዓቶችን (active intrusion detection systems)"
መጠቀም በጠላፊዎች እና በሳይበር አጥቂዎች ላይ እንደ ኃይለኛ መሳሪያ ሆኖ ያገለግላል። ጥቅም ላይ ዉለው የነበሩ የማሽን መማሪያ ስልተ ቀመሮችን በመጠቀም "የመተንበይ የጥቃት ማወቂያ ስርዓቶች (“predictive intrusion detection systems)"
የደህንነት ስጋቶችን ለመለየት፣ የሳይበር አዳኞችን ለመከላከል እንደ ኃይለኛ ጋሻ ሆነው ያገለግላሉ።
የሳይበር ጥቃቶች ከፍተኛ መረጃ ማጣትንና በድርጅቱ ላይ በዋጋ ሊተመን የማይችል
ጉዳትን ሊያስከትሉ ይችላሉ። የመረጃ ደህንነትን ለመጠበቅ የተራቀቀ ምስጥራ (encryption) እና ውስብስብ ፊርማዎች (complex signatures) ጥቅም ላይ ይውላሉ።
የመረጃ ሳይንስ እንደዚህ
ያሉ የማይነኩ አሰራሮች (ፕሮቶኮሎችን) እና ስልተ ቀመሮችን ለማዘጋጀት ይረዳል። በተለያዩ የኢንዱስትሪ ዘርፎች ውስጥ ባሉ ኩባንያዎች
ላይ ቀደም ሲል የሳይበር ጥቃቶችን አዝማሚያዎች (trends) እና ቅጦችን (patterns) በመተንተን በጣም በተደጋጋሚ ጥቃት ላይ የወደቁ የውሂብ ስብስቦችን (most frequently
targeted data set) ለመለየት እና ወደፊት ሊከሰቱ የሚችሉ የሳይበር ጥቃቶችን
ለመተንበይ የመረጃ ሳይንስ (Data science) ይረዳል። ኩባንያዎች ደንበኞቻቸው
በሚያመነጩት እና በተፈቀደላቸው መረጃዎች ላይ በእጅጉ ይተማመናሉ ነገር ግን እየጨመረ ከመጣው የሳይበር ጥቃት አንፃር ደንበኞቻቸው
የግል መረጃዎቻቸው እንዳይውጡ በጣም ይጠነቀቃሉ በዚህም የቢዝነስ(ንግድ) መረጃቸውን መጠበቅ ወደሚችሉ ኩባንያዎች ለመለወጥ ይገደዳሉ።
እንዲህ ያሉ ኩባንያዎች የላቀ የመረጃ ደህንነት መሳሪያዎችን እና ቴክኖሎጂዎችን በመጠቀም ደህንነት እና ግላዊነት አደጋ ላይ እንዳይወድቅ
ያደርጋሉ። ለዚህ ነው የመረጃ ሳይንስ (Data Science) ኩባንያዎቹ የሳይበር ደህንነት እርምጃዎችን
እንዲያሳድጉ በመርዳት የሃብት ጋሻ እየሆነ የመጣው።
ባለፉት 20 ዓመታት ውስጥ፣ የውሂብ አዝማሚያዎች (data trends) በከፍተኛ ሁኔታ ተለውጠዋል፣ ይህም ያልተዋቀረ መረጃ (unstructured data) ቀጣይነት ያለው ጭማሪ አሳይቷል። እ.ኤ.አ. በ 2020 "ከ 80% በላይ የምንሰበስበው መረጃ ያልተዋቀረ ይሆናል" ተብሎ ይገመታል።
Comments
Post a Comment