డేటా సైన్స్ అంటే ఏమిటి? డేటా సైన్స్ కు బిగినర్స్ గైడ్



డేటా సైన్స్ అనేది ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ యొక్క భవిష్యత్తు. డేటా సైన్స్ అంటే ఏమిటో తెలుసుకోండి, ఇది మీ వ్యాపారానికి మరియు దాని వివిధ జీవితచక్ర దశలకు ఎలా విలువను జోడించగలదు.

ప్రపంచం పెద్ద డేటా యుగంలోకి ప్రవేశించగానే, దాని నిల్వ అవసరం కూడా పెరిగింది. ఇది 2010 వరకు సంస్థ పరిశ్రమలకు ప్రధాన సవాలు మరియు ఆందోళన. డేటాను నిల్వ చేయడానికి ఒక ఫ్రేమ్‌వర్క్ మరియు పరిష్కారాలను నిర్మించడంపై ప్రధాన దృష్టి ఉంది. ఇప్పుడు హడూప్ మరియు ఇతర ఫ్రేమ్‌వర్క్‌లు నిల్వ సమస్యను విజయవంతంగా పరిష్కరించినప్పుడు, దృష్టి ఈ డేటా యొక్క ప్రాసెసింగ్ వైపు మళ్లింది. డేటా సైన్స్ ఇక్కడ రహస్య సాస్. హాలీవుడ్ సైన్స్ ఫిక్షన్ సినిమాల్లో మీరు చూసే అన్ని ఆలోచనలు వాస్తవానికి డేటా సైన్స్ ద్వారా రియాలిటీగా మారతాయి. డేటా సైన్స్ అనేది ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ యొక్క భవిష్యత్తు. అందువల్ల, డేటా సైన్స్ అంటే ఏమిటి మరియు ఇది మీ వ్యాపారానికి ఎలా విలువను జోడించగలదో అర్థం చేసుకోవడం చాలా ముఖ్యం.

ఎడురేకా 2019 టెక్ కెరీర్ గైడ్ ముగిసింది! గైడ్‌లో హాటెస్ట్ ఉద్యోగ పాత్రలు, ఖచ్చితమైన అభ్యాస మార్గాలు, పరిశ్రమ దృక్పథం మరియు మరిన్ని. డౌన్‌లోడ్ ఇప్పుడు.

ఈ బ్లాగులో, నేను ఈ క్రింది విషయాలను కవర్ చేస్తాను.





ఈ బ్లాగ్ చివరినాటికి, డేటా సైన్స్ అంటే ఏమిటి మరియు మన చుట్టూ ఉన్న సంక్లిష్టమైన మరియు పెద్ద డేటా సమితుల నుండి అర్ధవంతమైన అంతర్దృష్టులను సేకరించడంలో దాని పాత్ర ఏమిటో మీరు అర్థం చేసుకోగలరు.డేటా సైన్స్ పై లోతైన జ్ఞానం పొందడానికి, మీరు ప్రత్యక్షంగా నమోదు చేసుకోవచ్చు 24/7 మద్దతు మరియు జీవితకాల ప్రాప్యతతో ఎడురేకా చేత.

డేటా సైన్స్ అంటే ఏమిటి?

డేటా సైన్స్ అనేది ముడి డేటా నుండి దాచిన నమూనాలను కనుగొనాలనే లక్ష్యంతో వివిధ సాధనాలు, అల్గోరిథంలు మరియు యంత్ర అభ్యాస సూత్రాల మిశ్రమం. గణాంకవేత్తలు సంవత్సరాలుగా చేస్తున్న దానికి ఇది ఎలా భిన్నంగా ఉంటుంది?



సమాధానం వివరించడం మరియు అంచనా వేయడం మధ్య వ్యత్యాసంలో ఉంది.

డేటా అనలిస్ట్ v / s డేటా సైన్స్ - ఎడురేకా

పై చిత్రం నుండి మీరు చూడగలిగినట్లుగా, డేటా విశ్లేషకుడుసాధారణంగా డేటా చరిత్రను ప్రాసెస్ చేయడం ద్వారా ఏమి జరుగుతుందో వివరిస్తుంది. మరోవైపు, డేటా సైంటిస్ట్ దాని నుండి అంతర్దృష్టులను కనుగొనటానికి అన్వేషణాత్మక విశ్లేషణ చేయడమే కాకుండా, భవిష్యత్తులో ఒక నిర్దిష్ట సంఘటన సంభవించడాన్ని గుర్తించడానికి వివిధ అధునాతన యంత్ర అభ్యాస అల్గారిథమ్‌లను కూడా ఉపయోగిస్తుంది. డేటా సైంటిస్ట్ అనేక కోణాల నుండి డేటాను చూస్తాడు, కొన్నిసార్లు కోణాలు ముందు తెలియదు.



కాబట్టి, డేటా సైన్స్ ప్రధానంగా ic హాజనిత కారణ విశ్లేషణలు, ప్రిస్క్రిప్టివ్ అనలిటిక్స్ (ప్రిడిక్టివ్ ప్లస్ డెసిషన్ సైన్స్) మరియు యంత్ర అభ్యాసాలను ఉపయోగించుకునే నిర్ణయాలు మరియు అంచనాలను తీసుకోవడానికి ఉపయోగిస్తారు.

  • ప్రిడిక్టివ్ కాజల్ అనలిటిక్స్ - భవిష్యత్తులో ఒక నిర్దిష్ట సంఘటన యొక్క అవకాశాలను అంచనా వేయగల మోడల్ మీకు కావాలంటే, మీరు ic హాజనిత కారణ విశ్లేషణలను వర్తింపజేయాలి. చెప్పండి, మీరు క్రెడిట్‌పై డబ్బును అందిస్తుంటే, కస్టమర్లు భవిష్యత్తులో క్రెడిట్ చెల్లింపులను సకాలంలో చేసే అవకాశం మీకు ఆందోళన కలిగిస్తుంది. ఇక్కడ, భవిష్యత్ చెల్లింపులు సమయానికి జరుగుతాయా లేదా అని to హించడానికి కస్టమర్ యొక్క చెల్లింపు చరిత్రపై analy హాజనిత విశ్లేషణలను చేయగల నమూనాను మీరు నిర్మించవచ్చు.
  • ప్రిస్క్రిప్టివ్ అనలిటిక్స్: మీకు దాని స్వంత నిర్ణయాలు తీసుకునే తెలివితేటలు మరియు డైనమిక్ పారామితులతో సవరించే సామర్థ్యం ఉన్న మోడల్ కావాలంటే, మీకు ఖచ్చితంగా ప్రిస్క్రిప్టివ్ అనలిటిక్స్ అవసరం. సాపేక్షంగా ఈ కొత్త ఫీల్డ్ సలహా ఇవ్వడం గురించి. మరో మాటలో చెప్పాలంటే, ఇది సూచించిన చర్యలను మరియు అనుబంధ ఫలితాలను అంచనా వేయడమే కాదు.
    దీనికి మంచి ఉదాహరణ గూగుల్ యొక్క సెల్ఫ్ డ్రైవింగ్ కారు, నేను ఇంతకు ముందు చర్చించాను. వాహనాలు సేకరించిన డేటాను సెల్ఫ్ డ్రైవింగ్ కార్లకు శిక్షణ ఇవ్వడానికి ఉపయోగించవచ్చు. తెలివితేటలను తీసుకురావడానికి మీరు ఈ డేటాపై అల్గారిథమ్‌లను అమలు చేయవచ్చు. ఇది మీ కారు ఎప్పుడు తిరగాలి, ఏ మార్గం తీసుకోవాలి వంటి నిర్ణయాలు తీసుకోవడానికి వీలు కల్పిస్తుంది,ఎప్పుడు వేగాన్ని తగ్గించాలి లేదా వేగవంతం చేయాలి.
  • అంచనాలు చేయడానికి యంత్ర అభ్యాసం - మీకు ఫైనాన్స్ కంపెనీ యొక్క లావాదేవీల డేటా ఉంటే మరియు భవిష్యత్ ధోరణిని నిర్ణయించడానికి ఒక నమూనాను నిర్మించాల్సిన అవసరం ఉంటే, అప్పుడు యంత్ర అభ్యాస అల్గోరిథంలు ఉత్తమ పందెం. ఇది పర్యవేక్షించబడిన అభ్యాసం యొక్క నమూనా క్రిందకు వస్తుంది. మీ యంత్రాలకు శిక్షణ ఇవ్వగల డేటాను మీరు ఇప్పటికే కలిగి ఉన్నందున దీనిని పర్యవేక్షించబడతారు. ఉదాహరణకు, మోసపూరిత కొనుగోళ్ల చారిత్రక రికార్డును ఉపయోగించి మోసాన్ని గుర్తించే నమూనాకు శిక్షణ ఇవ్వవచ్చు.
  • నమూనా ఆవిష్కరణ కోసం యంత్ర అభ్యాసం - మీరు అంచనాలను రూపొందించగల పారామితులు లేకపోతే, అర్ధవంతమైన అంచనాలను రూపొందించడానికి మీరు డేటాసెట్‌లోని దాచిన నమూనాలను కనుగొనాలి. సమూహపరచడానికి మీకు ముందే నిర్వచించబడిన లేబుల్స్ లేనందున ఇది పర్యవేక్షించబడని మోడల్ తప్ప మరొకటి కాదు. నమూనా ఆవిష్కరణకు ఉపయోగించే అత్యంత సాధారణ అల్గోరిథం క్లస్టరింగ్.
    మీరు టెలిఫోన్ కంపెనీలో పనిచేస్తున్నారని చెప్పండి మరియు మీరు ఒక ప్రాంతంలో టవర్లు ఉంచడం ద్వారా నెట్‌వర్క్‌ను ఏర్పాటు చేసుకోవాలి. అప్పుడు, మీరు ఆ టవర్ స్థానాలను కనుగొనడానికి క్లస్టరింగ్ టెక్నిక్‌ను ఉపయోగించవచ్చు, ఇది వినియోగదారులందరికీ వాంఛనీయ సిగ్నల్ బలాన్ని అందుతుందని నిర్ధారిస్తుంది.

డేటా విశ్లేషణతో పాటు డేటా సైన్స్ కోసం పైన వివరించిన విధానాల నిష్పత్తి ఎలా భిన్నంగా ఉంటుందో చూద్దాం. దిగువ చిత్రంలో మీరు చూడగలిగినట్లుగా, డేటా విశ్లేషణవివరణాత్మక విశ్లేషణలు మరియు అంచనాను కొంతవరకు కలిగి ఉంటుంది. మరోవైపు, డేటా సైన్స్ ప్రిడిక్టివ్ కాజల్ అనలిటిక్స్ మరియు మెషిన్ లెర్నింగ్ గురించి ఎక్కువ.

డేటా సైన్స్ అనలిటిక్స్ - ఎడురేకా

డేటా సైన్స్ అంటే ఏమిటో ఇప్పుడు మీకు తెలుసు, ఇది మొదటి స్థానంలో ఎందుకు అవసరమో ఇప్పుడు తెలుసుకుందాం.

డేటా సైన్స్ ఎందుకు?

  • సాంప్రదాయకంగా, మా వద్ద ఉన్న డేటా ఎక్కువగా నిర్మాణాత్మకంగా మరియు పరిమాణంలో చిన్నదిగా ఉండేది, వీటిని సాధారణ BI సాధనాలను ఉపయోగించి విశ్లేషించవచ్చు.లో డేటా కాకుండాసాంప్రదాయ వ్యవస్థలు ఎక్కువగా నిర్మాణాత్మకంగా ఉన్నాయి, నేడు చాలా డేటా నిర్మాణాత్మకమైనది లేదా సెమీ స్ట్రక్చర్డ్. క్రింద ఇవ్వబడిన చిత్రంలోని డేటా పోకడలను చూద్దాం, ఇది 2020 నాటికి 80% కంటే ఎక్కువ డేటా నిర్మాణాత్మకంగా లేదని చూపిస్తుంది.
    నిర్మాణాత్మక డేటా ప్రవాహం - ఎడురేకా
    ఈ డేటా ఆర్థిక లాగ్‌లు, టెక్స్ట్ ఫైల్‌లు, మల్టీమీడియా రూపాలు, సెన్సార్లు మరియు సాధనాలు వంటి వివిధ వనరుల నుండి ఉత్పత్తి అవుతుంది. సాధారణ BI సాధనాలు ఈ భారీ వాల్యూమ్ మరియు విభిన్న డేటాను ప్రాసెస్ చేయగలవు. అందువల్ల ప్రాసెసింగ్, విశ్లేషణ మరియు దాని నుండి అర్ధవంతమైన అంతర్దృష్టులను గీయడానికి మాకు మరింత క్లిష్టమైన మరియు అధునాతన విశ్లేషణాత్మక సాధనాలు మరియు అల్గోరిథంలు అవసరం.

డేటా సైన్స్ అంత ప్రాచుర్యం పొందటానికి ఇది మాత్రమే కారణం కాదు. లోతుగా త్రవ్వి, వివిధ డొమైన్లలో డేటా సైన్స్ ఎలా ఉపయోగించబడుతుందో చూద్దాం.

  • కస్టమర్ యొక్క గత బ్రౌజింగ్ చరిత్ర, కొనుగోలు చరిత్ర, వయస్సు మరియు ఆదాయం వంటి ప్రస్తుత డేటా నుండి మీ కస్టమర్ల యొక్క ఖచ్చితమైన అవసరాలను మీరు అర్థం చేసుకోగలిగితే ఎలా. మీకు ఇంతకుముందు ఈ డేటా అంతా ఉందని సందేహం లేదు, కానీ ఇప్పుడు చాలా ఎక్కువ మొత్తంలో మరియు విభిన్న డేటాతో, మీరు మోడళ్లను మరింత సమర్థవంతంగా శిక్షణ ఇవ్వవచ్చు మరియు ఉత్పత్తిని మీ కస్టమర్లకు మరింత ఖచ్చితత్వంతో సిఫారసు చేయవచ్చు. ఇది మీ సంస్థకు మరింత వ్యాపారాన్ని తెస్తుంది కాబట్టి ఇది ఆశ్చర్యంగా ఉందా?
  • డేటా సైన్స్ పాత్రను అర్థం చేసుకోవడానికి వేరే దృష్టాంతాన్ని తీసుకుందాం నిర్ణయం తీసుకోవడం.మిమ్మల్ని ఇంటికి నడిపించే తెలివి మీ కారులో ఉంటే ఎలా? సెల్ఫ్ డ్రైవింగ్ కార్లు దాని పరిసరాల మ్యాప్‌ను రూపొందించడానికి రాడార్లు, కెమెరాలు మరియు లేజర్‌లతో సహా సెన్సార్ల నుండి ప్రత్యక్ష డేటాను సేకరిస్తాయి. ఈ డేటా ఆధారంగా, ఎప్పుడు వేగవంతం చేయాలి, ఎప్పుడు వేగవంతం చేయాలి, ఎప్పుడు అధిగమించాలి, ఎక్కడ మలుపు తీసుకోవాలి - అధునాతన యంత్ర అభ్యాస అల్గోరిథంలను ఉపయోగించడం వంటి నిర్ణయాలు తీసుకుంటుంది.
  • ప్రిడిక్టివ్ అనలిటిక్స్లో డేటా సైన్స్ ఎలా ఉపయోగించబడుతుందో చూద్దాం. వాతావరణ సూచనను ఉదాహరణగా తీసుకుందాం. నమూనాలను రూపొందించడానికి ఓడలు, విమానం, రాడార్లు, ఉపగ్రహాల నుండి డేటాను సేకరించి విశ్లేషించవచ్చు. ఈ నమూనాలు వాతావరణాన్ని అంచనా వేయడమే కాకుండా, ఏదైనా ప్రకృతి వైపరీత్యాలు జరుగుతాయని అంచనా వేయడంలో సహాయపడతాయి. ముందే తగిన చర్యలు తీసుకోవడానికి మరియు చాలా విలువైన ప్రాణాలను కాపాడటానికి ఇది మీకు సహాయం చేస్తుంది.

డేటా సైన్స్ దాని ముద్రను సృష్టిస్తున్న అన్ని డొమైన్‌లను చూడటానికి ఈ క్రింది ఇన్ఫోగ్రాఫిక్‌ను చూద్దాం.

డేటా సైన్స్ యూజ్ కేసులు - ఎడురేకా

డేటా సైంటిస్ట్ ఎవరు?

డేటా సైంటిస్టులపై అనేక నిర్వచనాలు అందుబాటులో ఉన్నాయి. సరళంగా చెప్పాలంటే, డేటా సైన్స్ కళను అభ్యసించేవాడు డేటా సైంటిస్ట్.'డేటా సైంటిస్ట్' అనే పదం ఉందిడేటా సైంటిస్ట్ గణాంకాలు లేదా గణితం అయినా శాస్త్రీయ రంగాలు మరియు అనువర్తనాల నుండి చాలా సమాచారాన్ని తీసుకుంటారనే వాస్తవాన్ని పరిగణనలోకి తీసుకున్న తరువాత.

డేటా సైంటిస్ట్ ఏమి చేస్తారు?

డేటా సైంటిస్టులు కొన్ని శాస్త్రీయ విభాగాలలో వారి బలమైన నైపుణ్యంతో సంక్లిష్ట డేటా సమస్యలను ఛేదించేవారు. వారు గణితం, గణాంకాలు, కంప్యూటర్ సైన్స్ మొదలైన వాటికి సంబంధించిన అనేక అంశాలతో పని చేస్తారు (అయినప్పటికీ వారు ఈ రంగాలన్నిటిలో నిపుణులు కాకపోవచ్చు).సంస్థ యొక్క అభివృద్ధి మరియు అభివృద్ధికి కీలకమైన పరిష్కారాలను కనుగొనడంలో మరియు తీర్మానాలను చేరుకోవడంలో వారు తాజా సాంకేతిక పరిజ్ఞానాన్ని చాలా ఉపయోగించుకుంటారు. నిర్మాణాత్మక మరియు నిర్మాణాత్మక రూపాల నుండి వారికి లభించే ముడి డేటాతో పోలిస్తే డేటా శాస్త్రవేత్తలు డేటాను మరింత ఉపయోగకరమైన రూపంలో ప్రదర్శిస్తారు.

డేటా సైంటిస్ట్ గురించి మరింత తెలుసుకోవడానికి మీరు ఈ కథనాన్ని చూడవచ్చు

మరింత కదిలి, ఇప్పుడు BI గురించి చర్చించనివ్వండి. బిజినెస్ ఇంటెలిజెన్స్ (బిఐ) గురించి కూడా మీరు విన్నట్లు నాకు తెలుసు. తరచుగా డేటా సైన్స్ BI తో గందరగోళం చెందుతుంది. నేను కొన్ని సంక్షిప్త మరియు స్పష్టంగా చెబుతానురెండింటి మధ్య విభేదాలు మంచి అవగాహన పొందడంలో మీకు సహాయపడతాయి. చూద్దాం.

బిజినెస్ ఇంటెలిజెన్స్ (బిఐ) వర్సెస్ డేటా సైన్స్

  • బిజినెస్ ఇంటెలిజెన్స్ (బిఐ) ప్రాథమికంగా మునుపటి డేటాను విశ్లేషిస్తుంది, వ్యాపార పోకడలను వివరించడానికి ఇబ్బంది మరియు అంతర్దృష్టిని కనుగొనండి. బాహ్య మరియు అంతర్గత వనరుల నుండి డేటాను తీసుకోవటానికి, దానిని సిద్ధం చేయడానికి, దానిపై ప్రశ్నలను అమలు చేయడానికి మరియు డాష్‌బోర్డ్‌లను సృష్టించడానికి ఇక్కడ BI మిమ్మల్ని అనుమతిస్తుందిత్రైమాసిక ఆదాయ విశ్లేషణలేదా వ్యాపార సమస్యలు. BI సమీప భవిష్యత్తులో కొన్ని సంఘటనల ప్రభావాన్ని అంచనా వేయగలదు.
  • డేటా సైన్స్ అనేది మరింత ముందుకు చూసే విధానం, గత లేదా ప్రస్తుత డేటాను విశ్లేషించడం మరియు సమాచార నిర్ణయాలు తీసుకునే లక్ష్యంతో భవిష్యత్ ఫలితాలను అంచనా వేయడంపై దృష్టి సారించే అన్వేషణాత్మక మార్గం. ఇది “ఏమి” మరియు “ఎలా” సంఘటనలు సంభవిస్తాయనే ఓపెన్-ఎండ్ ప్రశ్నలకు సమాధానం ఇస్తుంది.

కొన్ని విరుద్ధమైన లక్షణాలను చూద్దాం.

లక్షణాలు బిజినెస్ ఇంటెలిజెన్స్ (బిఐ) డేటా సైన్స్
డేటా సోర్సెస్నిర్మాణాత్మకంగా
(సాధారణంగా SQL, తరచుగా డేటా వేర్‌హౌస్)
స్ట్రక్చర్డ్ మరియు స్ట్రక్చర్డ్ రెండూ

ప్రారంభకులకు నా SQL ట్యుటోరియల్

(లాగ్‌లు, క్లౌడ్ డేటా, SQL, NoSQL, టెక్స్ట్)

అప్రోచ్గణాంకాలు మరియు విజువలైజేషన్స్టాటిస్టిక్స్, మెషిన్ లెర్నింగ్, గ్రాఫ్ అనాలిసిస్, న్యూరో-లింగ్విస్టిక్ ప్రోగ్రామింగ్ (ఎన్‌ఎల్‌పి)
దృష్టిగత మరియు ప్రస్తుతవర్తమానం మరియు భవిష్యత్తు
ఉపకరణాలుపెంటాహో, మైక్రోసాఫ్ట్ BI,QlikView, R.రాపిడ్‌మినర్, బిగ్‌ఎంఎల్, వెకా, ఆర్

ఇదంతా డేటా సైన్స్ అంటే, ఇప్పుడు డేటా సైన్స్ జీవితచక్రం అర్థం చేసుకుందాం.

డేటా సైన్స్ ప్రాజెక్టులలో చేసిన ఒక సాధారణ తప్పు, డేటా సేకరణ మరియు విశ్లేషణలలోకి వెళ్లడం, అవసరాలను అర్థం చేసుకోకుండా లేదా వ్యాపార సమస్యను సరిగ్గా రూపొందించకుండా. అందువల్ల, ప్రాజెక్ట్ యొక్క సున్నితమైన పనితీరును నిర్ధారించడానికి మీరు డేటా సైన్స్ యొక్క జీవితచక్రం అంతటా అన్ని దశలను అనుసరించడం చాలా ముఖ్యం.

లైఫ్సైకిల్ ఆఫ్ డేటా సైన్స్

డేటా సైన్స్ లైఫ్‌సైకిల్ యొక్క ప్రధాన దశల సంక్షిప్త అవలోకనం ఇక్కడ ఉంది:

లైఫ్ సైకిల్ ఆఫ్ డేటా సైన్స్ - ఎడురేకా


డేటా సైన్స్ యొక్క ఆవిష్కరణ - ఎడురేకాదశ 1 - డిస్కవరీ:
మీరు ప్రాజెక్ట్ను ప్రారంభించడానికి ముందు, వివిధ లక్షణాలు, అవసరాలు, ప్రాధాన్యతలు మరియు అవసరమైన బడ్జెట్‌ను అర్థం చేసుకోవడం చాలా ముఖ్యం. సరైన ప్రశ్నలను అడిగే సామర్థ్యాన్ని మీరు కలిగి ఉండాలి.ఇక్కడ, ప్రాజెక్ట్కు మద్దతు ఇవ్వడానికి ప్రజలు, సాంకేతికత, సమయం మరియు డేటా పరంగా మీకు అవసరమైన వనరులు ఉన్నాయా అని మీరు అంచనా వేస్తారు.ఈ దశలో, మీరు వ్యాపార సమస్యను ఫ్రేమ్ చేయాలి మరియు పరీక్షించడానికి ప్రారంభ పరికల్పనలను (IH) రూపొందించాలి.

డేటా సైన్స్ డేటా తయారీ - ఎడురేకా

దశ 2 - డేటా తయారీ: ఈ దశలో, మీకు విశ్లేషణాత్మక శాండ్‌బాక్స్ అవసరం, దీనిలో మీరు ప్రాజెక్ట్ యొక్క మొత్తం వ్యవధికి విశ్లేషణలను చేయవచ్చు. మోడలింగ్‌కు ముందు మీరు అన్వేషించాలి, ప్రిప్రాసెస్ మరియు కండిషన్ డేటాను చేయాలి. ఇంకా, శాండ్‌బాక్స్‌లోకి డేటాను పొందడానికి మీరు ETLT (ఎక్స్‌ట్రాక్ట్, ట్రాన్స్ఫార్మ్, లోడ్ మరియు ట్రాన్స్ఫార్మ్) చేస్తారు. దిగువ గణాంక విశ్లేషణ ప్రవాహాన్ని చూద్దాం.

లైఫ్సైకిల్ ఆఫ్ డేటా సైన్స్
డేటా శుభ్రపరచడం, పరివర్తన మరియు విజువలైజేషన్ కోసం మీరు R ను ఉపయోగించవచ్చు. అవుట్‌లైయర్‌లను గుర్తించడానికి మరియు వేరియబుల్స్ మధ్య సంబంధాన్ని ఏర్పరచటానికి ఇది మీకు సహాయం చేస్తుంది.మీరు డేటాను శుభ్రం చేసి, సిద్ధం చేసిన తర్వాత, అన్వేషణాత్మక సమయంవిశ్లేషణలుదానిపై. మీరు దాన్ని ఎలా సాధించవచ్చో చూద్దాం.

దశ 3 - మోడల్ ప్రణాళిక: డేటా సైన్స్ మోడల్ ప్లానింగ్ - ఎడురేకా ఇక్కడ, మీరు వేరియబుల్స్ మధ్య సంబంధాలను గీయడానికి పద్ధతులు మరియు పద్ధతులను నిర్ణయిస్తారు.ఈ సంబంధాలు మీరు తదుపరి దశలో అమలు చేసే అల్గోరిథంలకు ఆధారాన్ని నిర్దేశిస్తాయి.మీరు వివిధ గణాంక సూత్రాలు మరియు విజువలైజేషన్ సాధనాలను ఉపయోగించి ఎక్స్ప్లోరేటరీ డేటా అనలిటిక్స్ (EDA) ను వర్తింపజేస్తారు.

వివిధ మోడల్ ప్లానింగ్ సాధనాలను చూద్దాం.

డేటా సైన్స్లో మోడల్ ప్లానింగ్ టూల్స్ - ఎడురేకా

  1. ఆర్ మోడలింగ్ సామర్ధ్యాల పూర్తి సమితిని కలిగి ఉంది మరియు వివరణాత్మక నమూనాలను రూపొందించడానికి మంచి వాతావరణాన్ని అందిస్తుంది.
  2. SQL విశ్లేషణ సేవలు సాధారణ డేటా మైనింగ్ విధులు మరియు ప్రాథమిక ప్రిడిక్టివ్ మోడళ్లను ఉపయోగించి డేటాబేస్ విశ్లేషణలను చేయగలదు.
  3. SAS / ACCESS హడూప్ నుండి డేటాను ప్రాప్యత చేయడానికి ఉపయోగించవచ్చు మరియు పునరావృతమయ్యే మరియు పునర్వినియోగ మోడల్ ప్రవాహ రేఖాచిత్రాలను రూపొందించడానికి ఉపయోగించబడుతుంది.

అయినప్పటికీ, చాలా సాధనాలు మార్కెట్లో ఉన్నాయి, అయితే R అనేది సాధారణంగా ఉపయోగించే సాధనం.

ఇప్పుడు మీరు మీ డేటా యొక్క స్వభావం గురించి అంతర్దృష్టులను పొందారు మరియు ఉపయోగించాల్సిన అల్గోరిథంలను నిర్ణయించుకున్నారు. తదుపరి దశలో, మీరు చేస్తారువర్తించుఅల్గోరిథం మరియు ఒక నమూనాను రూపొందించండి.

డేటా సైన్స్ మోడల్ భవనం - ఎడురేకాదశ 4 - మోడల్ భవనం: ఈ దశలో, మీరు శిక్షణ మరియు పరీక్షా ప్రయోజనాల కోసం డేటాసెట్లను అభివృద్ధి చేస్తారు. ఇక్కడ వైమీ ప్రస్తుత సాధనాలు మోడళ్లను అమలు చేయడానికి సరిపోతాయా లేదా అనేదానికి మరింత బలమైన వాతావరణం అవసరమా (ఫాస్ట్ మరియు సమాంతర ప్రాసెసింగ్ వంటివి) అవసరమా అని ఆలోచించాలి. మోడల్‌ను రూపొందించడానికి వర్గీకరణ, అసోసియేషన్ మరియు క్లస్టరింగ్ వంటి వివిధ అభ్యాస పద్ధతులను మీరు విశ్లేషిస్తారు.

మీరు ఈ క్రింది సాధనాల ద్వారా మోడల్ భవనాన్ని సాధించవచ్చు.

డేటా సైన్స్లో మోడల్ బిల్డింగ్ టూల్స్

5 వ దశ - కార్యాచరణ: డేటా సైన్స్ పనిచేస్తుంది - ఎడురేకా ఈ దశలో, మీరు తుది నివేదికలు, బ్రీఫింగ్‌లు, కోడ్ మరియు సాంకేతిక పత్రాలను బట్వాడా చేస్తారు.అదనంగా, కొన్నిసార్లు నిజ సమయ ఉత్పత్తి వాతావరణంలో పైలట్ ప్రాజెక్ట్ కూడా అమలు చేయబడుతుంది. పూర్తి విస్తరణకు ముందు చిన్న స్థాయిలో పనితీరు మరియు ఇతర సంబంధిత అడ్డంకుల గురించి ఇది మీకు స్పష్టమైన చిత్రాన్ని అందిస్తుంది.


డేటా సైన్స్లో కమ్యూనికేషన్ - ఎడురేకాదశ 6 results ఫలితాలను కమ్యూనికేట్ చేయండి:
మీరు మొదటి దశలో ప్రణాళిక వేసిన మీ లక్ష్యాన్ని సాధించగలిగితే ఇప్పుడు మూల్యాంకనం చేయడం చాలా ముఖ్యం. కాబట్టి, చివరి దశలో, మీరు అన్ని కీలక ఫలితాలను గుర్తించి, వాటాదారులతో కమ్యూనికేట్ చేసి, ఫలితాలను నిర్ణయిస్తారుదశ 1 లో అభివృద్ధి చేసిన ప్రమాణాల ఆధారంగా ప్రాజెక్ట్ యొక్క విజయం లేదా వైఫల్యం.

ఇప్పుడు, పైన వివరించిన వివిధ దశలను మీకు వివరించడానికి నేను కేస్ స్టడీ తీసుకుంటాను.

కేస్ స్టడీ: డయాబెటిస్ నివారణ

డయాబెటిస్ సంభవిస్తుందని and హించగలిగితే మరియు దానిని నివారించడానికి తగిన చర్యలు తీసుకోవచ్చు.
ఈ వినియోగ సందర్భంలో, మేము ఇంతకుముందు చర్చించిన మొత్తం జీవితచక్రం మధుమేహం యొక్క సంభవనీయతను అంచనా వేస్తాము. వివిధ దశలను చూద్దాం.

దశ 1:

  • ప్రధమ,మేము వైద్య చరిత్ర ఆధారంగా డేటాను సేకరిస్తాముదశ 1 లో చర్చించినట్లు రోగి యొక్క. మీరు క్రింద ఉన్న నమూనా డేటాను చూడవచ్చు.

డేటా సైన్స్ నమూనా డేటా - ఎడురేకా

  • మీరు గమనిస్తే, క్రింద పేర్కొన్న విధంగా మాకు వివిధ లక్షణాలు ఉన్నాయి.

గుణాలు:

  1. npreg - గర్భవతి ఎన్నిసార్లు
  2. గ్లూకోజ్ - ప్లాస్మా గ్లూకోజ్ గా ration త
  3. bp - రక్తపోటు
  4. చర్మం - ట్రైసెప్స్ స్కిన్ ఫోల్డ్ మందం
  5. bmi - బాడీ మాస్ ఇండెక్స్
  6. ped - డయాబెటిస్ వంశపు పనితీరు
  7. వయస్సు - వయస్సు
  8. ఆదాయం - ఆదాయం

దశ 2:

  • ఇప్పుడు, మనకు డేటా ఉన్న తర్వాత, డేటా విశ్లేషణ కోసం డేటాను శుభ్రం చేసి సిద్ధం చేయాలి.
  • ఈ డేటా తప్పిపోయిన విలువలు, ఖాళీ నిలువు వరుసలు, ఆకస్మిక విలువలు మరియు శుభ్రపరచవలసిన తప్పు డేటా ఫార్మాట్ వంటి చాలా అసమానతలను కలిగి ఉంది.
  • ఇక్కడ, మేము వేర్వేరు లక్షణాల క్రింద డేటాను ఒకే పట్టికలో ఏర్పాటు చేసాము - ఇది మరింత నిర్మాణాత్మకంగా కనిపిస్తుంది.
  • దిగువ నమూనా డేటాను చూద్దాం.

డేటా సైన్స్ అస్థిరమైన డేటా - ఎడురేకా

ఈ డేటా చాలా అసమానతలను కలిగి ఉంది.

  1. కాలమ్‌లో npreg , “ఒకటి” లో వ్రాయబడిందిపదాలు,అయితే ఇది 1 వంటి సంఖ్యా రూపంలో ఉండాలి.
  2. కాలమ్‌లో బిపి విలువలలో ఒకటి 6600 ఇది అసాధ్యం (కనీసం మానవులకు) bp అంత భారీ విలువకు వెళ్ళదు.
  3. మీరు చూడగలిగినట్లు ఆదాయం కాలమ్ ఖాళీగా ఉంది మరియు డయాబెటిస్‌ను అంచనా వేయడంలో కూడా అర్ధమే లేదు. అందువల్ల, దానిని ఇక్కడ కలిగి ఉండటం అనవసరం మరియు పట్టిక నుండి తీసివేయబడాలి.
  • కాబట్టి, అవుట్‌లర్‌లను తొలగించడం, శూన్య విలువలను నింపడం మరియు డేటా రకాన్ని సాధారణీకరించడం ద్వారా మేము ఈ డేటాను శుభ్రపరుస్తాము మరియు ముందస్తు ప్రాసెస్ చేస్తాము. మీరు గుర్తుంచుకుంటే, ఇది డేటా ప్రిప్రాసెసింగ్ మా రెండవ దశ.
  • చివరగా, విశ్లేషణ కోసం ఉపయోగించబడే క్రింద చూపిన విధంగా మేము శుభ్రమైన డేటాను పొందుతాము.

డేటా సైన్స్ స్థిరమైన డేటా - ఎడురేకా

దశ 3:

3 వ దశలో ఇంతకుముందు చర్చించినట్లు ఇప్పుడు కొంత విశ్లేషణ చేద్దాం.

  • మొదట, మేము డేటాను విశ్లేషణాత్మక శాండ్‌బాక్స్‌లోకి లోడ్ చేస్తాము మరియు దానిపై వివిధ గణాంక విధులను వర్తింపజేస్తాము. ఉదాహరణకు, R వంటి విధులు ఉన్నాయి వివరిస్తుంది ఇది తప్పిపోయిన విలువలు మరియు ప్రత్యేక విలువల సంఖ్యను ఇస్తుంది. సారాంశం ఫంక్షన్‌ను కూడా మనం ఉపయోగించవచ్చు, ఇది సగటు, మధ్యస్థ, పరిధి, కనిష్ట మరియు గరిష్ట విలువలు వంటి గణాంక సమాచారాన్ని ఇస్తుంది.
  • అప్పుడు, డేటా పంపిణీ గురించి సరసమైన ఆలోచన పొందడానికి హిస్టోగ్రామ్స్, లైన్ గ్రాఫ్స్, బాక్స్ ప్లాట్లు వంటి విజువలైజేషన్ పద్ధతులను ఉపయోగిస్తాము.

డేటా సైన్స్ విజువలైజేషన్ - ఎడురేకా

యంత్ర అభ్యాసంలో అతిగా సరిపోయేది ఏమిటి

దశ 4:

ఇప్పుడు, మునుపటి దశ నుండి పొందిన అంతర్దృష్టుల ఆధారంగా, ఈ రకమైన సమస్యకు ఉత్తమమైనది నిర్ణయం చెట్టు. ఎలా చూద్దాం?

  • అప్పటి నుండి, మేము ఇప్పటికే విశ్లేషణ కోసం ప్రధాన లక్షణాలను కలిగి ఉన్నాము npreg, bmi , మొదలైనవి, కాబట్టి మేము ఉపయోగిస్తామునిర్మించడానికి పర్యవేక్షించే అభ్యాస సాంకేతికత aఇక్కడ మోడల్.
  • ఇంకా, మేము ప్రత్యేకంగా నిర్ణయం చెట్టును ఉపయోగించాము, ఎందుకంటే ఇది అన్ని లక్షణాలను ఒకేసారి పరిగణనలోకి తీసుకుంటుందిసరళ సంబంధం అలాగే సరళేతర సంబంధం ఉన్నవి. మా విషయంలో, మాకు మధ్య సరళ సంబంధం ఉంది npreg మరియు వయస్సు, అయితే మధ్య సరళ సంబంధం npreg మరియు పెడ్ .
  • డెసిషన్ ట్రీ మోడల్స్ కూడా చాలా దృ are ంగా ఉంటాయి, ఎందుకంటే మేము వివిధ చెట్లను తయారు చేయడానికి వివిధ లక్షణాల కలయికను ఉపయోగించవచ్చు మరియు చివరికి గరిష్ట సామర్థ్యంతో ఒకదాన్ని అమలు చేయవచ్చు.

మన నిర్ణయ వృక్షాన్ని చూద్దాం.

ట్రీ డేటా సెట్‌ను డిజైన్ చేయండి

ఇక్కడ, అతి ముఖ్యమైన పరామితి గ్లూకోజ్ స్థాయి, కాబట్టి ఇది మన రూట్ నోడ్. ఇప్పుడు, ప్రస్తుత నోడ్ మరియు దాని విలువ తీసుకోవలసిన తదుపరి ముఖ్యమైన పరామితిని నిర్ణయిస్తాయి. మేము పరంగా ఫలితాన్ని పొందే వరకు ఇది కొనసాగుతుంది pos లేదా నెగ్ . పోస్ అంటే డయాబెటిస్ ఉన్న ధోరణి సానుకూలంగా ఉంటుంది మరియు నెగ్ అంటే డయాబెటిస్ ఉన్న ధోరణి ప్రతికూలంగా ఉంటుంది.

నిర్ణయం చెట్టు అమలు గురించి మీరు మరింత తెలుసుకోవాలనుకుంటే, ఈ బ్లాగును చూడండి

దశ 5:

ఈ దశలో, మా ఫలితాలు తగినవి కావా అని తనిఖీ చేయడానికి మేము ఒక చిన్న పైలట్ ప్రాజెక్ట్ను నడుపుతాము. పనితీరు పరిమితులు ఏమైనా ఉంటే మేము కూడా చూస్తాము. ఫలితాలు ఖచ్చితమైనవి కానట్లయితే, మేము మోడల్‌ను రీప్లాన్ చేసి, పునర్నిర్మించాలి.

దశ 6:

మేము ప్రాజెక్ట్ను విజయవంతంగా అమలు చేసిన తర్వాత, పూర్తి విస్తరణ కోసం అవుట్పుట్ను పంచుకుంటాము.

డేటా సైంటిస్ట్‌గా ఉండటం కంటే సులభం. కాబట్టి, మీరు డేటా సైంటిస్ట్ కావడానికి ఏమి కావాలో చూద్దాం.డేటా సైంటిస్ట్‌కు ప్రాథమికంగా నైపుణ్యాలు అవసరంక్రింద చూపిన విధంగా మూడు ప్రధాన ప్రాంతాల నుండి.

డేటా సైన్స్ నైపుణ్యాలు - ఎడురేకా

పై చిత్రంలో మీరు చూడగలిగినట్లుగా, మీరు వివిధ హార్డ్ నైపుణ్యాలు మరియు మృదువైన నైపుణ్యాలను పొందాలి. మీరు మంచిగా ఉండాలి గణాంకాలు మరియు గణితం డేటాను విశ్లేషించడానికి మరియు దృశ్యమానం చేయడానికి. చెప్పనవసరం లేదు, యంత్ర అభ్యాస డేటా సైన్స్ యొక్క హృదయాన్ని ఏర్పరుస్తుంది మరియు మీరు మంచిగా ఉండాలని కోరుకుంటారు. అలాగే, మీరు దాని గురించి దృ understanding మైన అవగాహన కలిగి ఉండాలి డొమైన్ మీరు వ్యాపార సమస్యలను స్పష్టంగా అర్థం చేసుకోవడానికి పని చేస్తున్నారు. మీ పని ఇక్కడ ముగియదు. మీరు మంచి అవసరమైన వివిధ అల్గోరిథంలను అమలు చేయగల సామర్థ్యాన్ని కలిగి ఉండాలి కోడింగ్ నైపుణ్యాలు. చివరగా, మీరు కొన్ని కీలక నిర్ణయాలు తీసుకున్న తర్వాత, వాటిని వాటాదారులకు అందజేయడం మీకు ముఖ్యం. చాల బాగుంది కమ్యూనికేషన్ ఖచ్చితంగా మీ నైపుణ్యాలకు సంబరం పాయింట్లను జోడిస్తుంది.

డేటా సైన్స్ అంటే ఏమిటి మరియు మేము బ్లాగులో చర్చించినవన్నీ వివరించే ఈ డేటా సైన్స్ వీడియో ట్యుటోరియల్ చూడాలని నేను మిమ్మల్ని కోరుతున్నాను. ముందుకు సాగండి, వీడియోను ఆస్వాదించండి మరియు మీరు ఏమనుకుంటున్నారో నాకు చెప్పండి.

డేటా సైన్స్ అంటే ఏమిటి? డేటా సైన్స్ కోర్సు - బిగినర్స్ కోసం డేటా సైన్స్ ట్యుటోరియల్ | ఎడురేకా

ఈ ఎడురేకా డేటా సైన్స్ కోర్సు వీడియో డేటా సైన్స్ అవసరం, డేటా సైన్స్ అంటే ఏమిటి, వ్యాపారం కోసం డేటా సైన్స్ యూజ్ కేసులు, బిఐ వర్సెస్ డేటా సైన్స్, డేటా అనలిటిక్స్ టూల్స్, డేటా సైన్స్ లైఫ్‌సైకిల్‌తో పాటు డెమో.

చివరికి, భవిష్యత్తు డేటా సైంటిస్టులకు చెందినదని చెప్పడం తప్పు కాదు. 2018 సంవత్సరం చివరి నాటికి సుమారు పది లక్షల మంది డేటా సైంటిస్టుల అవసరం ఉంటుందని అంచనా. కీలకమైన వ్యాపార నిర్ణయాలు తీసుకునే అవకాశాలను మరింత ఎక్కువ డేటా అందిస్తుంది. మన చుట్టూ ఉన్న డేటాతో మునిగిపోయిన ప్రపంచాన్ని చూసే విధానాన్ని ఇది త్వరలో మార్చబోతోంది. అందువల్ల, డేటా సైంటిస్ట్ అత్యంత నైపుణ్యం మరియు చాలా క్లిష్టమైన సమస్యలను పరిష్కరించడానికి ప్రేరేపించబడాలి.

మీరు నా బ్లాగు చదవడం ఆనందించారని మరియు డేటా సైన్స్ అంటే ఏమిటో అర్థం చేసుకున్నారని ఆశిస్తున్నాను.మా చూడండి ఇక్కడ, ఇది బోధకుడు నేతృత్వంలోని ప్రత్యక్ష శిక్షణ మరియు నిజ జీవిత ప్రాజెక్ట్ అనుభవంతో వస్తుంది.