ప్రపంచం పెద్ద డేటా యుగంలోకి ప్రవేశించగానే, దాని నిల్వ అవసరం కూడా పెరిగింది. ఇది 2010 వరకు సంస్థ పరిశ్రమలకు ప్రధాన సవాలు మరియు ఆందోళన. డేటాను నిల్వ చేయడానికి ఒక ఫ్రేమ్వర్క్ మరియు పరిష్కారాలను నిర్మించడంపై ప్రధాన దృష్టి ఉంది. ఇప్పుడు హడూప్ మరియు ఇతర ఫ్రేమ్వర్క్లు నిల్వ సమస్యను విజయవంతంగా పరిష్కరించినప్పుడు, దృష్టి ఈ డేటా యొక్క ప్రాసెసింగ్ వైపు మళ్లింది. డేటా సైన్స్ ఇక్కడ రహస్య సాస్. హాలీవుడ్ సైన్స్ ఫిక్షన్ సినిమాల్లో మీరు చూసే అన్ని ఆలోచనలు వాస్తవానికి డేటా సైన్స్ ద్వారా రియాలిటీగా మారతాయి. డేటా సైన్స్ అనేది ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ యొక్క భవిష్యత్తు. అందువల్ల, డేటా సైన్స్ అంటే ఏమిటి మరియు ఇది మీ వ్యాపారానికి ఎలా విలువను జోడించగలదో అర్థం చేసుకోవడం చాలా ముఖ్యం.
ఎడురేకా 2019 టెక్ కెరీర్ గైడ్ ముగిసింది! గైడ్లో హాటెస్ట్ ఉద్యోగ పాత్రలు, ఖచ్చితమైన అభ్యాస మార్గాలు, పరిశ్రమ దృక్పథం మరియు మరిన్ని. డౌన్లోడ్ ఇప్పుడు.ఈ బ్లాగులో, నేను ఈ క్రింది విషయాలను కవర్ చేస్తాను.
- డేటా సైన్స్ అంటే ఏమిటి?
- డేటా సైన్స్ ఎందుకు?
- డేటా సైంటిస్ట్ ఎవరు?
- బిజినెస్ ఇంటెలిజెన్స్ (బిఐ) మరియు డేటా సైన్స్ నుండి ఇది ఎలా భిన్నంగా ఉంటుంది?
- వినియోగ కేసు సహాయంతో డేటా సైన్స్ యొక్క జీవితచక్రం
ఈ బ్లాగ్ చివరినాటికి, డేటా సైన్స్ అంటే ఏమిటి మరియు మన చుట్టూ ఉన్న సంక్లిష్టమైన మరియు పెద్ద డేటా సమితుల నుండి అర్ధవంతమైన అంతర్దృష్టులను సేకరించడంలో దాని పాత్ర ఏమిటో మీరు అర్థం చేసుకోగలరు.డేటా సైన్స్ పై లోతైన జ్ఞానం పొందడానికి, మీరు ప్రత్యక్షంగా నమోదు చేసుకోవచ్చు 24/7 మద్దతు మరియు జీవితకాల ప్రాప్యతతో ఎడురేకా చేత.
డేటా సైన్స్ అంటే ఏమిటి?
డేటా సైన్స్ అనేది ముడి డేటా నుండి దాచిన నమూనాలను కనుగొనాలనే లక్ష్యంతో వివిధ సాధనాలు, అల్గోరిథంలు మరియు యంత్ర అభ్యాస సూత్రాల మిశ్రమం. గణాంకవేత్తలు సంవత్సరాలుగా చేస్తున్న దానికి ఇది ఎలా భిన్నంగా ఉంటుంది?
సమాధానం వివరించడం మరియు అంచనా వేయడం మధ్య వ్యత్యాసంలో ఉంది.
పై చిత్రం నుండి మీరు చూడగలిగినట్లుగా, డేటా విశ్లేషకుడుసాధారణంగా డేటా చరిత్రను ప్రాసెస్ చేయడం ద్వారా ఏమి జరుగుతుందో వివరిస్తుంది. మరోవైపు, డేటా సైంటిస్ట్ దాని నుండి అంతర్దృష్టులను కనుగొనటానికి అన్వేషణాత్మక విశ్లేషణ చేయడమే కాకుండా, భవిష్యత్తులో ఒక నిర్దిష్ట సంఘటన సంభవించడాన్ని గుర్తించడానికి వివిధ అధునాతన యంత్ర అభ్యాస అల్గారిథమ్లను కూడా ఉపయోగిస్తుంది. డేటా సైంటిస్ట్ అనేక కోణాల నుండి డేటాను చూస్తాడు, కొన్నిసార్లు కోణాలు ముందు తెలియదు.
కాబట్టి, డేటా సైన్స్ ప్రధానంగా ic హాజనిత కారణ విశ్లేషణలు, ప్రిస్క్రిప్టివ్ అనలిటిక్స్ (ప్రిడిక్టివ్ ప్లస్ డెసిషన్ సైన్స్) మరియు యంత్ర అభ్యాసాలను ఉపయోగించుకునే నిర్ణయాలు మరియు అంచనాలను తీసుకోవడానికి ఉపయోగిస్తారు.
- ప్రిడిక్టివ్ కాజల్ అనలిటిక్స్ - భవిష్యత్తులో ఒక నిర్దిష్ట సంఘటన యొక్క అవకాశాలను అంచనా వేయగల మోడల్ మీకు కావాలంటే, మీరు ic హాజనిత కారణ విశ్లేషణలను వర్తింపజేయాలి. చెప్పండి, మీరు క్రెడిట్పై డబ్బును అందిస్తుంటే, కస్టమర్లు భవిష్యత్తులో క్రెడిట్ చెల్లింపులను సకాలంలో చేసే అవకాశం మీకు ఆందోళన కలిగిస్తుంది. ఇక్కడ, భవిష్యత్ చెల్లింపులు సమయానికి జరుగుతాయా లేదా అని to హించడానికి కస్టమర్ యొక్క చెల్లింపు చరిత్రపై analy హాజనిత విశ్లేషణలను చేయగల నమూనాను మీరు నిర్మించవచ్చు.
- ప్రిస్క్రిప్టివ్ అనలిటిక్స్: మీకు దాని స్వంత నిర్ణయాలు తీసుకునే తెలివితేటలు మరియు డైనమిక్ పారామితులతో సవరించే సామర్థ్యం ఉన్న మోడల్ కావాలంటే, మీకు ఖచ్చితంగా ప్రిస్క్రిప్టివ్ అనలిటిక్స్ అవసరం. సాపేక్షంగా ఈ కొత్త ఫీల్డ్ సలహా ఇవ్వడం గురించి. మరో మాటలో చెప్పాలంటే, ఇది సూచించిన చర్యలను మరియు అనుబంధ ఫలితాలను అంచనా వేయడమే కాదు.
దీనికి మంచి ఉదాహరణ గూగుల్ యొక్క సెల్ఫ్ డ్రైవింగ్ కారు, నేను ఇంతకు ముందు చర్చించాను. వాహనాలు సేకరించిన డేటాను సెల్ఫ్ డ్రైవింగ్ కార్లకు శిక్షణ ఇవ్వడానికి ఉపయోగించవచ్చు. తెలివితేటలను తీసుకురావడానికి మీరు ఈ డేటాపై అల్గారిథమ్లను అమలు చేయవచ్చు. ఇది మీ కారు ఎప్పుడు తిరగాలి, ఏ మార్గం తీసుకోవాలి వంటి నిర్ణయాలు తీసుకోవడానికి వీలు కల్పిస్తుంది,ఎప్పుడు వేగాన్ని తగ్గించాలి లేదా వేగవంతం చేయాలి.
- అంచనాలు చేయడానికి యంత్ర అభ్యాసం - మీకు ఫైనాన్స్ కంపెనీ యొక్క లావాదేవీల డేటా ఉంటే మరియు భవిష్యత్ ధోరణిని నిర్ణయించడానికి ఒక నమూనాను నిర్మించాల్సిన అవసరం ఉంటే, అప్పుడు యంత్ర అభ్యాస అల్గోరిథంలు ఉత్తమ పందెం. ఇది పర్యవేక్షించబడిన అభ్యాసం యొక్క నమూనా క్రిందకు వస్తుంది. మీ యంత్రాలకు శిక్షణ ఇవ్వగల డేటాను మీరు ఇప్పటికే కలిగి ఉన్నందున దీనిని పర్యవేక్షించబడతారు. ఉదాహరణకు, మోసపూరిత కొనుగోళ్ల చారిత్రక రికార్డును ఉపయోగించి మోసాన్ని గుర్తించే నమూనాకు శిక్షణ ఇవ్వవచ్చు.
- నమూనా ఆవిష్కరణ కోసం యంత్ర అభ్యాసం - మీరు అంచనాలను రూపొందించగల పారామితులు లేకపోతే, అర్ధవంతమైన అంచనాలను రూపొందించడానికి మీరు డేటాసెట్లోని దాచిన నమూనాలను కనుగొనాలి. సమూహపరచడానికి మీకు ముందే నిర్వచించబడిన లేబుల్స్ లేనందున ఇది పర్యవేక్షించబడని మోడల్ తప్ప మరొకటి కాదు. నమూనా ఆవిష్కరణకు ఉపయోగించే అత్యంత సాధారణ అల్గోరిథం క్లస్టరింగ్.
మీరు టెలిఫోన్ కంపెనీలో పనిచేస్తున్నారని చెప్పండి మరియు మీరు ఒక ప్రాంతంలో టవర్లు ఉంచడం ద్వారా నెట్వర్క్ను ఏర్పాటు చేసుకోవాలి. అప్పుడు, మీరు ఆ టవర్ స్థానాలను కనుగొనడానికి క్లస్టరింగ్ టెక్నిక్ను ఉపయోగించవచ్చు, ఇది వినియోగదారులందరికీ వాంఛనీయ సిగ్నల్ బలాన్ని అందుతుందని నిర్ధారిస్తుంది.
డేటా విశ్లేషణతో పాటు డేటా సైన్స్ కోసం పైన వివరించిన విధానాల నిష్పత్తి ఎలా భిన్నంగా ఉంటుందో చూద్దాం. దిగువ చిత్రంలో మీరు చూడగలిగినట్లుగా, డేటా విశ్లేషణవివరణాత్మక విశ్లేషణలు మరియు అంచనాను కొంతవరకు కలిగి ఉంటుంది. మరోవైపు, డేటా సైన్స్ ప్రిడిక్టివ్ కాజల్ అనలిటిక్స్ మరియు మెషిన్ లెర్నింగ్ గురించి ఎక్కువ.
డేటా సైన్స్ అంటే ఏమిటో ఇప్పుడు మీకు తెలుసు, ఇది మొదటి స్థానంలో ఎందుకు అవసరమో ఇప్పుడు తెలుసుకుందాం.
డేటా సైన్స్ ఎందుకు?
- సాంప్రదాయకంగా, మా వద్ద ఉన్న డేటా ఎక్కువగా నిర్మాణాత్మకంగా మరియు పరిమాణంలో చిన్నదిగా ఉండేది, వీటిని సాధారణ BI సాధనాలను ఉపయోగించి విశ్లేషించవచ్చు.లో డేటా కాకుండాసాంప్రదాయ వ్యవస్థలు ఎక్కువగా నిర్మాణాత్మకంగా ఉన్నాయి, నేడు చాలా డేటా నిర్మాణాత్మకమైనది లేదా సెమీ స్ట్రక్చర్డ్. క్రింద ఇవ్వబడిన చిత్రంలోని డేటా పోకడలను చూద్దాం, ఇది 2020 నాటికి 80% కంటే ఎక్కువ డేటా నిర్మాణాత్మకంగా లేదని చూపిస్తుంది.
ఈ డేటా ఆర్థిక లాగ్లు, టెక్స్ట్ ఫైల్లు, మల్టీమీడియా రూపాలు, సెన్సార్లు మరియు సాధనాలు వంటి వివిధ వనరుల నుండి ఉత్పత్తి అవుతుంది. సాధారణ BI సాధనాలు ఈ భారీ వాల్యూమ్ మరియు విభిన్న డేటాను ప్రాసెస్ చేయగలవు. అందువల్ల ప్రాసెసింగ్, విశ్లేషణ మరియు దాని నుండి అర్ధవంతమైన అంతర్దృష్టులను గీయడానికి మాకు మరింత క్లిష్టమైన మరియు అధునాతన విశ్లేషణాత్మక సాధనాలు మరియు అల్గోరిథంలు అవసరం.
డేటా సైన్స్ అంత ప్రాచుర్యం పొందటానికి ఇది మాత్రమే కారణం కాదు. లోతుగా త్రవ్వి, వివిధ డొమైన్లలో డేటా సైన్స్ ఎలా ఉపయోగించబడుతుందో చూద్దాం.
- కస్టమర్ యొక్క గత బ్రౌజింగ్ చరిత్ర, కొనుగోలు చరిత్ర, వయస్సు మరియు ఆదాయం వంటి ప్రస్తుత డేటా నుండి మీ కస్టమర్ల యొక్క ఖచ్చితమైన అవసరాలను మీరు అర్థం చేసుకోగలిగితే ఎలా. మీకు ఇంతకుముందు ఈ డేటా అంతా ఉందని సందేహం లేదు, కానీ ఇప్పుడు చాలా ఎక్కువ మొత్తంలో మరియు విభిన్న డేటాతో, మీరు మోడళ్లను మరింత సమర్థవంతంగా శిక్షణ ఇవ్వవచ్చు మరియు ఉత్పత్తిని మీ కస్టమర్లకు మరింత ఖచ్చితత్వంతో సిఫారసు చేయవచ్చు. ఇది మీ సంస్థకు మరింత వ్యాపారాన్ని తెస్తుంది కాబట్టి ఇది ఆశ్చర్యంగా ఉందా?
- డేటా సైన్స్ పాత్రను అర్థం చేసుకోవడానికి వేరే దృష్టాంతాన్ని తీసుకుందాం నిర్ణయం తీసుకోవడం.మిమ్మల్ని ఇంటికి నడిపించే తెలివి మీ కారులో ఉంటే ఎలా? సెల్ఫ్ డ్రైవింగ్ కార్లు దాని పరిసరాల మ్యాప్ను రూపొందించడానికి రాడార్లు, కెమెరాలు మరియు లేజర్లతో సహా సెన్సార్ల నుండి ప్రత్యక్ష డేటాను సేకరిస్తాయి. ఈ డేటా ఆధారంగా, ఎప్పుడు వేగవంతం చేయాలి, ఎప్పుడు వేగవంతం చేయాలి, ఎప్పుడు అధిగమించాలి, ఎక్కడ మలుపు తీసుకోవాలి - అధునాతన యంత్ర అభ్యాస అల్గోరిథంలను ఉపయోగించడం వంటి నిర్ణయాలు తీసుకుంటుంది.
- ప్రిడిక్టివ్ అనలిటిక్స్లో డేటా సైన్స్ ఎలా ఉపయోగించబడుతుందో చూద్దాం. వాతావరణ సూచనను ఉదాహరణగా తీసుకుందాం. నమూనాలను రూపొందించడానికి ఓడలు, విమానం, రాడార్లు, ఉపగ్రహాల నుండి డేటాను సేకరించి విశ్లేషించవచ్చు. ఈ నమూనాలు వాతావరణాన్ని అంచనా వేయడమే కాకుండా, ఏదైనా ప్రకృతి వైపరీత్యాలు జరుగుతాయని అంచనా వేయడంలో సహాయపడతాయి. ముందే తగిన చర్యలు తీసుకోవడానికి మరియు చాలా విలువైన ప్రాణాలను కాపాడటానికి ఇది మీకు సహాయం చేస్తుంది.
డేటా సైన్స్ దాని ముద్రను సృష్టిస్తున్న అన్ని డొమైన్లను చూడటానికి ఈ క్రింది ఇన్ఫోగ్రాఫిక్ను చూద్దాం.
డేటా సైంటిస్ట్ ఎవరు?
డేటా సైంటిస్టులపై అనేక నిర్వచనాలు అందుబాటులో ఉన్నాయి. సరళంగా చెప్పాలంటే, డేటా సైన్స్ కళను అభ్యసించేవాడు డేటా సైంటిస్ట్.'డేటా సైంటిస్ట్' అనే పదం ఉందిడేటా సైంటిస్ట్ గణాంకాలు లేదా గణితం అయినా శాస్త్రీయ రంగాలు మరియు అనువర్తనాల నుండి చాలా సమాచారాన్ని తీసుకుంటారనే వాస్తవాన్ని పరిగణనలోకి తీసుకున్న తరువాత.
డేటా సైంటిస్ట్ ఏమి చేస్తారు?
డేటా సైంటిస్టులు కొన్ని శాస్త్రీయ విభాగాలలో వారి బలమైన నైపుణ్యంతో సంక్లిష్ట డేటా సమస్యలను ఛేదించేవారు. వారు గణితం, గణాంకాలు, కంప్యూటర్ సైన్స్ మొదలైన వాటికి సంబంధించిన అనేక అంశాలతో పని చేస్తారు (అయినప్పటికీ వారు ఈ రంగాలన్నిటిలో నిపుణులు కాకపోవచ్చు).సంస్థ యొక్క అభివృద్ధి మరియు అభివృద్ధికి కీలకమైన పరిష్కారాలను కనుగొనడంలో మరియు తీర్మానాలను చేరుకోవడంలో వారు తాజా సాంకేతిక పరిజ్ఞానాన్ని చాలా ఉపయోగించుకుంటారు. నిర్మాణాత్మక మరియు నిర్మాణాత్మక రూపాల నుండి వారికి లభించే ముడి డేటాతో పోలిస్తే డేటా శాస్త్రవేత్తలు డేటాను మరింత ఉపయోగకరమైన రూపంలో ప్రదర్శిస్తారు.
డేటా సైంటిస్ట్ గురించి మరింత తెలుసుకోవడానికి మీరు ఈ కథనాన్ని చూడవచ్చు
మరింత కదిలి, ఇప్పుడు BI గురించి చర్చించనివ్వండి. బిజినెస్ ఇంటెలిజెన్స్ (బిఐ) గురించి కూడా మీరు విన్నట్లు నాకు తెలుసు. తరచుగా డేటా సైన్స్ BI తో గందరగోళం చెందుతుంది. నేను కొన్ని సంక్షిప్త మరియు స్పష్టంగా చెబుతానురెండింటి మధ్య విభేదాలు మంచి అవగాహన పొందడంలో మీకు సహాయపడతాయి. చూద్దాం.
బిజినెస్ ఇంటెలిజెన్స్ (బిఐ) వర్సెస్ డేటా సైన్స్
- బిజినెస్ ఇంటెలిజెన్స్ (బిఐ) ప్రాథమికంగా మునుపటి డేటాను విశ్లేషిస్తుంది, వ్యాపార పోకడలను వివరించడానికి ఇబ్బంది మరియు అంతర్దృష్టిని కనుగొనండి. బాహ్య మరియు అంతర్గత వనరుల నుండి డేటాను తీసుకోవటానికి, దానిని సిద్ధం చేయడానికి, దానిపై ప్రశ్నలను అమలు చేయడానికి మరియు డాష్బోర్డ్లను సృష్టించడానికి ఇక్కడ BI మిమ్మల్ని అనుమతిస్తుందిత్రైమాసిక ఆదాయ విశ్లేషణలేదా వ్యాపార సమస్యలు. BI సమీప భవిష్యత్తులో కొన్ని సంఘటనల ప్రభావాన్ని అంచనా వేయగలదు.
- డేటా సైన్స్ అనేది మరింత ముందుకు చూసే విధానం, గత లేదా ప్రస్తుత డేటాను విశ్లేషించడం మరియు సమాచార నిర్ణయాలు తీసుకునే లక్ష్యంతో భవిష్యత్ ఫలితాలను అంచనా వేయడంపై దృష్టి సారించే అన్వేషణాత్మక మార్గం. ఇది “ఏమి” మరియు “ఎలా” సంఘటనలు సంభవిస్తాయనే ఓపెన్-ఎండ్ ప్రశ్నలకు సమాధానం ఇస్తుంది.
కొన్ని విరుద్ధమైన లక్షణాలను చూద్దాం.
లక్షణాలు | బిజినెస్ ఇంటెలిజెన్స్ (బిఐ) | డేటా సైన్స్ |
డేటా సోర్సెస్ | నిర్మాణాత్మకంగా (సాధారణంగా SQL, తరచుగా డేటా వేర్హౌస్) | స్ట్రక్చర్డ్ మరియు స్ట్రక్చర్డ్ రెండూప్రారంభకులకు నా SQL ట్యుటోరియల్ (లాగ్లు, క్లౌడ్ డేటా, SQL, NoSQL, టెక్స్ట్) |
అప్రోచ్ | గణాంకాలు మరియు విజువలైజేషన్ | స్టాటిస్టిక్స్, మెషిన్ లెర్నింగ్, గ్రాఫ్ అనాలిసిస్, న్యూరో-లింగ్విస్టిక్ ప్రోగ్రామింగ్ (ఎన్ఎల్పి) |
దృష్టి | గత మరియు ప్రస్తుత | వర్తమానం మరియు భవిష్యత్తు |
ఉపకరణాలు | పెంటాహో, మైక్రోసాఫ్ట్ BI,QlikView, R. | రాపిడ్మినర్, బిగ్ఎంఎల్, వెకా, ఆర్ |
ఇదంతా డేటా సైన్స్ అంటే, ఇప్పుడు డేటా సైన్స్ జీవితచక్రం అర్థం చేసుకుందాం.
డేటా సైన్స్ ప్రాజెక్టులలో చేసిన ఒక సాధారణ తప్పు, డేటా సేకరణ మరియు విశ్లేషణలలోకి వెళ్లడం, అవసరాలను అర్థం చేసుకోకుండా లేదా వ్యాపార సమస్యను సరిగ్గా రూపొందించకుండా. అందువల్ల, ప్రాజెక్ట్ యొక్క సున్నితమైన పనితీరును నిర్ధారించడానికి మీరు డేటా సైన్స్ యొక్క జీవితచక్రం అంతటా అన్ని దశలను అనుసరించడం చాలా ముఖ్యం.
లైఫ్సైకిల్ ఆఫ్ డేటా సైన్స్
డేటా సైన్స్ లైఫ్సైకిల్ యొక్క ప్రధాన దశల సంక్షిప్త అవలోకనం ఇక్కడ ఉంది:
దశ 1 - డిస్కవరీ: మీరు ప్రాజెక్ట్ను ప్రారంభించడానికి ముందు, వివిధ లక్షణాలు, అవసరాలు, ప్రాధాన్యతలు మరియు అవసరమైన బడ్జెట్ను అర్థం చేసుకోవడం చాలా ముఖ్యం. సరైన ప్రశ్నలను అడిగే సామర్థ్యాన్ని మీరు కలిగి ఉండాలి.ఇక్కడ, ప్రాజెక్ట్కు మద్దతు ఇవ్వడానికి ప్రజలు, సాంకేతికత, సమయం మరియు డేటా పరంగా మీకు అవసరమైన వనరులు ఉన్నాయా అని మీరు అంచనా వేస్తారు.ఈ దశలో, మీరు వ్యాపార సమస్యను ఫ్రేమ్ చేయాలి మరియు పరీక్షించడానికి ప్రారంభ పరికల్పనలను (IH) రూపొందించాలి.
దశ 2 - డేటా తయారీ: ఈ దశలో, మీకు విశ్లేషణాత్మక శాండ్బాక్స్ అవసరం, దీనిలో మీరు ప్రాజెక్ట్ యొక్క మొత్తం వ్యవధికి విశ్లేషణలను చేయవచ్చు. మోడలింగ్కు ముందు మీరు అన్వేషించాలి, ప్రిప్రాసెస్ మరియు కండిషన్ డేటాను చేయాలి. ఇంకా, శాండ్బాక్స్లోకి డేటాను పొందడానికి మీరు ETLT (ఎక్స్ట్రాక్ట్, ట్రాన్స్ఫార్మ్, లోడ్ మరియు ట్రాన్స్ఫార్మ్) చేస్తారు. దిగువ గణాంక విశ్లేషణ ప్రవాహాన్ని చూద్దాం.
డేటా శుభ్రపరచడం, పరివర్తన మరియు విజువలైజేషన్ కోసం మీరు R ను ఉపయోగించవచ్చు. అవుట్లైయర్లను గుర్తించడానికి మరియు వేరియబుల్స్ మధ్య సంబంధాన్ని ఏర్పరచటానికి ఇది మీకు సహాయం చేస్తుంది.మీరు డేటాను శుభ్రం చేసి, సిద్ధం చేసిన తర్వాత, అన్వేషణాత్మక సమయంవిశ్లేషణలుదానిపై. మీరు దాన్ని ఎలా సాధించవచ్చో చూద్దాం.
దశ 3 - మోడల్ ప్రణాళిక: ఇక్కడ, మీరు వేరియబుల్స్ మధ్య సంబంధాలను గీయడానికి పద్ధతులు మరియు పద్ధతులను నిర్ణయిస్తారు.ఈ సంబంధాలు మీరు తదుపరి దశలో అమలు చేసే అల్గోరిథంలకు ఆధారాన్ని నిర్దేశిస్తాయి.మీరు వివిధ గణాంక సూత్రాలు మరియు విజువలైజేషన్ సాధనాలను ఉపయోగించి ఎక్స్ప్లోరేటరీ డేటా అనలిటిక్స్ (EDA) ను వర్తింపజేస్తారు.
వివిధ మోడల్ ప్లానింగ్ సాధనాలను చూద్దాం.
- ఆర్ మోడలింగ్ సామర్ధ్యాల పూర్తి సమితిని కలిగి ఉంది మరియు వివరణాత్మక నమూనాలను రూపొందించడానికి మంచి వాతావరణాన్ని అందిస్తుంది.
- SQL విశ్లేషణ సేవలు సాధారణ డేటా మైనింగ్ విధులు మరియు ప్రాథమిక ప్రిడిక్టివ్ మోడళ్లను ఉపయోగించి డేటాబేస్ విశ్లేషణలను చేయగలదు.
- SAS / ACCESS హడూప్ నుండి డేటాను ప్రాప్యత చేయడానికి ఉపయోగించవచ్చు మరియు పునరావృతమయ్యే మరియు పునర్వినియోగ మోడల్ ప్రవాహ రేఖాచిత్రాలను రూపొందించడానికి ఉపయోగించబడుతుంది.
అయినప్పటికీ, చాలా సాధనాలు మార్కెట్లో ఉన్నాయి, అయితే R అనేది సాధారణంగా ఉపయోగించే సాధనం.
ఇప్పుడు మీరు మీ డేటా యొక్క స్వభావం గురించి అంతర్దృష్టులను పొందారు మరియు ఉపయోగించాల్సిన అల్గోరిథంలను నిర్ణయించుకున్నారు. తదుపరి దశలో, మీరు చేస్తారువర్తించుఅల్గోరిథం మరియు ఒక నమూనాను రూపొందించండి.
దశ 4 - మోడల్ భవనం: ఈ దశలో, మీరు శిక్షణ మరియు పరీక్షా ప్రయోజనాల కోసం డేటాసెట్లను అభివృద్ధి చేస్తారు. ఇక్కడ వైమీ ప్రస్తుత సాధనాలు మోడళ్లను అమలు చేయడానికి సరిపోతాయా లేదా అనేదానికి మరింత బలమైన వాతావరణం అవసరమా (ఫాస్ట్ మరియు సమాంతర ప్రాసెసింగ్ వంటివి) అవసరమా అని ఆలోచించాలి. మోడల్ను రూపొందించడానికి వర్గీకరణ, అసోసియేషన్ మరియు క్లస్టరింగ్ వంటి వివిధ అభ్యాస పద్ధతులను మీరు విశ్లేషిస్తారు.
మీరు ఈ క్రింది సాధనాల ద్వారా మోడల్ భవనాన్ని సాధించవచ్చు.
5 వ దశ - కార్యాచరణ: ఈ దశలో, మీరు తుది నివేదికలు, బ్రీఫింగ్లు, కోడ్ మరియు సాంకేతిక పత్రాలను బట్వాడా చేస్తారు.అదనంగా, కొన్నిసార్లు నిజ సమయ ఉత్పత్తి వాతావరణంలో పైలట్ ప్రాజెక్ట్ కూడా అమలు చేయబడుతుంది. పూర్తి విస్తరణకు ముందు చిన్న స్థాయిలో పనితీరు మరియు ఇతర సంబంధిత అడ్డంకుల గురించి ఇది మీకు స్పష్టమైన చిత్రాన్ని అందిస్తుంది.
దశ 6 results ఫలితాలను కమ్యూనికేట్ చేయండి: మీరు మొదటి దశలో ప్రణాళిక వేసిన మీ లక్ష్యాన్ని సాధించగలిగితే ఇప్పుడు మూల్యాంకనం చేయడం చాలా ముఖ్యం. కాబట్టి, చివరి దశలో, మీరు అన్ని కీలక ఫలితాలను గుర్తించి, వాటాదారులతో కమ్యూనికేట్ చేసి, ఫలితాలను నిర్ణయిస్తారుదశ 1 లో అభివృద్ధి చేసిన ప్రమాణాల ఆధారంగా ప్రాజెక్ట్ యొక్క విజయం లేదా వైఫల్యం.
ఇప్పుడు, పైన వివరించిన వివిధ దశలను మీకు వివరించడానికి నేను కేస్ స్టడీ తీసుకుంటాను.
కేస్ స్టడీ: డయాబెటిస్ నివారణ
డయాబెటిస్ సంభవిస్తుందని and హించగలిగితే మరియు దానిని నివారించడానికి తగిన చర్యలు తీసుకోవచ్చు.
ఈ వినియోగ సందర్భంలో, మేము ఇంతకుముందు చర్చించిన మొత్తం జీవితచక్రం మధుమేహం యొక్క సంభవనీయతను అంచనా వేస్తాము. వివిధ దశలను చూద్దాం.
దశ 1:
- ప్రధమ,మేము వైద్య చరిత్ర ఆధారంగా డేటాను సేకరిస్తాముదశ 1 లో చర్చించినట్లు రోగి యొక్క. మీరు క్రింద ఉన్న నమూనా డేటాను చూడవచ్చు.
- మీరు గమనిస్తే, క్రింద పేర్కొన్న విధంగా మాకు వివిధ లక్షణాలు ఉన్నాయి.
గుణాలు:
- npreg - గర్భవతి ఎన్నిసార్లు
- గ్లూకోజ్ - ప్లాస్మా గ్లూకోజ్ గా ration త
- bp - రక్తపోటు
- చర్మం - ట్రైసెప్స్ స్కిన్ ఫోల్డ్ మందం
- bmi - బాడీ మాస్ ఇండెక్స్
- ped - డయాబెటిస్ వంశపు పనితీరు
- వయస్సు - వయస్సు
- ఆదాయం - ఆదాయం
దశ 2:
- ఇప్పుడు, మనకు డేటా ఉన్న తర్వాత, డేటా విశ్లేషణ కోసం డేటాను శుభ్రం చేసి సిద్ధం చేయాలి.
- ఈ డేటా తప్పిపోయిన విలువలు, ఖాళీ నిలువు వరుసలు, ఆకస్మిక విలువలు మరియు శుభ్రపరచవలసిన తప్పు డేటా ఫార్మాట్ వంటి చాలా అసమానతలను కలిగి ఉంది.
- ఇక్కడ, మేము వేర్వేరు లక్షణాల క్రింద డేటాను ఒకే పట్టికలో ఏర్పాటు చేసాము - ఇది మరింత నిర్మాణాత్మకంగా కనిపిస్తుంది.
- దిగువ నమూనా డేటాను చూద్దాం.
ఈ డేటా చాలా అసమానతలను కలిగి ఉంది.
- కాలమ్లో npreg , “ఒకటి” లో వ్రాయబడిందిపదాలు,అయితే ఇది 1 వంటి సంఖ్యా రూపంలో ఉండాలి.
- కాలమ్లో బిపి విలువలలో ఒకటి 6600 ఇది అసాధ్యం (కనీసం మానవులకు) bp అంత భారీ విలువకు వెళ్ళదు.
- మీరు చూడగలిగినట్లు ఆదాయం కాలమ్ ఖాళీగా ఉంది మరియు డయాబెటిస్ను అంచనా వేయడంలో కూడా అర్ధమే లేదు. అందువల్ల, దానిని ఇక్కడ కలిగి ఉండటం అనవసరం మరియు పట్టిక నుండి తీసివేయబడాలి.
- కాబట్టి, అవుట్లర్లను తొలగించడం, శూన్య విలువలను నింపడం మరియు డేటా రకాన్ని సాధారణీకరించడం ద్వారా మేము ఈ డేటాను శుభ్రపరుస్తాము మరియు ముందస్తు ప్రాసెస్ చేస్తాము. మీరు గుర్తుంచుకుంటే, ఇది డేటా ప్రిప్రాసెసింగ్ మా రెండవ దశ.
- చివరగా, విశ్లేషణ కోసం ఉపయోగించబడే క్రింద చూపిన విధంగా మేము శుభ్రమైన డేటాను పొందుతాము.
దశ 3:
3 వ దశలో ఇంతకుముందు చర్చించినట్లు ఇప్పుడు కొంత విశ్లేషణ చేద్దాం.
- మొదట, మేము డేటాను విశ్లేషణాత్మక శాండ్బాక్స్లోకి లోడ్ చేస్తాము మరియు దానిపై వివిధ గణాంక విధులను వర్తింపజేస్తాము. ఉదాహరణకు, R వంటి విధులు ఉన్నాయి వివరిస్తుంది ఇది తప్పిపోయిన విలువలు మరియు ప్రత్యేక విలువల సంఖ్యను ఇస్తుంది. సారాంశం ఫంక్షన్ను కూడా మనం ఉపయోగించవచ్చు, ఇది సగటు, మధ్యస్థ, పరిధి, కనిష్ట మరియు గరిష్ట విలువలు వంటి గణాంక సమాచారాన్ని ఇస్తుంది.
- అప్పుడు, డేటా పంపిణీ గురించి సరసమైన ఆలోచన పొందడానికి హిస్టోగ్రామ్స్, లైన్ గ్రాఫ్స్, బాక్స్ ప్లాట్లు వంటి విజువలైజేషన్ పద్ధతులను ఉపయోగిస్తాము.
యంత్ర అభ్యాసంలో అతిగా సరిపోయేది ఏమిటి
దశ 4:
ఇప్పుడు, మునుపటి దశ నుండి పొందిన అంతర్దృష్టుల ఆధారంగా, ఈ రకమైన సమస్యకు ఉత్తమమైనది నిర్ణయం చెట్టు. ఎలా చూద్దాం?
- అప్పటి నుండి, మేము ఇప్పటికే విశ్లేషణ కోసం ప్రధాన లక్షణాలను కలిగి ఉన్నాము npreg, bmi , మొదలైనవి, కాబట్టి మేము ఉపయోగిస్తామునిర్మించడానికి పర్యవేక్షించే అభ్యాస సాంకేతికత aఇక్కడ మోడల్.
- ఇంకా, మేము ప్రత్యేకంగా నిర్ణయం చెట్టును ఉపయోగించాము, ఎందుకంటే ఇది అన్ని లక్షణాలను ఒకేసారి పరిగణనలోకి తీసుకుంటుందిసరళ సంబంధం అలాగే సరళేతర సంబంధం ఉన్నవి. మా విషయంలో, మాకు మధ్య సరళ సంబంధం ఉంది npreg మరియు వయస్సు, అయితే మధ్య సరళ సంబంధం npreg మరియు పెడ్ .
- డెసిషన్ ట్రీ మోడల్స్ కూడా చాలా దృ are ంగా ఉంటాయి, ఎందుకంటే మేము వివిధ చెట్లను తయారు చేయడానికి వివిధ లక్షణాల కలయికను ఉపయోగించవచ్చు మరియు చివరికి గరిష్ట సామర్థ్యంతో ఒకదాన్ని అమలు చేయవచ్చు.
మన నిర్ణయ వృక్షాన్ని చూద్దాం.
ఇక్కడ, అతి ముఖ్యమైన పరామితి గ్లూకోజ్ స్థాయి, కాబట్టి ఇది మన రూట్ నోడ్. ఇప్పుడు, ప్రస్తుత నోడ్ మరియు దాని విలువ తీసుకోవలసిన తదుపరి ముఖ్యమైన పరామితిని నిర్ణయిస్తాయి. మేము పరంగా ఫలితాన్ని పొందే వరకు ఇది కొనసాగుతుంది pos లేదా నెగ్ . పోస్ అంటే డయాబెటిస్ ఉన్న ధోరణి సానుకూలంగా ఉంటుంది మరియు నెగ్ అంటే డయాబెటిస్ ఉన్న ధోరణి ప్రతికూలంగా ఉంటుంది.
నిర్ణయం చెట్టు అమలు గురించి మీరు మరింత తెలుసుకోవాలనుకుంటే, ఈ బ్లాగును చూడండి
దశ 5:
ఈ దశలో, మా ఫలితాలు తగినవి కావా అని తనిఖీ చేయడానికి మేము ఒక చిన్న పైలట్ ప్రాజెక్ట్ను నడుపుతాము. పనితీరు పరిమితులు ఏమైనా ఉంటే మేము కూడా చూస్తాము. ఫలితాలు ఖచ్చితమైనవి కానట్లయితే, మేము మోడల్ను రీప్లాన్ చేసి, పునర్నిర్మించాలి.
దశ 6:
మేము ప్రాజెక్ట్ను విజయవంతంగా అమలు చేసిన తర్వాత, పూర్తి విస్తరణ కోసం అవుట్పుట్ను పంచుకుంటాము.
డేటా సైంటిస్ట్గా ఉండటం కంటే సులభం. కాబట్టి, మీరు డేటా సైంటిస్ట్ కావడానికి ఏమి కావాలో చూద్దాం.డేటా సైంటిస్ట్కు ప్రాథమికంగా నైపుణ్యాలు అవసరంక్రింద చూపిన విధంగా మూడు ప్రధాన ప్రాంతాల నుండి.
పై చిత్రంలో మీరు చూడగలిగినట్లుగా, మీరు వివిధ హార్డ్ నైపుణ్యాలు మరియు మృదువైన నైపుణ్యాలను పొందాలి. మీరు మంచిగా ఉండాలి గణాంకాలు మరియు గణితం డేటాను విశ్లేషించడానికి మరియు దృశ్యమానం చేయడానికి. చెప్పనవసరం లేదు, యంత్ర అభ్యాస డేటా సైన్స్ యొక్క హృదయాన్ని ఏర్పరుస్తుంది మరియు మీరు మంచిగా ఉండాలని కోరుకుంటారు. అలాగే, మీరు దాని గురించి దృ understanding మైన అవగాహన కలిగి ఉండాలి డొమైన్ మీరు వ్యాపార సమస్యలను స్పష్టంగా అర్థం చేసుకోవడానికి పని చేస్తున్నారు. మీ పని ఇక్కడ ముగియదు. మీరు మంచి అవసరమైన వివిధ అల్గోరిథంలను అమలు చేయగల సామర్థ్యాన్ని కలిగి ఉండాలి కోడింగ్ నైపుణ్యాలు. చివరగా, మీరు కొన్ని కీలక నిర్ణయాలు తీసుకున్న తర్వాత, వాటిని వాటాదారులకు అందజేయడం మీకు ముఖ్యం. చాల బాగుంది కమ్యూనికేషన్ ఖచ్చితంగా మీ నైపుణ్యాలకు సంబరం పాయింట్లను జోడిస్తుంది.
డేటా సైన్స్ అంటే ఏమిటి మరియు మేము బ్లాగులో చర్చించినవన్నీ వివరించే ఈ డేటా సైన్స్ వీడియో ట్యుటోరియల్ చూడాలని నేను మిమ్మల్ని కోరుతున్నాను. ముందుకు సాగండి, వీడియోను ఆస్వాదించండి మరియు మీరు ఏమనుకుంటున్నారో నాకు చెప్పండి.
డేటా సైన్స్ అంటే ఏమిటి? డేటా సైన్స్ కోర్సు - బిగినర్స్ కోసం డేటా సైన్స్ ట్యుటోరియల్ | ఎడురేకా
ఈ ఎడురేకా డేటా సైన్స్ కోర్సు వీడియో డేటా సైన్స్ అవసరం, డేటా సైన్స్ అంటే ఏమిటి, వ్యాపారం కోసం డేటా సైన్స్ యూజ్ కేసులు, బిఐ వర్సెస్ డేటా సైన్స్, డేటా అనలిటిక్స్ టూల్స్, డేటా సైన్స్ లైఫ్సైకిల్తో పాటు డెమో.
చివరికి, భవిష్యత్తు డేటా సైంటిస్టులకు చెందినదని చెప్పడం తప్పు కాదు. 2018 సంవత్సరం చివరి నాటికి సుమారు పది లక్షల మంది డేటా సైంటిస్టుల అవసరం ఉంటుందని అంచనా. కీలకమైన వ్యాపార నిర్ణయాలు తీసుకునే అవకాశాలను మరింత ఎక్కువ డేటా అందిస్తుంది. మన చుట్టూ ఉన్న డేటాతో మునిగిపోయిన ప్రపంచాన్ని చూసే విధానాన్ని ఇది త్వరలో మార్చబోతోంది. అందువల్ల, డేటా సైంటిస్ట్ అత్యంత నైపుణ్యం మరియు చాలా క్లిష్టమైన సమస్యలను పరిష్కరించడానికి ప్రేరేపించబడాలి.
మీరు నా బ్లాగు చదవడం ఆనందించారని మరియు డేటా సైన్స్ అంటే ఏమిటో అర్థం చేసుకున్నారని ఆశిస్తున్నాను.మా చూడండి ఇక్కడ, ఇది బోధకుడు నేతృత్వంలోని ప్రత్యక్ష శిక్షణ మరియు నిజ జీవిత ప్రాజెక్ట్ అనుభవంతో వస్తుంది.