ఇటీవలి కాలంలో హడూప్ యొక్క ప్రజాదరణ ఆకాశానికి ఎగబాకినందుకు ఒక పెద్ద కారణం ఏమిటంటే, పిగ్ మరియు హైవ్ వంటి లక్షణాలు దాని పైన నడుస్తాయి, గతంలో జావా ప్రోగ్రామర్లకు ప్రత్యేకమైన కార్యాచరణతో ప్రోగ్రామర్లు కానివారిని అనుమతిస్తుంది. ఈ లక్షణాలు హడూప్ నిపుణుల కోసం పెరుగుతున్న డిమాండ్ యొక్క పరిణామం. జావాయేతర నేపథ్యాల నుండి హడూప్ నిపుణులు ఉపయోగించే ఇతర లక్షణాలు ఫ్లూమ్, స్కూప్, హెచ్బేస్ మరియు ఓజీ.
హడూప్ నేర్చుకోవడానికి మీకు జావా ఎందుకు అవసరం లేదని అర్థం చేసుకోవడానికి, తనిఖీ చేయండి ఈ బ్లాగ్ .
ఈ లక్షణాలు ఎలా పని చేస్తాయో అర్థం చేసుకుందాం.
మ్యాప్రెడ్యూస్ కోడ్లను రాయడానికి ప్రోగ్రామింగ్ పరిజ్ఞానం తప్పనిసరి అని మనందరికీ తెలుసు. నేను కోడింగ్ చేయగలిగే సాధనం ఉంటే నేను వివరాలను ఇస్తే? అక్కడే పిగ్ తన కండరాల శక్తిని ప్రదర్శిస్తుంది. పిగ్ పిగ్ లాటిన్ అనే ప్లాట్ఫామ్ను ఉపయోగిస్తుంది, ఇది జావా మ్యాప్రెడ్యూస్ ఇడియమ్ నుండి ప్రోగ్రామింగ్ను సంజ్ఞామానంగా మారుస్తుంది, ఇది ఆర్డిబిఎంఎస్ సిస్టమ్స్ కోసం SQL మాదిరిగానే మ్యాప్రెడ్యూస్ ప్రోగ్రామింగ్ను ఉన్నత స్థాయికి చేస్తుంది. పిగ్ లాటిన్ మ్యాప్రెడ్యూస్లో వ్రాసిన సంకేతాలు స్వయంచాలకంగా సమానమైన మ్యాప్రెడ్యూస్ ఫంక్షన్లుగా మార్చబడతాయి. ఇది అద్భుతం కాదా? మరో మైండ్ బ్లోయింగ్ వాస్తవం ఏమిటంటే, 200 లైన్స్ జావా స్థానంలో 10 లైన్స్ పిగ్ మాత్రమే అవసరం.
పిగ్ యొక్క 10 పంక్తులు = జావా యొక్క 200 పంక్తులు
ఇది జావాయేతర నిపుణులు హడూప్ను ఉపయోగించడమే కాక, పిగ్ను సమాన సంఖ్యలో సాంకేతిక డెవలపర్లు ఉపయోగిస్తున్నారనే వాస్తవాన్ని కూడా రుజువు చేస్తుంది.
అదనంగా, మీరు మీ స్వంత మ్యాప్రెడ్యూస్ కోడ్ను రాయాలనుకుంటే, మీరు పెర్ల్, పైథాన్, రూబీ లేదా సి వంటి భాషలలో ఏదైనా చేయవచ్చు. పిగ్ ఉపయోగించి ఏదైనా డేటాసెట్లో మేము చేయగలిగే కొన్ని ప్రాథమిక కార్యకలాపాలు గ్రూప్, జాయిన్, ఫిల్టర్ మరియు సార్టింగ్ . ఈ కార్యకలాపాలు నిర్మాణాత్మక, అన్-స్ట్రక్చర్డ్ మరియు సెమీ స్ట్రక్చర్డ్ డేటాపై చేయవచ్చు. వారు చాలా పెద్ద డేటా సెట్లలో మ్యాప్రెడ్యూస్ ఉద్యోగాలను సృష్టించడానికి మరియు అమలు చేయడానికి ఒక తాత్కాలిక మార్గాన్ని అందిస్తారు.
తరువాత, అందులో నివశించే తేనెటీగలు అర్థం చేసుకుందాం. ఇది డేటా సమ్మరైజేషన్, ప్రశ్న మరియు విశ్లేషణ కోసం హడూప్ ఆధారంగా ఓపెన్ సోర్స్, పెటా-బైట్ స్కేల్ డేటా వేర్హౌసింగ్ ఫ్రేమ్వర్క్. హడూప్ కోసం అందులో నివశించే తేనెటీగలు SQL లాంటి ఇంటర్ఫేస్ను అందిస్తుంది. హడూప్లో ఫైళ్ళను చదవడానికి మరియు వ్రాయడానికి మీరు హైవ్ను ఉపయోగించవచ్చు మరియు మీ నివేదికలను BI సాధనం నుండి అమలు చేయవచ్చు. హడూప్ యొక్క కొన్ని విలక్షణ కార్యాచరణ:
క్లిక్ స్ట్రీమ్ డేటా సెట్లో పిగ్ ఉపయోగించి డెమో మీకు చూపిస్తాను
మేము ఈ క్లిక్స్ట్రీమ్ డేటాను ఉపయోగిస్తాము మరియు పరివర్తనాలు, చేరడం మరియు సమూహాలను చేస్తాము.
క్లిక్స్ట్రీమ్ అనేది ఇంటర్నెట్ను యాక్సెస్ చేసేటప్పుడు వినియోగదారు చేసిన మౌస్ క్లిక్ల శ్రేణి, ముఖ్యంగా మార్కెటింగ్ ప్రయోజనాల కోసం ఒక వ్యక్తి యొక్క ఆసక్తులను అంచనా వేయడానికి పర్యవేక్షిస్తుంది. సిఫారసులను రూపొందించడానికి మీ కార్యకలాపాలను ట్రాక్ చేసే ఫ్లిప్కార్ట్ మరియు అమెజాన్ వంటి ఆన్లైన్ రిటైల్ వెబ్సైట్లు దీనిని ప్రధానంగా ఉపయోగిస్తాయి. మేము ఉపయోగించిన క్లిక్ స్ట్రీమ్ డేటా సెట్ కింది ఫీల్డ్లను కలిగి ఉంది:
1. వెబ్ అప్లికేషన్ మద్దతు ఉన్న భాష రకం
2. బ్రౌజర్ రకం
జావాస్క్రిప్ట్లో హెచ్చరిక ఏమిటి
3. కనెక్షన్ రకం
4. దేశం ఐడి
5. టైమ్ స్టాంప్
సెలీనియంలో స్క్రీన్ షాట్ ఎలా తీసుకోవాలి
6. URL
7. వినియోగదారు స్థితి
8. వినియోగదారు రకం
తగిన ఫీల్డ్లతో ఇది ఇలా కనిపిస్తుంది.
ఒక నిర్దిష్ట వెబ్సైట్లో సర్ఫింగ్ చేసేటప్పుడు వివిధ వ్యక్తులు ఉపయోగించిన బ్రౌజర్ రకాల జాబితా క్రింద ఉంది. ఈ జాబితాలో ఇంటర్నెట్ ఎక్స్ప్లోరర్, గూగుల్ క్రోమ్, లింక్స్ వంటి బ్రౌజర్లు ఉన్నాయి.
ఇంటర్నెట్ కనెక్షన్ రకం లాన్ / మోడెమ్ / వైఫై కావచ్చు. పూర్తి జాబితా కోసం క్రింది చిత్రాన్ని చూడండి:
తదుపరి చిత్రంలో, వెబ్సైట్ వారి ఐడిలతో పాటు ప్రేక్షకులను ఆకర్షించిన దేశాల జాబితాను మీరు కనుగొంటారు.
మేము అన్ని డేటా సెట్లను సేకరించిన తర్వాత, పిగ్ ఆదేశాలను అమలు చేయడానికి ప్రారంభించిన పిగ్ యొక్క గుసగుసలాడే షెల్ను ప్రారంభించాలి.
గ్రంట్ షెల్ ప్రారంభించడంలో మనం చేయవలసిన మొదటి విషయం ఏమిటంటే, క్లిక్ స్ట్రీమ్ డేటాను పిగ్ యొక్క సంబంధంలోకి లోడ్ చేయడం. సంబంధం అనేది పట్టిక తప్ప మరొకటి కాదు. HDFS లో నివసించే ఫైల్ను పిగ్ యొక్క సంబంధంలోకి లోడ్ చేయడానికి మేము ఉపయోగించే ఆదేశం క్రింద ఉంది.
క్లిక్_ స్ట్రీమ్ వివరించే ఆదేశం ద్వారా మేము రిలేషన్ యొక్క స్కీమాను ధృవీకరించవచ్చు.
మేము ఇప్పుడు వారి ఐడిలతో ఉన్న దేశాల జాబితా మరియు వారి ఐడిలతో పాటు వివిధ బ్రౌజర్ రకాలను గురించి వివరాలను కలిగి ఉన్న రిఫరెన్స్ ఫైళ్ళను జోడించాలి.
మాకు ఇప్పుడు రెండు రిఫరెన్స్ ఫైల్స్ ఉన్నాయి, కానీ అవి రిలేషన్ ఏర్పడటానికి కనెక్ట్ కావాలి.
కనెక్షన్ రకాన్ని సూచించడానికి మేము కనెక్షన్_రెఫ్ ఆదేశాన్ని అమలు చేస్తాము.
శ్రేణి జావాలో అతిపెద్ద సంఖ్యను కనుగొనండి
ఇప్పుడు మాకు పని కనెక్షన్ మరియు స్థిర సంబంధం ఉంది, మేము ఆ డేటాను ఎలా మార్చగలమో మీకు చూపుతాము.
క్లిక్స్ట్రీమ్లోని ప్రతి రికార్డ్ కోసం, మేము వేరే రికార్డ్లో క్రొత్త రికార్డ్ను రూపొందిస్తాము, అనగా రూపాంతరం చెందిన డేటా. కొత్త ఫార్మాట్లో టైమ్స్టాంప్, బ్రౌజర్ రకం, కంట్రీ ఐడిలు మరియు మరికొన్ని ఫీల్డ్లు ఉంటాయి.
బిగ్ డేటాను తగ్గించడానికి మేము ఫిల్టర్ ఆపరేషన్ చేయవచ్చు. వివిధ రకాల వినియోగదారులు నిర్వాహకులు, అతిథులు లేదా బాట్లు. మా డెమోలో, నేను అతిథుల కోసం జాబితాను ఫిల్టర్ చేసాను.
మీకు గుర్తుంటే, కంట్రీ ఐడి క్లిక్ స్ట్రీమ్లో ఉంది మరియు మేము దాని ఐడిలతో పాటు దేశాల పేర్లతో కూడిన కంట్రీ_రేఫ్ ఫైల్ను లోడ్ చేసాము. ఈ విధంగా మేము రెండు ఫైళ్ళ మధ్య జాయిన్ ఆపరేషన్ చేయవచ్చు మరియు అంతర్దృష్టులను పొందటానికి డేటాను విలీనం చేయవచ్చు.
మేము డేటాలో చేరినట్లయితే, అప్పుడు గ్రూపింగ్ ద్వారా వినియోగదారులు ఉన్న వివిధ దేశాలను తెలుసుకోవచ్చు. మేము ఈ డేటాను కలిగి ఉన్న తర్వాత, ఒక నిర్దిష్ట దేశం నుండి వినియోగదారుల సంఖ్యను గుర్తించడానికి మేము కౌంట్ ఆపరేషన్ చేయవచ్చు.
బిగ్ డేటా నుండి అంతర్దృష్టులను పొందడం రాకెట్ శాస్త్రం కాదు. ఇవి నేను అమలు చేసిన అనేక లక్షణాలలో కొన్ని మరియు హైవ్, హెబేస్, ఓజీ, స్కూప్ మరియు ఫ్లూమ్ వంటి సాధనాలతో ఇంకా అన్వేషించాల్సిన డేటా నిధి ఉంది. కాబట్టి హడూప్ నేర్చుకోకుండా మిమ్మల్ని మీరు వెనక్కి నెట్టివేసేవారు, ఇది మారే సమయం.
మాకు ప్రశ్న ఉందా? దయచేసి వాటిని వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.
సంబంధిత పోస్ట్లు: