పిగ్ లోకి డీప్ డైవ్



ఈ బ్లాగ్ పోస్ట్ పిగ్ మరియు దాని ఫంక్షన్లలో లోతైన డైవ్. జావాపై ఆధారపడకుండా పిగ్‌ను ఉపయోగించి మీరు హడూప్‌లో ఎలా పని చేయవచ్చో డెమో మీకు కనిపిస్తుంది.

ఇటీవలి కాలంలో హడూప్ యొక్క ప్రజాదరణ ఆకాశానికి ఎగబాకినందుకు ఒక పెద్ద కారణం ఏమిటంటే, పిగ్ మరియు హైవ్ వంటి లక్షణాలు దాని పైన నడుస్తాయి, గతంలో జావా ప్రోగ్రామర్‌లకు ప్రత్యేకమైన కార్యాచరణతో ప్రోగ్రామర్‌లు కానివారిని అనుమతిస్తుంది. ఈ లక్షణాలు హడూప్ నిపుణుల కోసం పెరుగుతున్న డిమాండ్ యొక్క పరిణామం. జావాయేతర నేపథ్యాల నుండి హడూప్ నిపుణులు ఉపయోగించే ఇతర లక్షణాలు ఫ్లూమ్, స్కూప్, హెచ్‌బేస్ మరియు ఓజీ.





హడూప్ నేర్చుకోవడానికి మీకు జావా ఎందుకు అవసరం లేదని అర్థం చేసుకోవడానికి, తనిఖీ చేయండి ఈ బ్లాగ్ .

1 పిగ్ చరిత్ర



ఈ లక్షణాలు ఎలా పని చేస్తాయో అర్థం చేసుకుందాం.

మ్యాప్‌రెడ్యూస్ కోడ్‌లను రాయడానికి ప్రోగ్రామింగ్ పరిజ్ఞానం తప్పనిసరి అని మనందరికీ తెలుసు. నేను కోడింగ్ చేయగలిగే సాధనం ఉంటే నేను వివరాలను ఇస్తే? అక్కడే పిగ్ తన కండరాల శక్తిని ప్రదర్శిస్తుంది. పిగ్ పిగ్ లాటిన్ అనే ప్లాట్‌ఫామ్‌ను ఉపయోగిస్తుంది, ఇది జావా మ్యాప్‌రెడ్యూస్ ఇడియమ్ నుండి ప్రోగ్రామింగ్‌ను సంజ్ఞామానంగా మారుస్తుంది, ఇది ఆర్‌డిబిఎంఎస్ సిస్టమ్స్ కోసం SQL మాదిరిగానే మ్యాప్‌రెడ్యూస్ ప్రోగ్రామింగ్‌ను ఉన్నత స్థాయికి చేస్తుంది. పిగ్ లాటిన్ మ్యాప్‌రెడ్యూస్‌లో వ్రాసిన సంకేతాలు స్వయంచాలకంగా సమానమైన మ్యాప్‌రెడ్యూస్ ఫంక్షన్‌లుగా మార్చబడతాయి. ఇది అద్భుతం కాదా? మరో మైండ్ బ్లోయింగ్ వాస్తవం ఏమిటంటే, 200 లైన్స్ జావా స్థానంలో 10 లైన్స్ పిగ్ మాత్రమే అవసరం.



పిగ్ యొక్క 10 పంక్తులు = జావా యొక్క 200 పంక్తులు

ఇది జావాయేతర నిపుణులు హడూప్‌ను ఉపయోగించడమే కాక, పిగ్‌ను సమాన సంఖ్యలో సాంకేతిక డెవలపర్‌లు ఉపయోగిస్తున్నారనే వాస్తవాన్ని కూడా రుజువు చేస్తుంది.

అదనంగా, మీరు మీ స్వంత మ్యాప్‌రెడ్యూస్ కోడ్‌ను రాయాలనుకుంటే, మీరు పెర్ల్, పైథాన్, రూబీ లేదా సి వంటి భాషలలో ఏదైనా చేయవచ్చు. పిగ్ ఉపయోగించి ఏదైనా డేటాసెట్‌లో మేము చేయగలిగే కొన్ని ప్రాథమిక కార్యకలాపాలు గ్రూప్, జాయిన్, ఫిల్టర్ మరియు సార్టింగ్ . ఈ కార్యకలాపాలు నిర్మాణాత్మక, అన్-స్ట్రక్చర్డ్ మరియు సెమీ స్ట్రక్చర్డ్ డేటాపై చేయవచ్చు. వారు చాలా పెద్ద డేటా సెట్లలో మ్యాప్‌రెడ్యూస్ ఉద్యోగాలను సృష్టించడానికి మరియు అమలు చేయడానికి ఒక తాత్కాలిక మార్గాన్ని అందిస్తారు.

తరువాత, అందులో నివశించే తేనెటీగలు అర్థం చేసుకుందాం. ఇది డేటా సమ్మరైజేషన్, ప్రశ్న మరియు విశ్లేషణ కోసం హడూప్ ఆధారంగా ఓపెన్ సోర్స్, పెటా-బైట్ స్కేల్ డేటా వేర్‌హౌసింగ్ ఫ్రేమ్‌వర్క్. హడూప్ కోసం అందులో నివశించే తేనెటీగలు SQL లాంటి ఇంటర్‌ఫేస్‌ను అందిస్తుంది. హడూప్‌లో ఫైళ్ళను చదవడానికి మరియు వ్రాయడానికి మీరు హైవ్‌ను ఉపయోగించవచ్చు మరియు మీ నివేదికలను BI సాధనం నుండి అమలు చేయవచ్చు. హడూప్ యొక్క కొన్ని విలక్షణ కార్యాచరణ:

క్లిక్ స్ట్రీమ్ డేటా సెట్లో పిగ్ ఉపయోగించి డెమో మీకు చూపిస్తాను
మేము ఈ క్లిక్‌స్ట్రీమ్ డేటాను ఉపయోగిస్తాము మరియు పరివర్తనాలు, చేరడం మరియు సమూహాలను చేస్తాము.

క్లిక్‌స్ట్రీమ్ అనేది ఇంటర్నెట్‌ను యాక్సెస్ చేసేటప్పుడు వినియోగదారు చేసిన మౌస్ క్లిక్‌ల శ్రేణి, ముఖ్యంగా మార్కెటింగ్ ప్రయోజనాల కోసం ఒక వ్యక్తి యొక్క ఆసక్తులను అంచనా వేయడానికి పర్యవేక్షిస్తుంది. సిఫారసులను రూపొందించడానికి మీ కార్యకలాపాలను ట్రాక్ చేసే ఫ్లిప్‌కార్ట్ మరియు అమెజాన్ వంటి ఆన్‌లైన్ రిటైల్ వెబ్‌సైట్‌లు దీనిని ప్రధానంగా ఉపయోగిస్తాయి. మేము ఉపయోగించిన క్లిక్ స్ట్రీమ్ డేటా సెట్ కింది ఫీల్డ్లను కలిగి ఉంది:

1. వెబ్ అప్లికేషన్ మద్దతు ఉన్న భాష రకం

2. బ్రౌజర్ రకం

జావాస్క్రిప్ట్లో హెచ్చరిక ఏమిటి

3. కనెక్షన్ రకం

4. దేశం ఐడి

5. టైమ్ స్టాంప్

సెలీనియంలో స్క్రీన్ షాట్ ఎలా తీసుకోవాలి

6. URL

7. వినియోగదారు స్థితి

8. వినియోగదారు రకం

తగిన ఫీల్డ్‌లతో ఇది ఇలా కనిపిస్తుంది.

ఒక నిర్దిష్ట వెబ్‌సైట్‌లో సర్ఫింగ్ చేసేటప్పుడు వివిధ వ్యక్తులు ఉపయోగించిన బ్రౌజర్ రకాల జాబితా క్రింద ఉంది. ఈ జాబితాలో ఇంటర్నెట్ ఎక్స్‌ప్లోరర్, గూగుల్ క్రోమ్, లింక్స్ వంటి బ్రౌజర్‌లు ఉన్నాయి.

ఇంటర్నెట్ కనెక్షన్ రకం లాన్ / మోడెమ్ / వైఫై కావచ్చు. పూర్తి జాబితా కోసం క్రింది చిత్రాన్ని చూడండి:

తదుపరి చిత్రంలో, వెబ్‌సైట్ వారి ఐడిలతో పాటు ప్రేక్షకులను ఆకర్షించిన దేశాల జాబితాను మీరు కనుగొంటారు.

మేము అన్ని డేటా సెట్‌లను సేకరించిన తర్వాత, పిగ్ ఆదేశాలను అమలు చేయడానికి ప్రారంభించిన పిగ్ యొక్క గుసగుసలాడే షెల్‌ను ప్రారంభించాలి.

గ్రంట్ షెల్ ప్రారంభించడంలో మనం చేయవలసిన మొదటి విషయం ఏమిటంటే, క్లిక్ స్ట్రీమ్ డేటాను పిగ్ యొక్క సంబంధంలోకి లోడ్ చేయడం. సంబంధం అనేది పట్టిక తప్ప మరొకటి కాదు. HDFS లో నివసించే ఫైల్‌ను పిగ్ యొక్క సంబంధంలోకి లోడ్ చేయడానికి మేము ఉపయోగించే ఆదేశం క్రింద ఉంది.

క్లిక్_ స్ట్రీమ్ వివరించే ఆదేశం ద్వారా మేము రిలేషన్ యొక్క స్కీమాను ధృవీకరించవచ్చు.

మేము ఇప్పుడు వారి ఐడిలతో ఉన్న దేశాల జాబితా మరియు వారి ఐడిలతో పాటు వివిధ బ్రౌజర్ రకాలను గురించి వివరాలను కలిగి ఉన్న రిఫరెన్స్ ఫైళ్ళను జోడించాలి.

మాకు ఇప్పుడు రెండు రిఫరెన్స్ ఫైల్స్ ఉన్నాయి, కానీ అవి రిలేషన్ ఏర్పడటానికి కనెక్ట్ కావాలి.
కనెక్షన్ రకాన్ని సూచించడానికి మేము కనెక్షన్_రెఫ్ ఆదేశాన్ని అమలు చేస్తాము.

శ్రేణి జావాలో అతిపెద్ద సంఖ్యను కనుగొనండి

ఇప్పుడు మాకు పని కనెక్షన్ మరియు స్థిర సంబంధం ఉంది, మేము ఆ డేటాను ఎలా మార్చగలమో మీకు చూపుతాము.
క్లిక్‌స్ట్రీమ్‌లోని ప్రతి రికార్డ్ కోసం, మేము వేరే రికార్డ్‌లో క్రొత్త రికార్డ్‌ను రూపొందిస్తాము, అనగా రూపాంతరం చెందిన డేటా. కొత్త ఫార్మాట్‌లో టైమ్‌స్టాంప్, బ్రౌజర్ రకం, కంట్రీ ఐడిలు మరియు మరికొన్ని ఫీల్డ్‌లు ఉంటాయి.

బిగ్ డేటాను తగ్గించడానికి మేము ఫిల్టర్ ఆపరేషన్ చేయవచ్చు. వివిధ రకాల వినియోగదారులు నిర్వాహకులు, అతిథులు లేదా బాట్లు. మా డెమోలో, నేను అతిథుల కోసం జాబితాను ఫిల్టర్ చేసాను.

మీకు గుర్తుంటే, కంట్రీ ఐడి క్లిక్ స్ట్రీమ్‌లో ఉంది మరియు మేము దాని ఐడిలతో పాటు దేశాల పేర్లతో కూడిన కంట్రీ_రేఫ్ ఫైల్‌ను లోడ్ చేసాము. ఈ విధంగా మేము రెండు ఫైళ్ళ మధ్య జాయిన్ ఆపరేషన్ చేయవచ్చు మరియు అంతర్దృష్టులను పొందటానికి డేటాను విలీనం చేయవచ్చు.

మేము డేటాలో చేరినట్లయితే, అప్పుడు గ్రూపింగ్ ద్వారా వినియోగదారులు ఉన్న వివిధ దేశాలను తెలుసుకోవచ్చు. మేము ఈ డేటాను కలిగి ఉన్న తర్వాత, ఒక నిర్దిష్ట దేశం నుండి వినియోగదారుల సంఖ్యను గుర్తించడానికి మేము కౌంట్ ఆపరేషన్ చేయవచ్చు.

బిగ్ డేటా నుండి అంతర్దృష్టులను పొందడం రాకెట్ శాస్త్రం కాదు. ఇవి నేను అమలు చేసిన అనేక లక్షణాలలో కొన్ని మరియు హైవ్, హెబేస్, ఓజీ, స్కూప్ మరియు ఫ్లూమ్ వంటి సాధనాలతో ఇంకా అన్వేషించాల్సిన డేటా నిధి ఉంది. కాబట్టి హడూప్ నేర్చుకోకుండా మిమ్మల్ని మీరు వెనక్కి నెట్టివేసేవారు, ఇది మారే సమయం.

మాకు ప్రశ్న ఉందా? దయచేసి వాటిని వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.

సంబంధిత పోస్ట్లు:

R మరియు హడూప్ కలిసి ఉపయోగించడానికి 4 మార్గాలు

అపాచీ హడూప్ కోసం క్లౌడెరా సర్టిఫైడ్ డెవలపర్ గురించి ప్రతిదీ