పెద్ద డేటాను క్రంచ్ చేయడానికి అవసరమైన హడూప్ సాధనాలు



హడూప్ ఈ రోజు ఐటి ప్రపంచంలో బజ్ పదం, మరియు ఈ పోస్ట్ బిగ్ డేటాను క్రంచ్ చేసే ముఖ్యమైన హడూప్ సాధనాలను వివరిస్తుంది.

నేడు, ఐటి ప్రపంచంలో అత్యంత ప్రాచుర్యం పొందిన పదం ‘హడూప్’. తక్కువ వ్యవధిలో, హడూప్ భారీగా పెరిగింది మరియు విభిన్న ప్రాజెక్టుల యొక్క పెద్ద సేకరణకు ఉపయోగకరంగా ఉందని నిరూపించబడింది. హడూప్ సంఘం వేగంగా అభివృద్ధి చెందుతోంది మరియు దాని పర్యావరణ వ్యవస్థలో ప్రముఖ పాత్రను కలిగి ఉంది.





బిగ్ డేటాను నిర్వహించడానికి ఉపయోగించే అవసరమైన హడూప్ సాధనాలను ఇక్కడ చూడండి.

జావాలో పోజో క్లాస్ అంటే ఏమిటి

ambari



అంబారీ హోర్టన్వర్క్స్ చేత మద్దతు ఇవ్వబడిన అపాచీ ప్రాజెక్ట్. ఇది చాలా ప్రామాణిక భాగాలతో క్లస్టర్‌లను ఏర్పాటు చేయడానికి విజార్డ్ స్క్రిప్ట్‌లతో వెబ్ ఆధారిత GUI (గ్రాఫికల్ యూజర్ ఇంటర్ఫేస్) ను అందిస్తుంది. హడూప్ ఉద్యోగాల యొక్క అన్ని సమూహాలను అంబారీ నిబంధనలు, నిర్వహిస్తుంది మరియు పర్యవేక్షిస్తుంది.

hdfs-logo

ది HDFS , అపాచీ లైసెన్స్ క్రింద పంపిణీ చేయబడినది, బహుళ నోడ్‌ల మధ్య డేటా సేకరణలను విభజించడానికి ఒక ప్రాథమిక ఫ్రేమ్‌వర్క్‌ను అందిస్తుంది. HDFS లో, పెద్ద ఫైళ్ళు బ్లాక్‌లుగా విభజించబడ్డాయి, ఇక్కడ అనేక నోడ్‌లు ఒక ఫైల్ నుండి అన్ని బ్లాక్‌లను కలిగి ఉంటాయి. అధిక నిర్గమాంశంతో తప్పు సహనాన్ని కలిపే విధంగా ఫైల్ సిస్టమ్ రూపొందించబడింది. స్థిరమైన స్ట్రీమింగ్‌ను నిర్వహించడానికి HDFS యొక్క బ్లాక్‌లు లోడ్ చేయబడతాయి. జాప్యాన్ని తగ్గించడానికి అవి సాధారణంగా కాష్ చేయబడవు.



hbaselogo

HBase ఇది కాలమ్-ఆధారిత డేటాబేస్ నిర్వహణ వ్యవస్థ, ఇది HDFS పైన నడుస్తుంది. మ్యాప్‌రెడ్యూస్ అప్లికేషన్ మాదిరిగానే జాబాలో హెచ్‌బేస్ అనువర్తనాలు వ్రాయబడ్డాయి. ఇది పట్టికల సమితిని కలిగి ఉంటుంది, ఇక్కడ ప్రతి పట్టికలో సాంప్రదాయ డేటాబేస్ వంటి వరుసలు మరియు నిలువు వరుసలు ఉంటాయి. డేటా పెద్ద పట్టికలో పడిపోయినప్పుడు, HBase డేటాను నిల్వ చేస్తుంది, దానిని శోధించి, బహుళ నోడ్‌లలో పట్టికను స్వయంచాలకంగా పంచుకుంటుంది, తద్వారా మ్యాప్‌రెడ్యూస్ ఉద్యోగాలు స్థానికంగా దీన్ని అమలు చేయగలవు. కొన్ని స్థానిక మార్పులకు HBase పరిమిత హామీని అందిస్తుంది. ఒకే వరుసలో జరిగే మార్పులు ఒకే సమయంలో విజయవంతం కావచ్చు లేదా విఫలం కావచ్చు.

hive

మీరు ఇప్పటికే SQL తో నిష్ణాతులు అయితే, మీరు హడూప్ ఉపయోగించి పరపతి పొందవచ్చు అందులో నివశించే తేనెటీగలు . ఫేస్‌బుక్‌లో కొంతమంది హైవ్‌ను అభివృద్ధి చేశారు. అపాచీ హైవ్ HBase లోని అన్ని ఫైళ్ళ నుండి బిట్లను సేకరించే విధానాన్ని నియంత్రిస్తుంది. ఇది హడూప్ యొక్క HDFS మరియు అనుకూల ఫైల్ సిస్టమ్స్‌లో నిల్వ చేయబడిన పెద్ద డేటాసెట్ల విశ్లేషణకు మద్దతు ఇస్తుంది. ఇది HSQL (HiveSQL) అని పిలువబడే SQL వంటి భాషను కూడా అందిస్తుంది, అది ఫైళ్ళలోకి ప్రవేశిస్తుంది మరియు కోడ్ కోసం అవసరమైన స్నిప్పెట్లను సంగ్రహిస్తుంది.

sqoop

అపాచీ స్కూప్ సాంప్రదాయ డేటాబేస్ల నుండి బల్క్ డేటాను సమర్థవంతంగా హైవ్ లేదా హెచ్‌బేస్‌లోకి బదిలీ చేయడానికి ప్రత్యేకంగా రూపొందించబడింది. హడూప్ నుండి డేటాను సంగ్రహించడానికి మరియు రిలేషనల్ డేటాబేస్ మరియు ఎంటర్ప్రైజ్ డేటా గిడ్డంగులు వంటి బాహ్య నిర్మాణాత్మక డేటా-స్టోర్లకు ఎగుమతి చేయడానికి కూడా దీనిని ఉపయోగించవచ్చు. Sqoop అనేది కమాండ్ లైన్ సాధనం, పట్టికలు మరియు డేటా నిల్వ పొర మధ్య మ్యాపింగ్, పట్టికలను HDFS, HBase లేదా అందులో నివశించే తేనెటీగలు యొక్క కాన్ఫిగర్ కలయికగా అనువదిస్తుంది.

Pig1

నిల్వ చేసిన డేటా హడూప్‌కు కనిపించినప్పుడు, అపాచీ పిగ్ డేటాలోకి ప్రవేశించి, పిగ్ లాటిన్ అని పిలువబడే దాని స్వంత భాషలో వ్రాయబడిన కోడ్‌ను నడుపుతుంది. డేటాను నిర్వహించడానికి పిగ్ లాటిన్ సంగ్రహణలతో నిండి ఉంటుంది. డేటా సగటు, తేదీలతో పనిచేయడం లేదా తీగలకు మధ్య తేడాలు కనుగొనడం వంటి సాధారణ పనుల కోసం పిగ్ ప్రామాణిక ఫంక్షన్లతో వస్తుంది. ప్రామాణిక విధులు తక్కువగా ఉన్నప్పుడు యుడిఎఫ్ (యూజర్ డిఫైన్డ్ ఫంక్షన్) అని పిలువబడే భాషలను స్వంతంగా రాయడానికి పిగ్ అనుమతిస్తుంది.

zookeper

జూకీపర్ ఒక కేంద్రీకృత సేవ, ఇది సమాచారాన్ని నిర్వహిస్తుంది, కాన్ఫిగర్ చేస్తుంది, పేరు ఇస్తుంది మరియు క్లస్టర్ అంతటా పంపిణీ చేయబడిన సమకాలీకరణను అందిస్తుంది. ఇది క్లస్టర్‌పై ఫైల్ సిస్టమ్ లాంటి సోపానక్రమం విధిస్తుంది మరియు యంత్రాల కోసం అన్ని మెటాడేటాను నిల్వ చేస్తుంది, కాబట్టి మేము వివిధ యంత్రాల పనిని సమకాలీకరించవచ్చు.

NoSQL

కొన్ని హడూప్ సమూహాలు కలిసిపోతాయి NoSQL నోడ్స్ సమూహంలో డేటాను నిల్వ చేయడానికి వారి స్వంత యంత్రాంగాలతో వచ్చే డేటా స్టోర్లు. ఇది NoSQL డేటాబేస్ యొక్క అన్ని లక్షణాలతో డేటాను నిల్వ చేయడానికి మరియు తిరిగి పొందటానికి వారిని అనుమతిస్తుంది, ఆ తర్వాత అదే క్లస్టర్‌లో డేటా విశ్లేషణ ఉద్యోగాలను షెడ్యూల్ చేయడానికి హడూప్ ఉపయోగించబడుతుంది.

mahoutlogo

మహౌట్ హడూప్ క్లస్టర్‌కు అధిక సంఖ్యలో అల్గోరిథంలు, వర్గీకరణలు మరియు డేటా విశ్లేషణ యొక్క ఫిల్టరింగ్‌ను అమలు చేయడానికి రూపొందించబడింది. K- అంటే, Dirichelet, సమాంతర నమూనా మరియు బయేసియన్ వర్గీకరణలు వంటి అనేక ప్రామాణిక అల్గోరిథంలు హడూప్ స్టైల్ మ్యాప్‌తో డేటాను అమలు చేయడానికి మరియు తగ్గించడానికి సిద్ధంగా ఉన్నాయి.

లూసిన్, జావాలో వ్రాయబడింది మరియు హడూప్‌తో సులభంగా విలీనం చేయబడింది, ఇది హడూప్‌కు సహజ సహచరుడు. ఇది నిర్మాణాత్మక టెక్స్ట్ యొక్క పెద్ద బ్లాకులను ఇండెక్స్ చేయడానికి ఉద్దేశించిన సాధనం. లూసిన్ ఇండెక్సింగ్‌ను నిర్వహిస్తుంది, హడూప్ క్లస్టర్ అంతటా పంపిణీ చేసిన ప్రశ్నలను నిర్వహిస్తుంది. కొత్త ప్రాజెక్టులు అభివృద్ధి చేయబడుతున్నందున లూసిన్-హడూప్ లక్షణాలు వేగంగా అభివృద్ధి చెందుతున్నాయి.

Avro

యూరో ఒక సీరియలైజేషన్ సిస్టమ్, ఇది డేటాను అర్థం చేసుకోవడానికి ఒక స్కీమాతో కలిసి ఉంటుంది. ప్రతి ప్యాకెట్ JSON డేటా నిర్మాణంతో వస్తుంది. డేటాను ఎలా అన్వయించవచ్చో JSON వివరిస్తుంది. JSON యొక్క శీర్షిక డేటా కోసం నిర్మాణాన్ని నిర్దేశిస్తుంది, ఇక్కడ ఫీల్డ్‌లను గుర్తించడానికి డేటాలో అదనపు ట్యాగ్‌లను వ్రాయవలసిన అవసరాన్ని నివారించవచ్చు. XML వంటి సాంప్రదాయ ఫార్మాట్ల కంటే అవుట్పుట్ చాలా కాంపాక్ట్.

ఉద్యోగాన్ని దశలుగా విభజించడం ద్వారా సరళీకృతం చేయవచ్చు. బహుళ హడూప్ ఉద్యోగాలకు ప్రాజెక్ట్ను విచ్ఛిన్నం చేసినప్పుడు, ఓజీ వాటిని సరైన క్రమంలో ప్రాసెస్ చేయడం ప్రారంభిస్తుంది. ఇది DAG (డైరెక్టెడ్ ఎసిక్లిక్ గ్రాఫ్) పేర్కొన్న విధంగా వర్క్‌ఫ్లోను నిర్వహిస్తుంది మరియు సకాలంలో మానిటర్ అవసరం లేదు.

GIS సాధనాలు

హడూప్ నడుస్తున్న క్లస్టర్‌లకు భౌగోళిక పటాలతో పనిచేయడం పెద్ద పని. GIS ( భౌగోళిక సమాచార వ్యవస్థ ) హడూప్ ప్రాజెక్టుల కోసం సాధనాలు హడూప్‌తో అమలు చేయడానికి భౌగోళిక సమాచారాన్ని అర్థం చేసుకోవడానికి ఉత్తమ జావా-ఆధారిత సాధనాలను అనుసరించాయి. డేటాబేస్లు ఇప్పుడు కోఆర్డినేట్లను ఉపయోగించి భౌగోళిక ప్రశ్నలను నిర్వహించగలవు మరియు సంకేతాలు GIS సాధనాలను అమలు చేయగలవు.

మొత్తం డేటాను సేకరించడం దానిని నిల్వ చేయడానికి మరియు విశ్లేషించడానికి సమానం. అపాచీ ఫ్లూమ్ HDFS లో నిల్వ చేయబడే సమాచారాన్ని సేకరించడానికి ‘స్పెషల్ ఏజెంట్లను’ పంపుతుంది. సేకరించిన సమాచారం లాగ్ ఫైల్స్, ట్విట్టర్ API లేదా వెబ్‌సైట్ స్క్రాప్‌లు కావచ్చు. ఈ డేటాను బంధించి విశ్లేషణలకు లోబడి చేయవచ్చు.

Spark

స్పార్క్ మెమరీలో కాష్ చేసిన డేటాను ప్రాసెస్ చేసే హడూప్ లాగా చాలా తరువాతి తరం. సాధారణ అమలు నమూనాతో డేటా విశ్లేషణను వేగంగా అమలు చేయడం మరియు వ్రాయడం దీని లక్ష్యం. ఇది ఏకపక్ష ఆపరేటర్ గ్రాఫ్‌లను ఆప్టిమైజ్ చేయగలదు మరియు ఇన్-మెమరీ కంప్యూటింగ్‌కు మద్దతు ఇస్తుంది, ఇది హడూప్ వంటి డిస్క్-ఆధారిత ఇంజిన్‌ల కంటే వేగంగా డేటాను ప్రశ్నించడానికి అనుమతిస్తుంది.

హడూప్‌లో SQL

క్లస్టర్‌లోని అన్ని డేటా యొక్క శీఘ్ర తాత్కాలిక ప్రశ్నను అమలు చేయాల్సిన అవసరం వచ్చినప్పుడు, క్రొత్త హడూప్ ఉద్యోగం వ్రాయబడుతుంది, అయితే దీనికి కొంత సమయం పడుతుంది. ప్రోగ్రామర్లు దీన్ని తరచుగా చేయడం ప్రారంభించినప్పుడు, వారు SQL యొక్క సాధారణ భాషలో వ్రాసిన సాధనాలతో ముందుకు వచ్చారు. ఈ సాధనాలు ఫలితాలకు శీఘ్ర ప్రాప్యతను అందిస్తాయి.

అపాచీ డ్రిల్

అపాచీ డ్రిల్ సమూహ డేటాతో సహా అనేక మరియు వైవిధ్యమైన డేటా వనరులకు తక్కువ జాప్యం తాత్కాలిక ప్రశ్నలను అందిస్తుంది. గూగుల్ యొక్క డ్రేమెల్ నుండి ప్రేరణ పొందిన డ్రిల్, 10,000 సర్వర్లకు స్కేల్ చేయడానికి మరియు సెకన్లలో పెటాబైట్ల డేటాను ప్రశ్నించడానికి రూపొందించబడింది.

బిగ్ డేటాను క్రంచ్ చేయడానికి అవసరమైన హడూప్ సాధనాలు ఇవి!

మాకు ప్రశ్న ఉందా? దయచేసి వాటిని వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.

సంబంధిత పోస్ట్లు:

హడూప్ 2.0 నేర్చుకోవడానికి ఆచరణాత్మక కారణాలు