ఈ అపాచీ స్కూప్ ట్యుటోరియల్తో ప్రారంభించే ముందు, మనం ఒక అడుగు వెనక్కి తీసుకుందాం. మా మునుపటి బ్లాగులో మేము చర్చించినట్లుగా, డేటా తీసుకోవడం యొక్క ప్రాముఖ్యతను మీరు గుర్తు చేయగలరా? అపాచీ ఫ్లూమ్ . ఇప్పుడు, అపాచీ ఫ్లూమ్ అనేది నిర్మాణాత్మక మూలాల కోసం డేటా తీసుకునే సాధనం అని మనకు తెలుసు, కాని సంస్థలు వాటి కార్యాచరణ డేటాను రిలేషనల్ డేటాబేస్లలో నిల్వ చేస్తాయి. కాబట్టి, రిలేషనల్ డేటాబేస్ల నుండి డేటాను దిగుమతి మరియు ఎగుమతి చేయగల సాధనం అవసరం. ఈ కారణంగానే అపాచీ స్కూప్ జన్మించాడు. స్కూప్ హడూప్తో సులభంగా కలిసిపోవచ్చు మరియు హెచ్డిఎఫ్ఎస్లోని రిలేషనల్ డేటాబేస్ల నుండి నిర్మాణాత్మక డేటాను డంప్ చేయగలదు, హడూప్ యొక్క శక్తిని అభినందిస్తుంది. ఇందువల్లే, అపాచీ స్కూప్ మరియు ఫ్లూమ్ యొక్క మంచి జ్ఞానాన్ని తప్పనిసరి చేస్తుంది.
ప్రారంభంలో, స్కూప్ను క్లౌడెరా అభివృద్ధి చేసింది మరియు నిర్వహించింది. తరువాత, 23 జూలై 2011 న, దీనిని అపాచీ పొదిగించింది. ఏప్రిల్ 2012 లో, స్కూప్ ప్రాజెక్ట్ అపాచీ యొక్క ఉన్నత-స్థాయి ప్రాజెక్టుగా ప్రచారం చేయబడింది.
ఈ అపాచీ ఫ్లూమ్ ట్యుటోరియల్ బ్లాగులో, మేము కవర్ చేస్తాము:
- స్కూప్ పరిచయం
- ఎందుకు స్కూప్
- స్కూప్ ఫీచర్స్
- ఫ్లూమ్ vs స్కూప్
- స్కూప్ ఆర్కిటెక్చర్ & వర్కింగ్
- స్కూప్ ఆదేశాలు
అపాచీ స్కూప్ను పరిచయం చేయడం ద్వారా మేము ఈ అపాచీ స్కూప్ ట్యుటోరియల్ను ప్రారంభిస్తాము. అప్పుడు ముందుకు సాగితే, అపాచీ స్కూప్ ఉపయోగించడం వల్ల కలిగే ప్రయోజనాలను మేము అర్థం చేసుకుంటాము.
అపాచీ స్కూప్ ట్యుటోరియల్: స్కూప్ పరిచయం
సాధారణంగా, అనువర్తనాలు RDBMS ను ఉపయోగించి రిలేషనల్ డేటాబేస్తో సంకర్షణ చెందుతాయి మరియు అందువల్ల ఇది రిలేషనల్ డేటాబేస్లను బిగ్ డేటాను ఉత్పత్తి చేసే ముఖ్యమైన వనరులలో ఒకటిగా చేస్తుంది. ఇటువంటి డేటా రిలేషనల్ నిర్మాణంలో RDB సర్వర్లలో నిల్వ చేయబడుతుంది. ఇక్కడ, అపాచీ స్కూప్ ఒక ముఖ్యమైన పాత్ర పోషిస్తుంది , రిలేషనల్ డేటాబేస్ సర్వర్ మరియు HDFS మధ్య సాధ్యమయ్యే పరస్పర చర్యను అందిస్తుంది.
కాబట్టి, అపాచీ స్కూప్ ఒక సాధనం ఇది మధ్య డేటాను బదిలీ చేయడానికి రూపొందించబడింది HDFS (హడూప్ స్టోరేజ్) మరియు MySQL, ఒరాకిల్ RDB, SQLite, టెరాడాటా, నెట్జా, పోస్ట్గ్రెస్ వంటి రిలేషనల్ డేటాబేస్ సర్వర్లు. ఇది హడూప్ మరియు ఎంటర్ప్రైజ్ డేటా గిడ్డంగులు, రిలేషనల్ డేటాబేస్లు వంటి బాహ్య డేటా స్టోర్ల మధ్య బల్క్ డేటాను సమర్థవంతంగా బదిలీ చేస్తుంది.
ఈ విధంగా స్కూప్ పేరు వచ్చింది - “ SQ ఎల్ టు హాడ్ తెరిచి ఉంది & హడూప్ టు SQL ”.
అదనంగా, బాహ్య డేటాస్టోర్ల నుండి డేటాను హడూప్ పర్యావరణ వ్యవస్థ యొక్క సాధనాలలోకి దిగుమతి చేయడానికి స్క్వూప్ ఉపయోగించబడుతుంది అందులో నివశించే తేనెటీగలు & HBase .
ఇప్పుడు, అపాచీ స్కూప్ అంటే ఏమిటో మనకు తెలుసు. కాబట్టి, మన అపాచీ స్కూప్ ట్యుటోరియల్లో ముందుకు సాగండి మరియు స్కూప్ను సంస్థలు ఎందుకు విస్తృతంగా ఉపయోగిస్తాయో అర్థం చేసుకుందాం.
అపాచీ స్కూప్ ట్యుటోరియల్: ఎందుకు స్కూప్?
హడూప్ డెవలపర్ కోసం, HDFS లో డేటా లోడ్ అయిన తర్వాత అసలు ఆట ప్రారంభమవుతుంది. HDFS లో నిల్వ చేసిన డేటాలో దాగి ఉన్న వివిధ అంతర్దృష్టులను పొందడానికి వారు ఈ డేటా చుట్టూ ఆడుతారు.
కాబట్టి, ఈ విశ్లేషణ కోసం, రిలేషనల్ డేటాబేస్ నిర్వహణ వ్యవస్థలలో నివసించే డేటాను HDFS కి బదిలీ చేయాలి. రాసే పని రిలేషనల్ డేటాబేస్ నుండి HDFS కు డేటాను దిగుమతి మరియు ఎగుమతి చేసే కోడ్ రసహీనమైనది మరియు శ్రమతో కూడుకున్నది. అపాచీ స్కూప్ రక్షించడానికి వచ్చి వారి నొప్పిని తొలగిస్తుంది. ఇది డేటాను దిగుమతి చేసే మరియు ఎగుమతి చేసే ప్రక్రియను ఆటోమేట్ చేస్తుంది.
డేటాను దిగుమతి చేయడానికి మరియు ఎగుమతి చేయడానికి CLI ని అందించడం ద్వారా Sqoop డెవలపర్ల జీవితాన్ని సులభతరం చేస్తుంది. వారు డేటాబేస్ ప్రామాణీకరణ, మూలం, గమ్యం, కార్యకలాపాలు వంటి ప్రాథమిక సమాచారాన్ని అందించాలి. ఇది మిగిలిన భాగాన్ని జాగ్రత్తగా చూసుకుంటుంది.
Sqoop అంతర్గతంగా ఆదేశాన్ని MapReduce టాస్క్లుగా మారుస్తుంది, తరువాత అవి HDFS ద్వారా అమలు చేయబడతాయి. ఇది డేటాను దిగుమతి చేయడానికి మరియు ఎగుమతి చేయడానికి YARN ఫ్రేమ్వర్క్ను ఉపయోగిస్తుంది, ఇది సమాంతరత పైన తప్పు సహనాన్ని అందిస్తుంది.
ఈ స్కూప్ ట్యుటోరియల్ బ్లాగులో ముందుకు సాగడం, మేము స్కూప్ యొక్క ముఖ్య లక్షణాలను అర్థం చేసుకుంటాము మరియు తరువాత మేము అపాచీ స్కూప్ నిర్మాణానికి వెళ్తాము.
అపాచీ స్కూప్ ట్యుటోరియల్: స్కూప్ యొక్క ముఖ్య లక్షణాలు
Sqoop వంటి అనేక ముఖ్యమైన లక్షణాలను అందిస్తుంది:
- పూర్తి భారం : అపాచీ స్కూప్ మొత్తం పట్టికను ఒకే ఆదేశం ద్వారా లోడ్ చేయగలదు. ఒకే ఆదేశాన్ని ఉపయోగించి డేటాబేస్ నుండి మీరు అన్ని పట్టికలను కూడా లోడ్ చేయవచ్చు.
- పెరుగుతున్న లోడ్ చేయండి : అపాచీ స్కూప్ పెరుగుతున్న లోడ్ యొక్క సదుపాయాన్ని కూడా అందిస్తుంది, ఇక్కడ మీరు టేబుల్ యొక్క భాగాలను నవీకరించినప్పుడల్లా లోడ్ చేయవచ్చు.
- సమాంతరంగా దిగుమతి ఎగుమతి : డేటాను దిగుమతి చేయడానికి మరియు ఎగుమతి చేయడానికి స్క్వార్ప్ YARN ఫ్రేమ్వర్క్ను ఉపయోగిస్తుంది, ఇది సమాంతరత పైన తప్పు సహనాన్ని అందిస్తుంది.
- దిగుమతి ఫలితాలు యొక్క SQL ప్రశ్న : మీరు HDFS లోని SQL ప్రశ్న నుండి వచ్చిన ఫలితాన్ని కూడా దిగుమతి చేసుకోవచ్చు.
- కుదింపు : మీరు కంప్రెస్ ఆర్గ్యుమెంట్తో డిఫ్లేట్ (జిజిప్) అల్గోరిథం ఉపయోగించి లేదా -కంప్రెషన్-కోడెక్ ఆర్గ్యుమెంట్ను పేర్కొనడం ద్వారా మీ డేటాను కుదించవచ్చు. మీరు కంప్రెస్డ్ టేబుల్ను కూడా లోడ్ చేయవచ్చు అపాచీ హైవ్ .
- కనెక్టర్లు కోసం అన్నీ ప్రధాన ఆర్డీబీఎంఎస్ డేటాబేస్లు : అపాచీ స్కూప్ బహుళ RDBMS డేటాబేస్ల కోసం కనెక్టర్లను అందిస్తుంది, ఇది దాదాపు మొత్తం చుట్టుకొలతను కవర్ చేస్తుంది.
- కెర్బెరోస్ భద్రత అనుసంధానం : కెర్బెరోస్ అనేది కంప్యూటర్ నెట్వర్క్ ప్రామాణీకరణ ప్రోటోకాల్, ఇది సురక్షితం కాని నెట్వర్క్ ద్వారా సంభాషించే నోడ్లను వారి గుర్తింపును ఒకదానికొకటి సురక్షితమైన రీతిలో నిరూపించుకోవడానికి ‘టిక్కెట్ల’ ఆధారంగా పనిచేస్తుంది. స్కూప్ కెర్బెరోస్ ప్రామాణీకరణకు మద్దతు ఇస్తుంది.
- లోడ్ చేయండి సమాచారం నేరుగా లోకి HIVE / HBase : మీరు డేటాను నేరుగా లోడ్ చేయవచ్చు అపాచీ హైవ్ విశ్లేషణ కోసం మరియు మీ డేటాను HBase లో డంప్ చేయండి, ఇది NoSQL డేటాబేస్.
- మద్దతు కోసం సంచితం : మీరు హెచ్డిఎఫ్ఎస్లోని డైరెక్టరీ కాకుండా అక్యుములో పట్టికను దిగుమతి చేసుకోవాలని స్కూప్కు సూచించవచ్చు.
ఈ ప్రయోజనాలతో అపాచీ స్కూప్ను శక్తివంతం చేసేది ఆర్కిటెక్చర్. ఇప్పుడు, అపాచీ స్కూప్ యొక్క లక్షణాలు మనకు తెలిసినట్లుగా, ముందుకు సాగండి మరియు అపాచీ స్కూప్ యొక్క నిర్మాణం మరియు పనిని అర్థం చేసుకుందాం.
అపాచీ స్కూప్ ట్యుటోరియల్: స్కూప్ ఆర్కిటెక్చర్ & వర్కింగ్
దిగువ రేఖాచిత్రాన్ని ఉపయోగించి అపాచీ స్కూప్ ఎలా పనిచేస్తుందో అర్థం చేసుకుందాం:
దిగుమతి సాధనం RDBMS నుండి HDFS కు వ్యక్తిగత పట్టికలను దిగుమతి చేస్తుంది. పట్టికలోని ప్రతి అడ్డు వరుసను HDFS లో రికార్డుగా పరిగణిస్తారు.
మేము Sqoop ఆదేశాన్ని సమర్పించినప్పుడు, మా ప్రధాన పని ఉప-టాస్క్లుగా విభజించబడుతుంది, ఇది అంతర్గతంగా వ్యక్తిగత మ్యాప్ టాస్క్ చేత నిర్వహించబడుతుంది. మ్యాప్ టాస్క్ అనేది సబ్ టాస్క్, ఇది డేటాలో కొంత భాగాన్ని హడూప్ ఎకోసిస్టమ్కు దిగుమతి చేస్తుంది. సమిష్టిగా, అన్ని మ్యాప్ పనులు మొత్తం డేటాను దిగుమతి చేస్తాయి.
ఎగుమతి కూడా ఇదే పద్ధతిలో పనిచేస్తుంది.
ఎగుమతి సాధనం HDFS నుండి తిరిగి RDBMS కు ఫైళ్ళను సెట్ చేస్తుంది. Sqoop కు ఇన్పుట్గా ఇచ్చిన ఫైల్లు రికార్డులను కలిగి ఉంటాయి, వీటిని పట్టికలోని వరుసలుగా పిలుస్తారు.
మేము మా ఉద్యోగాన్ని సమర్పించినప్పుడు, ఇది మ్యాప్ టాస్క్లలోకి మ్యాప్ చేయబడుతుంది, ఇది HDFS నుండి డేటాను తీసుకువస్తుంది. ఈ భాగాలు నిర్మాణాత్మక డేటా గమ్యస్థానానికి ఎగుమతి చేయబడతాయి. ఈ ఎగుమతి చేసిన అన్ని డేటాను కలిపి, మేము మొత్తం డేటాను గమ్యం వద్ద స్వీకరిస్తాము, ఇది చాలా సందర్భాలలో RDBMS (MYSQL / Oracle / SQL సర్వర్).
అగ్రిగేషన్ల విషయంలో దశ తగ్గించడం అవసరం. కానీ, అపాచీ స్కూప్ కేవలం అగ్రిగేషన్లు చేయని డేటాను దిగుమతి చేస్తుంది మరియు ఎగుమతి చేస్తుంది. వినియోగదారు నిర్వచించిన సంఖ్యను బట్టి మ్యాప్ జాబ్ బహుళ మ్యాపర్లను ప్రారంభిస్తుంది. స్కూప్ దిగుమతి కోసం, ప్రతి మ్యాపర్ టాస్క్ దిగుమతి చేయవలసిన డేటాలో కొంత భాగాన్ని కేటాయించబడుతుంది. అధిక పనితీరు పొందడానికి స్క్వేర్ మ్యాపర్లలో ఇన్పుట్ డేటాను సమానంగా పంపిణీ చేస్తుంది. అప్పుడు ప్రతి మాపర్ JDBC ని ఉపయోగించి డేటాబేస్ తో కనెక్షన్ను సృష్టిస్తుంది మరియు స్క్వూప్ కేటాయించిన డేటా యొక్క భాగాన్ని పొందుతుంది మరియు CLI లో అందించిన వాదనల ఆధారంగా HDFS లేదా హైవ్ లేదా HBase లో వ్రాస్తుంది.
అనకొండలో పైథాన్ ఎలా ఉపయోగించాలి
అపాచీ స్కూప్ యొక్క నిర్మాణం మరియు పనిని మేము ఇప్పుడు అర్థం చేసుకున్నాము, అపాచీ ఫ్లూమ్ మరియు అపాచీ స్కూప్ మధ్య వ్యత్యాసాన్ని అర్థం చేసుకుందాం.
అపాచీ స్కూప్ ట్యుటోరియల్: ఫ్లూమ్ వర్సెస్ స్కూప్
ఫ్లూమ్ మరియు స్కూప్ మధ్య ప్రధాన వ్యత్యాసం ఏమిటంటే:
- ఫ్లూమ్ నిర్మాణాత్మక డేటా లేదా సెమీ స్ట్రక్చర్డ్ డేటాను మాత్రమే HDFS లోకి తీసుకుంటుంది.
- Sqoop RDBMS లేదా ఎంటర్ప్రైజ్ డేటా గిడ్డంగుల నుండి నిర్మాణాత్మక డేటాను HDFS కు దిగుమతి చేయగలదు లేదా దీనికి విరుద్ధంగా ఉంటుంది.
ఇప్పుడు, మా అపాచీ స్కూప్ ట్యుటోరియల్లో ముందుకు సాగడం అపాచీ స్కూప్ ఆదేశాల ద్వారా వెళ్ళడానికి ఎక్కువ సమయం.
అపాచీ స్కూప్ ట్యుటోరియల్: స్కూప్ ఆదేశాలు
స్కూప్ - దిగుమతి ఆదేశం
రిలేషనల్ డేటాబేస్ల నుండి HDFS కు పట్టికను దిగుమతి చేయడానికి దిగుమతి ఆదేశం ఉపయోగించబడుతుంది. మా విషయంలో, మేము MySQL డేటాబేస్ల నుండి HDFS కు పట్టికలను దిగుమతి చేయబోతున్నాము.
దిగువ చిత్రంలో మీరు చూడగలిగినట్లుగా, ఉద్యోగుల డేటాబేస్లో ఉద్యోగుల పట్టిక ఉంది, దానిని మేము HDFS లోకి దిగుమతి చేస్తాము.
పట్టికను దిగుమతి చేయడానికి ఆదేశం:
sqoop import --connect jdbc: mysql: // localhost / employees --username edureka - టేబుల్ ఉద్యోగులు
దిగువ చిత్రంలో మీరు చూడగలిగినట్లుగా, ఈ ఆదేశాన్ని అమలు చేసిన తరువాత మ్యాప్ టాస్క్లు వెనుక చివరలో అమలు చేయబడతాయి.
కోడ్ అమలు చేసిన తర్వాత, మీరు HDFS యొక్క వెబ్ UI ని తనిఖీ చేయవచ్చు, అంటే లోకల్ హోస్ట్: 50070 డేటా దిగుమతి అయిన చోట.
Sqoop - లక్ష్య డైరెక్టరీతో దిగుమతి కమాండ్
కింది ఆదేశాన్ని ఉపయోగించి మీరు HDFS లోని నిర్దిష్ట డైరెక్టరీలో పట్టికను దిగుమతి చేసుకోవచ్చు:
sqoop import --connect jdbc: mysql: // localhost / employees --username edureka --table employees --m 1 --target-dir / employees
చాలా డేటాబేస్ మూలాల నుండి సమాంతరంగా డేటాను స్కూప్ దిగుమతి చేస్తుంది. -ఎమ్ అమలు చేయాల్సిన మ్యాపర్ల సంఖ్యను పేర్కొనడానికి ఆస్తి ఉపయోగించబడుతుంది.
చాలా డేటాబేస్ మూలాల నుండి సమాంతరంగా డేటాను స్కూప్ దిగుమతి చేస్తుంది. ఉపయోగించి దిగుమతి చేయడానికి ఉపయోగించాల్సిన మ్యాప్ పనుల సంఖ్యను (సమాంతర ప్రక్రియలు) మీరు పేర్కొనవచ్చు -ఎమ్ లేదా –నం-మ్యాపర్స్ వాదన. ఈ వాదనలు ప్రతి ఒక పూర్ణాంక విలువను తీసుకుంటాయి, ఇది సమాంతరత యొక్క స్థాయికి అనుగుణంగా ఉంటుంది.
డైరెక్టరీలో ఉన్న ఫైళ్ళ సంఖ్య నుండి మీరు స్వతంత్రంగా మ్యాపర్ల సంఖ్యను నియంత్రించవచ్చు. ఎగుమతి పనితీరు సమాంతరత స్థాయిని బట్టి ఉంటుంది. అప్రమేయంగా, ఎగుమతి ప్రక్రియ కోసం సమాంతరంగా స్క్వాప్ నాలుగు పనులను ఉపయోగిస్తుంది. ఇది సరైనది కాకపోవచ్చు, మీరు మీ స్వంత ప్రత్యేకమైన సెటప్తో ప్రయోగాలు చేయాల్సి ఉంటుంది. అదనపు పనులు మెరుగైన సమ్మతిని అందించవచ్చు, కానీ సూచికలను నవీకరించడం, ట్రిగ్గర్లను ప్రారంభించడం మరియు మొదలైన వాటిపై డేటాబేస్ ఇప్పటికే అడ్డంకిగా ఉంటే, అదనపు లోడ్ పనితీరును తగ్గిస్తుంది.
దిగువ చిత్రంలో మీరు చూడవచ్చు, మాపర్ పని సంఖ్య 1.
MySQL పట్టికలను దిగుమతి చేసేటప్పుడు సృష్టించబడిన ఫైళ్ళ సంఖ్య సృష్టించబడిన మ్యాపర్ సంఖ్యకు సమానం.
స్కూప్ - ఎక్కడ నిబంధనతో దిగుమతి కమాండ్
Sqoop దిగుమతి సాధనంలో ‘ఎక్కడ’ నిబంధనను ఉపయోగించి మీరు పట్టిక యొక్క ఉపసమితిని దిగుమతి చేసుకోవచ్చు. ఇది సంబంధిత డేటాబేస్ సర్వర్లో సంబంధిత SQL ప్రశ్నను అమలు చేస్తుంది మరియు ఫలితాన్ని HDFS లో లక్ష్య డైరెక్టరీలో నిల్వ చేస్తుంది. ‘తో డేటాను దిగుమతి చేసుకోవడానికి మీరు ఈ క్రింది ఆదేశాన్ని ఉపయోగించవచ్చు ఎక్కడ ' ఉపవాక్య:
sqoop import --connect jdbc: mysql: // localhost / employees --username edureka --table employees --m 3 - ఎక్కడైనా 'emp_no & gt 49000' --target-dir / Latest_Employees
స్కూప్ - పెరుగుతున్న దిగుమతి
Sqoop పెరుగుతున్న దిగుమతి మోడ్ను అందిస్తుంది, ఇది గతంలో దిగుమతి చేసుకున్న కొన్ని వరుసల కన్నా క్రొత్త వరుసలను మాత్రమే తిరిగి పొందటానికి ఉపయోగపడుతుంది. స్కూప్ రెండు రకాల పెరుగుతున్న దిగుమతులకు మద్దతు ఇస్తుంది: చేర్చండి మరియు చివరిసారిగా మార్పు చేయబడిన . నిర్వహించడానికి దిగుమతి రకాన్ని పేర్కొనడానికి మీరు –ఇన్క్రిమెంటల్ ఆర్గ్యుమెంట్ను ఉపయోగించవచ్చు.
మీరు పేర్కొనాలి చేర్చండి పెరుగుతున్న అడ్డు వరుస ఐడి విలువలతో కొత్త వరుసలు నిరంతరం జోడించబడుతున్న పట్టికను దిగుమతి చేసేటప్పుడు మోడ్. మీరు అడ్డు వరుస యొక్క ఐడిని కలిగి ఉన్న కాలమ్ను పేర్కొనండి -చెక్-కాలమ్ . చెక్ కాలమ్ పేర్కొన్న విలువ కంటే ఎక్కువ విలువను కలిగి ఉన్న స్కూప్ అడ్డు వరుసలను దిగుమతి చేస్తుంది –లాస్ట్-విలువ .
Sqoop చేత మద్దతు ఇవ్వబడిన ప్రత్యామ్నాయ పట్టిక నవీకరణ వ్యూహాన్ని అంటారు చివరిసారిగా మార్పు చేయబడిన మోడ్. మూల పట్టిక యొక్క అడ్డు వరుసలు నవీకరించబడినప్పుడు మీరు దీన్ని ఉపయోగించాలి మరియు అలాంటి ప్రతి నవీకరణ చివరి మార్పు చేసిన కాలమ్ విలువను ప్రస్తుత టైమ్స్టాంప్కు సెట్ చేస్తుంది.
తదుపరి దిగుమతిని అమలు చేస్తున్నప్పుడు, మీరు పేర్కొనాలి –లాస్ట్-విలువ ఈ విధంగా మీరు క్రొత్త లేదా నవీకరించబడిన డేటాను మాత్రమే దిగుమతి చేసుకుంటున్నారని నిర్ధారించుకోండి. పెరుగుతున్న దిగుమతిని సేవ్ చేసిన ఉద్యోగంగా సృష్టించడం ద్వారా ఇది స్వయంచాలకంగా నిర్వహించబడుతుంది, ఇది పునరావృతమయ్యే పెరుగుతున్న దిగుమతిని నిర్వహించడానికి ఇష్టపడే విధానం.
మొదట, మేము క్రొత్త వరుసను చొప్పించాము, అది మా HDFS లో నవీకరించబడుతుంది.
పెరుగుతున్న దిగుమతి కోసం ఆదేశం:
sqoop import --connect jdbc: mysql: // localhost / employees --username edureka --table employees --target-dir / Latest_Employees --incremental append --check-column emp_no --last-value 499999
మీరు క్రింది చిత్రంలో చూడవచ్చు, నవీకరించబడిన డేటాతో క్రొత్త ఫైల్ సృష్టించబడుతుంది.
స్కూప్ - అన్ని పట్టికలను దిగుమతి చేయండి
మీరు అన్ని పట్టికలను RDBMS డేటాబేస్ సర్వర్ నుండి HDFS కు దిగుమతి చేసుకోవచ్చు. ప్రతి పట్టిక డేటా ప్రత్యేక డైరెక్టరీలో నిల్వ చేయబడుతుంది మరియు డైరెక్టరీ పేరు పట్టిక పేరు వలె ఉంటుంది. ఆ డేటాబేస్లోని ప్రతి పట్టికలో ప్రాథమిక కీ ఫీల్డ్ ఉండాలి. డేటాబేస్ నుండి అన్ని పట్టికలను దిగుమతి చేసే ఆదేశం:
sqoop import-all-table - కనెక్ట్ jdbc: mysql: // localhost / employees --username edureka
స్కూప్ - జాబితా డేటాబేస్
మీరు Sqoop ఉపయోగించి రిలేషన్ డేటాబేస్లో ఉన్న డేటాబేస్లను జాబితా చేయవచ్చు. స్కూప్ జాబితా-డేటాబేస్ సాధనం డేటాబేస్ సర్వర్కు వ్యతిరేకంగా ‘షో డేటాబేస్’ ప్రశ్నను అన్వయించి అమలు చేస్తుంది. డేటాబేస్లను జాబితా చేయడానికి ఆదేశం:
sqoop list-databaseases - కనెక్ట్ jdbc: mysql: // localhost / --username edureka
స్కూప్ - జాబితా పట్టికలు
మీరు Sqoop ని ఉపయోగించి MySQL డేటాబేస్ సర్వర్లోని ఒక నిర్దిష్ట డేటాబేస్ యొక్క పట్టికలను కూడా జాబితా చేయవచ్చు. స్కూప్ జాబితా-పట్టికల సాధనం ‘షో టేబుల్స్’ ప్రశ్నను అన్వయించి అమలు చేస్తుంది. పట్టికలను జాబితా చేయడానికి ఆదేశం ఒక డేటాబేస్:
sqoop list-tables - కనెక్ట్ jdbc: mysql: // localhost / employees --username edureka
pl sql online free నేర్చుకోండి
స్కూప్ - ఎగుమతి
మేము పైన చర్చించినట్లుగా, మీరు HDFS నుండి RDBMS డేటాబేస్కు డేటాను ఎగుమతి చేయవచ్చు. లక్ష్య పట్టిక లక్ష్య డేటాబేస్లో ఉండాలి.డేటా HDFS లో రికార్డులుగా నిల్వ చేయబడుతుంది. ఈ రికార్డులు వినియోగదారు-పేర్కొన్న డీలిమిటర్తో చదవబడతాయి మరియు అన్వయించబడతాయి మరియు వేరు చేయబడతాయి.ఇన్సర్ట్ స్టేట్మెంట్ ఉపయోగించి ఇన్పుట్ ఫైళ్ళ నుండి డేటాబేస్ టేబుల్కు అన్ని రికార్డ్లను ఇన్సర్ట్ చేయడం డిఫాల్ట్ ఆపరేషన్. నవీకరణ మోడ్లో, ఇప్పటికే ఉన్న రికార్డ్ను డేటాబేస్లో భర్తీ చేసే UPDATE స్టేట్మెంట్ను Sqoop ఉత్పత్తి చేస్తుంది.
కాబట్టి, మొదట మేము ఖాళీ పట్టికను సృష్టిస్తున్నాము, అక్కడ మేము మా డేటాను ఎగుమతి చేస్తాము.
HDFS నుండి రిలేషనల్ డేటాబేస్కు డేటాను ఎగుమతి చేసే ఆదేశం:
sqoop export --connect jdbc: mysql: // localhost / employees --username edureka --table emp --export-dir / user / edureka / employees
స్కూప్ - కోడెన్
ఆబ్జెక్ట్-ఓరియెంటెడ్ అప్లికేషన్లో, ప్రతి డేటాబేస్ టేబుల్లో ఒక డేటా యాక్సెస్ ఆబ్జెక్ట్ క్లాస్ ఉంటుంది, అది వస్తువులను ప్రారంభించడానికి ‘గెట్టర్’ మరియు ‘సెట్టర్’ పద్ధతులను కలిగి ఉంటుంది. కోడ్జెన్ DAO తరగతిని స్వయంచాలకంగా ఉత్పత్తి చేస్తుంది. ఇది టేబుల్ స్కీమా నిర్మాణం ఆధారంగా జావాలో DAO తరగతిని ఉత్పత్తి చేస్తుంది.
జావా కోడ్ను రూపొందించే ఆదేశం:
sqoop codegen --connect jdbc: mysql: // localhost / employees --username edureka - టేబుల్ ఉద్యోగులు
కోడ్ ఉత్పత్తి చేయబడిన పై చిత్రంలో మీరు మార్గాన్ని చూడవచ్చు. మనం దారికి వెళ్లి సృష్టించిన ఫైళ్ళను తనిఖీ చేద్దాం.
ఈ బ్లాగ్ మీకు సమాచారం మరియు అదనపు విలువను ఇస్తుందని నేను ఆశిస్తున్నాను. మీరు మరింత తెలుసుకోవడానికి ఆసక్తి కలిగి ఉంటే, మీరు దీని ద్వారా వెళ్ళవచ్చు ఇది బిగ్ డేటా గురించి మరియు హడూప్ బిగ్ డేటాకు సంబంధించిన సవాళ్లను ఎలా పరిష్కరిస్తుందో మీకు తెలియజేస్తుంది.
ఇప్పుడు మీరు అపాచీ స్కూప్ను అర్థం చేసుకున్నారు, చూడండి ప్రపంచవ్యాప్తంగా 250,000 కంటే ఎక్కువ సంతృప్తికరమైన అభ్యాసకుల నెట్వర్క్తో విశ్వసనీయ ఆన్లైన్ లెర్నింగ్ సంస్థ ఎడురేకా చేత. రిటైల్, సోషల్ మీడియా, ఏవియేషన్, టూరిజం, ఫైనాన్స్ డొమైన్లో రియల్ టైమ్ యూజ్ కేసులను ఉపయోగించి హెచ్డిఎఫ్ఎస్, నూలు, మ్యాప్రెడ్యూస్, పిగ్, హైవ్, హెచ్బేస్, ఓజీ, ఫ్లూమ్ మరియు స్కూప్లో నిపుణులు కావడానికి ఎడురేకా బిగ్ డేటా హడూప్ సర్టిఫికేషన్ ట్రైనింగ్ కోర్సు సహాయపడుతుంది.
మాకు ప్రశ్న ఉందా? దయచేసి దీన్ని వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.