అపాచీ స్కూప్ ట్యుటోరియల్ - HDFS మరియు RDBMS మధ్య డేటాను దిగుమతి / ఎగుమతి చేయండి



అపాచీ స్కూప్ ట్యుటోరియల్: హడూప్ & రిలేషనల్ డేటాబేస్ల మధ్య డేటాను బదిలీ చేయడానికి స్కూప్ ఒక సాధనం. ఈ బ్లాగ్ MySQL నుండి సూప్ దిగుమతి & ఎగుమతిని వర్తిస్తుంది.

ఈ అపాచీ స్కూప్ ట్యుటోరియల్‌తో ప్రారంభించే ముందు, మనం ఒక అడుగు వెనక్కి తీసుకుందాం. మా మునుపటి బ్లాగులో మేము చర్చించినట్లుగా, డేటా తీసుకోవడం యొక్క ప్రాముఖ్యతను మీరు గుర్తు చేయగలరా? అపాచీ ఫ్లూమ్ . ఇప్పుడు, అపాచీ ఫ్లూమ్ అనేది నిర్మాణాత్మక మూలాల కోసం డేటా తీసుకునే సాధనం అని మనకు తెలుసు, కాని సంస్థలు వాటి కార్యాచరణ డేటాను రిలేషనల్ డేటాబేస్లలో నిల్వ చేస్తాయి. కాబట్టి, రిలేషనల్ డేటాబేస్ల నుండి డేటాను దిగుమతి మరియు ఎగుమతి చేయగల సాధనం అవసరం. ఈ కారణంగానే అపాచీ స్కూప్ జన్మించాడు. స్కూప్ హడూప్‌తో సులభంగా కలిసిపోవచ్చు మరియు హెచ్‌డిఎఫ్‌ఎస్‌లోని రిలేషనల్ డేటాబేస్‌ల నుండి నిర్మాణాత్మక డేటాను డంప్ చేయగలదు, హడూప్ యొక్క శక్తిని అభినందిస్తుంది. ఇందువల్లే, అపాచీ స్కూప్ మరియు ఫ్లూమ్ యొక్క మంచి జ్ఞానాన్ని తప్పనిసరి చేస్తుంది.

ప్రారంభంలో, స్కూప్‌ను క్లౌడెరా అభివృద్ధి చేసింది మరియు నిర్వహించింది. తరువాత, 23 జూలై 2011 న, దీనిని అపాచీ పొదిగించింది. ఏప్రిల్ 2012 లో, స్కూప్ ప్రాజెక్ట్ అపాచీ యొక్క ఉన్నత-స్థాయి ప్రాజెక్టుగా ప్రచారం చేయబడింది.





ఈ అపాచీ ఫ్లూమ్ ట్యుటోరియల్ బ్లాగులో, మేము కవర్ చేస్తాము:



అపాచీ స్కూప్‌ను పరిచయం చేయడం ద్వారా మేము ఈ అపాచీ స్కూప్ ట్యుటోరియల్‌ను ప్రారంభిస్తాము. అప్పుడు ముందుకు సాగితే, అపాచీ స్కూప్ ఉపయోగించడం వల్ల కలిగే ప్రయోజనాలను మేము అర్థం చేసుకుంటాము.

అపాచీ స్కూప్ ట్యుటోరియల్: స్కూప్ పరిచయం

అపాచీ స్కూప్ - అపాచీ స్కూప్ ట్యుటోరియల్ - ఎడురేకాసాధారణంగా, అనువర్తనాలు RDBMS ను ఉపయోగించి రిలేషనల్ డేటాబేస్‌తో సంకర్షణ చెందుతాయి మరియు అందువల్ల ఇది రిలేషనల్ డేటాబేస్‌లను బిగ్ డేటాను ఉత్పత్తి చేసే ముఖ్యమైన వనరులలో ఒకటిగా చేస్తుంది. ఇటువంటి డేటా రిలేషనల్ నిర్మాణంలో RDB సర్వర్లలో నిల్వ చేయబడుతుంది. ఇక్కడ, అపాచీ స్కూప్ ఒక ముఖ్యమైన పాత్ర పోషిస్తుంది , రిలేషనల్ డేటాబేస్ సర్వర్ మరియు HDFS మధ్య సాధ్యమయ్యే పరస్పర చర్యను అందిస్తుంది.

కాబట్టి, అపాచీ స్కూప్ ఒక సాధనం ఇది మధ్య డేటాను బదిలీ చేయడానికి రూపొందించబడింది HDFS (హడూప్ స్టోరేజ్) మరియు MySQL, ఒరాకిల్ RDB, SQLite, టెరాడాటా, నెట్‌జా, పోస్ట్‌గ్రెస్ వంటి రిలేషనల్ డేటాబేస్ సర్వర్‌లు. ఇది హడూప్ మరియు ఎంటర్ప్రైజ్ డేటా గిడ్డంగులు, రిలేషనల్ డేటాబేస్లు వంటి బాహ్య డేటా స్టోర్ల మధ్య బల్క్ డేటాను సమర్థవంతంగా బదిలీ చేస్తుంది.



ఈ విధంగా స్కూప్ పేరు వచ్చింది - “ SQ ఎల్ టు హాడ్ తెరిచి ఉంది & హడూప్ టు SQL ”.

అదనంగా, బాహ్య డేటాస్టోర్ల నుండి డేటాను హడూప్ పర్యావరణ వ్యవస్థ యొక్క సాధనాలలోకి దిగుమతి చేయడానికి స్క్వూప్ ఉపయోగించబడుతుంది అందులో నివశించే తేనెటీగలు & HBase .

ఇప్పుడు, అపాచీ స్కూప్ అంటే ఏమిటో మనకు తెలుసు. కాబట్టి, మన అపాచీ స్కూప్ ట్యుటోరియల్‌లో ముందుకు సాగండి మరియు స్కూప్‌ను సంస్థలు ఎందుకు విస్తృతంగా ఉపయోగిస్తాయో అర్థం చేసుకుందాం.

అపాచీ స్కూప్ ట్యుటోరియల్: ఎందుకు స్కూప్?

హడూప్ డెవలపర్ కోసం, HDFS లో డేటా లోడ్ అయిన తర్వాత అసలు ఆట ప్రారంభమవుతుంది. HDFS లో నిల్వ చేసిన డేటాలో దాగి ఉన్న వివిధ అంతర్దృష్టులను పొందడానికి వారు ఈ డేటా చుట్టూ ఆడుతారు.

కాబట్టి, ఈ విశ్లేషణ కోసం, రిలేషనల్ డేటాబేస్ నిర్వహణ వ్యవస్థలలో నివసించే డేటాను HDFS కి బదిలీ చేయాలి. రాసే పని రిలేషనల్ డేటాబేస్ నుండి HDFS కు డేటాను దిగుమతి మరియు ఎగుమతి చేసే కోడ్ రసహీనమైనది మరియు శ్రమతో కూడుకున్నది. అపాచీ స్కూప్ రక్షించడానికి వచ్చి వారి నొప్పిని తొలగిస్తుంది. ఇది డేటాను దిగుమతి చేసే మరియు ఎగుమతి చేసే ప్రక్రియను ఆటోమేట్ చేస్తుంది.

డేటాను దిగుమతి చేయడానికి మరియు ఎగుమతి చేయడానికి CLI ని అందించడం ద్వారా Sqoop డెవలపర్‌ల జీవితాన్ని సులభతరం చేస్తుంది. వారు డేటాబేస్ ప్రామాణీకరణ, మూలం, గమ్యం, కార్యకలాపాలు వంటి ప్రాథమిక సమాచారాన్ని అందించాలి. ఇది మిగిలిన భాగాన్ని జాగ్రత్తగా చూసుకుంటుంది.

Sqoop అంతర్గతంగా ఆదేశాన్ని MapReduce టాస్క్‌లుగా మారుస్తుంది, తరువాత అవి HDFS ద్వారా అమలు చేయబడతాయి. ఇది డేటాను దిగుమతి చేయడానికి మరియు ఎగుమతి చేయడానికి YARN ఫ్రేమ్‌వర్క్‌ను ఉపయోగిస్తుంది, ఇది సమాంతరత పైన తప్పు సహనాన్ని అందిస్తుంది.

ఈ స్కూప్ ట్యుటోరియల్ బ్లాగులో ముందుకు సాగడం, మేము స్కూప్ యొక్క ముఖ్య లక్షణాలను అర్థం చేసుకుంటాము మరియు తరువాత మేము అపాచీ స్కూప్ నిర్మాణానికి వెళ్తాము.

అపాచీ స్కూప్ ట్యుటోరియల్: స్కూప్ యొక్క ముఖ్య లక్షణాలు

Sqoop వంటి అనేక ముఖ్యమైన లక్షణాలను అందిస్తుంది:

  1. పూర్తి భారం : అపాచీ స్కూప్ మొత్తం పట్టికను ఒకే ఆదేశం ద్వారా లోడ్ చేయగలదు. ఒకే ఆదేశాన్ని ఉపయోగించి డేటాబేస్ నుండి మీరు అన్ని పట్టికలను కూడా లోడ్ చేయవచ్చు.
  2. పెరుగుతున్న లోడ్ చేయండి : అపాచీ స్కూప్ పెరుగుతున్న లోడ్ యొక్క సదుపాయాన్ని కూడా అందిస్తుంది, ఇక్కడ మీరు టేబుల్ యొక్క భాగాలను నవీకరించినప్పుడల్లా లోడ్ చేయవచ్చు.
  3. సమాంతరంగా దిగుమతి ఎగుమతి : డేటాను దిగుమతి చేయడానికి మరియు ఎగుమతి చేయడానికి స్క్వార్ప్ YARN ఫ్రేమ్‌వర్క్‌ను ఉపయోగిస్తుంది, ఇది సమాంతరత పైన తప్పు సహనాన్ని అందిస్తుంది.
  4. దిగుమతి ఫలితాలు యొక్క SQL ప్రశ్న : మీరు HDFS లోని SQL ప్రశ్న నుండి వచ్చిన ఫలితాన్ని కూడా దిగుమతి చేసుకోవచ్చు.
  5. కుదింపు : మీరు కంప్రెస్ ఆర్గ్యుమెంట్‌తో డిఫ్లేట్ (జిజిప్) అల్గోరిథం ఉపయోగించి లేదా -కంప్రెషన్-కోడెక్ ఆర్గ్యుమెంట్‌ను పేర్కొనడం ద్వారా మీ డేటాను కుదించవచ్చు. మీరు కంప్రెస్డ్ టేబుల్‌ను కూడా లోడ్ చేయవచ్చు అపాచీ హైవ్ .
  6. కనెక్టర్లు కోసం అన్నీ ప్రధాన ఆర్డీబీఎంఎస్ డేటాబేస్లు : అపాచీ స్కూప్ బహుళ RDBMS డేటాబేస్ల కోసం కనెక్టర్లను అందిస్తుంది, ఇది దాదాపు మొత్తం చుట్టుకొలతను కవర్ చేస్తుంది.
  7. కెర్బెరోస్ భద్రత అనుసంధానం : కెర్బెరోస్ అనేది కంప్యూటర్ నెట్‌వర్క్ ప్రామాణీకరణ ప్రోటోకాల్, ఇది సురక్షితం కాని నెట్‌వర్క్ ద్వారా సంభాషించే నోడ్‌లను వారి గుర్తింపును ఒకదానికొకటి సురక్షితమైన రీతిలో నిరూపించుకోవడానికి ‘టిక్కెట్ల’ ఆధారంగా పనిచేస్తుంది. స్కూప్ కెర్బెరోస్ ప్రామాణీకరణకు మద్దతు ఇస్తుంది.
  8. లోడ్ చేయండి సమాచారం నేరుగా లోకి HIVE / HBase : మీరు డేటాను నేరుగా లోడ్ చేయవచ్చు అపాచీ హైవ్ విశ్లేషణ కోసం మరియు మీ డేటాను HBase లో డంప్ చేయండి, ఇది NoSQL డేటాబేస్.
  9. మద్దతు కోసం సంచితం : మీరు హెచ్‌డిఎఫ్‌ఎస్‌లోని డైరెక్టరీ కాకుండా అక్యుములో పట్టికను దిగుమతి చేసుకోవాలని స్కూప్‌కు సూచించవచ్చు.

ఈ ప్రయోజనాలతో అపాచీ స్కూప్‌ను శక్తివంతం చేసేది ఆర్కిటెక్చర్. ఇప్పుడు, అపాచీ స్కూప్ యొక్క లక్షణాలు మనకు తెలిసినట్లుగా, ముందుకు సాగండి మరియు అపాచీ స్కూప్ యొక్క నిర్మాణం మరియు పనిని అర్థం చేసుకుందాం.

అపాచీ స్కూప్ ట్యుటోరియల్: స్కూప్ ఆర్కిటెక్చర్ & వర్కింగ్

దిగువ రేఖాచిత్రాన్ని ఉపయోగించి అపాచీ స్కూప్ ఎలా పనిచేస్తుందో అర్థం చేసుకుందాం:

దిగుమతి సాధనం RDBMS నుండి HDFS కు వ్యక్తిగత పట్టికలను దిగుమతి చేస్తుంది. పట్టికలోని ప్రతి అడ్డు వరుసను HDFS లో రికార్డుగా పరిగణిస్తారు.

మేము Sqoop ఆదేశాన్ని సమర్పించినప్పుడు, మా ప్రధాన పని ఉప-టాస్క్‌లుగా విభజించబడుతుంది, ఇది అంతర్గతంగా వ్యక్తిగత మ్యాప్ టాస్క్ చేత నిర్వహించబడుతుంది. మ్యాప్ టాస్క్ అనేది సబ్ టాస్క్, ఇది డేటాలో కొంత భాగాన్ని హడూప్ ఎకోసిస్టమ్‌కు దిగుమతి చేస్తుంది. సమిష్టిగా, అన్ని మ్యాప్ పనులు మొత్తం డేటాను దిగుమతి చేస్తాయి.

ఎగుమతి కూడా ఇదే పద్ధతిలో పనిచేస్తుంది.

ఎగుమతి సాధనం HDFS నుండి తిరిగి RDBMS కు ఫైళ్ళను సెట్ చేస్తుంది. Sqoop కు ఇన్‌పుట్‌గా ఇచ్చిన ఫైల్‌లు రికార్డులను కలిగి ఉంటాయి, వీటిని పట్టికలోని వరుసలుగా పిలుస్తారు.

మేము మా ఉద్యోగాన్ని సమర్పించినప్పుడు, ఇది మ్యాప్ టాస్క్‌లలోకి మ్యాప్ చేయబడుతుంది, ఇది HDFS నుండి డేటాను తీసుకువస్తుంది. ఈ భాగాలు నిర్మాణాత్మక డేటా గమ్యస్థానానికి ఎగుమతి చేయబడతాయి. ఈ ఎగుమతి చేసిన అన్ని డేటాను కలిపి, మేము మొత్తం డేటాను గమ్యం వద్ద స్వీకరిస్తాము, ఇది చాలా సందర్భాలలో RDBMS (MYSQL / Oracle / SQL సర్వర్).

అగ్రిగేషన్ల విషయంలో దశ తగ్గించడం అవసరం. కానీ, అపాచీ స్కూప్ కేవలం అగ్రిగేషన్లు చేయని డేటాను దిగుమతి చేస్తుంది మరియు ఎగుమతి చేస్తుంది. వినియోగదారు నిర్వచించిన సంఖ్యను బట్టి మ్యాప్ జాబ్ బహుళ మ్యాపర్‌లను ప్రారంభిస్తుంది. స్కూప్ దిగుమతి కోసం, ప్రతి మ్యాపర్ టాస్క్ దిగుమతి చేయవలసిన డేటాలో కొంత భాగాన్ని కేటాయించబడుతుంది. అధిక పనితీరు పొందడానికి స్క్వేర్ మ్యాపర్లలో ఇన్పుట్ డేటాను సమానంగా పంపిణీ చేస్తుంది. అప్పుడు ప్రతి మాపర్ JDBC ని ఉపయోగించి డేటాబేస్ తో కనెక్షన్ను సృష్టిస్తుంది మరియు స్క్వూప్ కేటాయించిన డేటా యొక్క భాగాన్ని పొందుతుంది మరియు CLI లో అందించిన వాదనల ఆధారంగా HDFS లేదా హైవ్ లేదా HBase లో వ్రాస్తుంది.

అనకొండలో పైథాన్ ఎలా ఉపయోగించాలి

అపాచీ స్కూప్ యొక్క నిర్మాణం మరియు పనిని మేము ఇప్పుడు అర్థం చేసుకున్నాము, అపాచీ ఫ్లూమ్ మరియు అపాచీ స్కూప్ మధ్య వ్యత్యాసాన్ని అర్థం చేసుకుందాం.

అపాచీ స్కూప్ ట్యుటోరియల్: ఫ్లూమ్ వర్సెస్ స్కూప్

ఫ్లూమ్ మరియు స్కూప్ మధ్య ప్రధాన వ్యత్యాసం ఏమిటంటే:

  • ఫ్లూమ్ నిర్మాణాత్మక డేటా లేదా సెమీ స్ట్రక్చర్డ్ డేటాను మాత్రమే HDFS లోకి తీసుకుంటుంది.
  • Sqoop RDBMS లేదా ఎంటర్ప్రైజ్ డేటా గిడ్డంగుల నుండి నిర్మాణాత్మక డేటాను HDFS కు దిగుమతి చేయగలదు లేదా దీనికి విరుద్ధంగా ఉంటుంది.

ఇప్పుడు, మా అపాచీ స్కూప్ ట్యుటోరియల్‌లో ముందుకు సాగడం అపాచీ స్కూప్ ఆదేశాల ద్వారా వెళ్ళడానికి ఎక్కువ సమయం.

అపాచీ స్కూప్ ట్యుటోరియల్: స్కూప్ ఆదేశాలు

  • స్కూప్ - దిగుమతి ఆదేశం

రిలేషనల్ డేటాబేస్ల నుండి HDFS కు పట్టికను దిగుమతి చేయడానికి దిగుమతి ఆదేశం ఉపయోగించబడుతుంది. మా విషయంలో, మేము MySQL డేటాబేస్ల నుండి HDFS కు పట్టికలను దిగుమతి చేయబోతున్నాము.

దిగువ చిత్రంలో మీరు చూడగలిగినట్లుగా, ఉద్యోగుల డేటాబేస్లో ఉద్యోగుల పట్టిక ఉంది, దానిని మేము HDFS లోకి దిగుమతి చేస్తాము.

పట్టికను దిగుమతి చేయడానికి ఆదేశం:

sqoop import --connect jdbc: mysql: // localhost / employees --username edureka - టేబుల్ ఉద్యోగులు

దిగువ చిత్రంలో మీరు చూడగలిగినట్లుగా, ఈ ఆదేశాన్ని అమలు చేసిన తరువాత మ్యాప్ టాస్క్‌లు వెనుక చివరలో అమలు చేయబడతాయి.

కోడ్ అమలు చేసిన తర్వాత, మీరు HDFS యొక్క వెబ్ UI ని తనిఖీ చేయవచ్చు, అంటే లోకల్ హోస్ట్: 50070 డేటా దిగుమతి అయిన చోట.

  • Sqoop - లక్ష్య డైరెక్టరీతో దిగుమతి కమాండ్

కింది ఆదేశాన్ని ఉపయోగించి మీరు HDFS లోని నిర్దిష్ట డైరెక్టరీలో పట్టికను దిగుమతి చేసుకోవచ్చు:

sqoop import --connect jdbc: mysql: // localhost / employees --username edureka --table employees --m 1 --target-dir / employees

చాలా డేటాబేస్ మూలాల నుండి సమాంతరంగా డేటాను స్కూప్ దిగుమతి చేస్తుంది. -ఎమ్ అమలు చేయాల్సిన మ్యాపర్‌ల సంఖ్యను పేర్కొనడానికి ఆస్తి ఉపయోగించబడుతుంది.

చాలా డేటాబేస్ మూలాల నుండి సమాంతరంగా డేటాను స్కూప్ దిగుమతి చేస్తుంది. ఉపయోగించి దిగుమతి చేయడానికి ఉపయోగించాల్సిన మ్యాప్ పనుల సంఖ్యను (సమాంతర ప్రక్రియలు) మీరు పేర్కొనవచ్చు -ఎమ్ లేదా –నం-మ్యాపర్స్ వాదన. ఈ వాదనలు ప్రతి ఒక పూర్ణాంక విలువను తీసుకుంటాయి, ఇది సమాంతరత యొక్క స్థాయికి అనుగుణంగా ఉంటుంది.

డైరెక్టరీలో ఉన్న ఫైళ్ళ సంఖ్య నుండి మీరు స్వతంత్రంగా మ్యాపర్ల సంఖ్యను నియంత్రించవచ్చు. ఎగుమతి పనితీరు సమాంతరత స్థాయిని బట్టి ఉంటుంది. అప్రమేయంగా, ఎగుమతి ప్రక్రియ కోసం సమాంతరంగా స్క్వాప్ నాలుగు పనులను ఉపయోగిస్తుంది. ఇది సరైనది కాకపోవచ్చు, మీరు మీ స్వంత ప్రత్యేకమైన సెటప్‌తో ప్రయోగాలు చేయాల్సి ఉంటుంది. అదనపు పనులు మెరుగైన సమ్మతిని అందించవచ్చు, కానీ సూచికలను నవీకరించడం, ట్రిగ్గర్‌లను ప్రారంభించడం మరియు మొదలైన వాటిపై డేటాబేస్ ఇప్పటికే అడ్డంకిగా ఉంటే, అదనపు లోడ్ పనితీరును తగ్గిస్తుంది.

దిగువ చిత్రంలో మీరు చూడవచ్చు, మాపర్ పని సంఖ్య 1.

MySQL పట్టికలను దిగుమతి చేసేటప్పుడు సృష్టించబడిన ఫైళ్ళ సంఖ్య సృష్టించబడిన మ్యాపర్ సంఖ్యకు సమానం.

  • స్కూప్ - ఎక్కడ నిబంధనతో దిగుమతి కమాండ్

Sqoop దిగుమతి సాధనంలో ‘ఎక్కడ’ నిబంధనను ఉపయోగించి మీరు పట్టిక యొక్క ఉపసమితిని దిగుమతి చేసుకోవచ్చు. ఇది సంబంధిత డేటాబేస్ సర్వర్‌లో సంబంధిత SQL ప్రశ్నను అమలు చేస్తుంది మరియు ఫలితాన్ని HDFS లో లక్ష్య డైరెక్టరీలో నిల్వ చేస్తుంది. ‘తో డేటాను దిగుమతి చేసుకోవడానికి మీరు ఈ క్రింది ఆదేశాన్ని ఉపయోగించవచ్చు ఎక్కడ ' ఉపవాక్య:

sqoop import --connect jdbc: mysql: // localhost / employees --username edureka --table employees --m 3 - ఎక్కడైనా 'emp_no & gt 49000' --target-dir / Latest_Employees

  • స్కూప్ - పెరుగుతున్న దిగుమతి

Sqoop పెరుగుతున్న దిగుమతి మోడ్‌ను అందిస్తుంది, ఇది గతంలో దిగుమతి చేసుకున్న కొన్ని వరుసల కన్నా క్రొత్త వరుసలను మాత్రమే తిరిగి పొందటానికి ఉపయోగపడుతుంది. స్కూప్ రెండు రకాల పెరుగుతున్న దిగుమతులకు మద్దతు ఇస్తుంది: చేర్చండి మరియు చివరిసారిగా మార్పు చేయబడిన . నిర్వహించడానికి దిగుమతి రకాన్ని పేర్కొనడానికి మీరు –ఇన్క్రిమెంటల్ ఆర్గ్యుమెంట్‌ను ఉపయోగించవచ్చు.

మీరు పేర్కొనాలి చేర్చండి పెరుగుతున్న అడ్డు వరుస ఐడి విలువలతో కొత్త వరుసలు నిరంతరం జోడించబడుతున్న పట్టికను దిగుమతి చేసేటప్పుడు మోడ్. మీరు అడ్డు వరుస యొక్క ఐడిని కలిగి ఉన్న కాలమ్‌ను పేర్కొనండి -చెక్-కాలమ్ . చెక్ కాలమ్ పేర్కొన్న విలువ కంటే ఎక్కువ విలువను కలిగి ఉన్న స్కూప్ అడ్డు వరుసలను దిగుమతి చేస్తుంది –లాస్ట్-విలువ .

Sqoop చేత మద్దతు ఇవ్వబడిన ప్రత్యామ్నాయ పట్టిక నవీకరణ వ్యూహాన్ని అంటారు చివరిసారిగా మార్పు చేయబడిన మోడ్. మూల పట్టిక యొక్క అడ్డు వరుసలు నవీకరించబడినప్పుడు మీరు దీన్ని ఉపయోగించాలి మరియు అలాంటి ప్రతి నవీకరణ చివరి మార్పు చేసిన కాలమ్ విలువను ప్రస్తుత టైమ్‌స్టాంప్‌కు సెట్ చేస్తుంది.

తదుపరి దిగుమతిని అమలు చేస్తున్నప్పుడు, మీరు పేర్కొనాలి –లాస్ట్-విలువ ఈ విధంగా మీరు క్రొత్త లేదా నవీకరించబడిన డేటాను మాత్రమే దిగుమతి చేసుకుంటున్నారని నిర్ధారించుకోండి. పెరుగుతున్న దిగుమతిని సేవ్ చేసిన ఉద్యోగంగా సృష్టించడం ద్వారా ఇది స్వయంచాలకంగా నిర్వహించబడుతుంది, ఇది పునరావృతమయ్యే పెరుగుతున్న దిగుమతిని నిర్వహించడానికి ఇష్టపడే విధానం.

మొదట, మేము క్రొత్త వరుసను చొప్పించాము, అది మా HDFS లో నవీకరించబడుతుంది.

పెరుగుతున్న దిగుమతి కోసం ఆదేశం:

sqoop import --connect jdbc: mysql: // localhost / employees --username edureka --table employees --target-dir / Latest_Employees --incremental append --check-column emp_no --last-value 499999

మీరు క్రింది చిత్రంలో చూడవచ్చు, నవీకరించబడిన డేటాతో క్రొత్త ఫైల్ సృష్టించబడుతుంది.

  • స్కూప్ - అన్ని పట్టికలను దిగుమతి చేయండి

మీరు అన్ని పట్టికలను RDBMS డేటాబేస్ సర్వర్ నుండి HDFS కు దిగుమతి చేసుకోవచ్చు. ప్రతి పట్టిక డేటా ప్రత్యేక డైరెక్టరీలో నిల్వ చేయబడుతుంది మరియు డైరెక్టరీ పేరు పట్టిక పేరు వలె ఉంటుంది. ఆ డేటాబేస్లోని ప్రతి పట్టికలో ప్రాథమిక కీ ఫీల్డ్ ఉండాలి. డేటాబేస్ నుండి అన్ని పట్టికలను దిగుమతి చేసే ఆదేశం:

sqoop import-all-table - కనెక్ట్ jdbc: mysql: // localhost / employees --username edureka

  • స్కూప్ - జాబితా డేటాబేస్

మీరు Sqoop ఉపయోగించి రిలేషన్ డేటాబేస్లో ఉన్న డేటాబేస్లను జాబితా చేయవచ్చు. స్కూప్ జాబితా-డేటాబేస్ సాధనం డేటాబేస్ సర్వర్‌కు వ్యతిరేకంగా ‘షో డేటాబేస్’ ప్రశ్నను అన్వయించి అమలు చేస్తుంది. డేటాబేస్లను జాబితా చేయడానికి ఆదేశం:

sqoop list-databaseases - కనెక్ట్ jdbc: mysql: // localhost / --username edureka

  • స్కూప్ - జాబితా పట్టికలు

మీరు Sqoop ని ఉపయోగించి MySQL డేటాబేస్ సర్వర్‌లోని ఒక నిర్దిష్ట డేటాబేస్ యొక్క పట్టికలను కూడా జాబితా చేయవచ్చు. స్కూప్ జాబితా-పట్టికల సాధనం ‘షో టేబుల్స్’ ప్రశ్నను అన్వయించి అమలు చేస్తుంది. పట్టికలను జాబితా చేయడానికి ఆదేశం ఒక డేటాబేస్:

sqoop list-tables - కనెక్ట్ jdbc: mysql: // localhost / employees --username edureka

pl sql online free నేర్చుకోండి
  • స్కూప్ - ఎగుమతి

మేము పైన చర్చించినట్లుగా, మీరు HDFS నుండి RDBMS డేటాబేస్కు డేటాను ఎగుమతి చేయవచ్చు. లక్ష్య పట్టిక లక్ష్య డేటాబేస్లో ఉండాలి.డేటా HDFS లో రికార్డులుగా నిల్వ చేయబడుతుంది. ఈ రికార్డులు వినియోగదారు-పేర్కొన్న డీలిమిటర్‌తో చదవబడతాయి మరియు అన్వయించబడతాయి మరియు వేరు చేయబడతాయి.ఇన్సర్ట్ స్టేట్మెంట్ ఉపయోగించి ఇన్పుట్ ఫైళ్ళ నుండి డేటాబేస్ టేబుల్కు అన్ని రికార్డ్లను ఇన్సర్ట్ చేయడం డిఫాల్ట్ ఆపరేషన్. నవీకరణ మోడ్‌లో, ఇప్పటికే ఉన్న రికార్డ్‌ను డేటాబేస్‌లో భర్తీ చేసే UPDATE స్టేట్‌మెంట్‌ను Sqoop ఉత్పత్తి చేస్తుంది.

కాబట్టి, మొదట మేము ఖాళీ పట్టికను సృష్టిస్తున్నాము, అక్కడ మేము మా డేటాను ఎగుమతి చేస్తాము.

HDFS నుండి రిలేషనల్ డేటాబేస్కు డేటాను ఎగుమతి చేసే ఆదేశం:

sqoop export --connect jdbc: mysql: // localhost / employees --username edureka --table emp --export-dir / user / edureka / employees

  • స్కూప్ - కోడెన్

ఆబ్జెక్ట్-ఓరియెంటెడ్ అప్లికేషన్‌లో, ప్రతి డేటాబేస్ టేబుల్‌లో ఒక డేటా యాక్సెస్ ఆబ్జెక్ట్ క్లాస్ ఉంటుంది, అది వస్తువులను ప్రారంభించడానికి ‘గెట్టర్’ మరియు ‘సెట్టర్’ పద్ధతులను కలిగి ఉంటుంది. కోడ్‌జెన్ DAO తరగతిని స్వయంచాలకంగా ఉత్పత్తి చేస్తుంది. ఇది టేబుల్ స్కీమా నిర్మాణం ఆధారంగా జావాలో DAO తరగతిని ఉత్పత్తి చేస్తుంది.

జావా కోడ్‌ను రూపొందించే ఆదేశం:

sqoop codegen --connect jdbc: mysql: // localhost / employees --username edureka - టేబుల్ ఉద్యోగులు

కోడ్ ఉత్పత్తి చేయబడిన పై చిత్రంలో మీరు మార్గాన్ని చూడవచ్చు. మనం దారికి వెళ్లి సృష్టించిన ఫైళ్ళను తనిఖీ చేద్దాం.

ఈ బ్లాగ్ మీకు సమాచారం మరియు అదనపు విలువను ఇస్తుందని నేను ఆశిస్తున్నాను. మీరు మరింత తెలుసుకోవడానికి ఆసక్తి కలిగి ఉంటే, మీరు దీని ద్వారా వెళ్ళవచ్చు ఇది బిగ్ డేటా గురించి మరియు హడూప్ బిగ్ డేటాకు సంబంధించిన సవాళ్లను ఎలా పరిష్కరిస్తుందో మీకు తెలియజేస్తుంది.

ఇప్పుడు మీరు అపాచీ స్కూప్‌ను అర్థం చేసుకున్నారు, చూడండి ప్రపంచవ్యాప్తంగా 250,000 కంటే ఎక్కువ సంతృప్తికరమైన అభ్యాసకుల నెట్‌వర్క్‌తో విశ్వసనీయ ఆన్‌లైన్ లెర్నింగ్ సంస్థ ఎడురేకా చేత. రిటైల్, సోషల్ మీడియా, ఏవియేషన్, టూరిజం, ఫైనాన్స్ డొమైన్‌లో రియల్ టైమ్ యూజ్ కేసులను ఉపయోగించి హెచ్‌డిఎఫ్‌ఎస్, నూలు, మ్యాప్‌రెడ్యూస్, పిగ్, హైవ్, హెచ్‌బేస్, ఓజీ, ఫ్లూమ్ మరియు స్కూప్‌లో నిపుణులు కావడానికి ఎడురేకా బిగ్ డేటా హడూప్ సర్టిఫికేషన్ ట్రైనింగ్ కోర్సు సహాయపడుతుంది.

మాకు ప్రశ్న ఉందా? దయచేసి దీన్ని వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.