HDFS ట్యుటోరియల్: HDFS & దాని లక్షణాల పరిచయం



ఈ HDFS ట్యుటోరియల్ బ్లాగ్ HDFS లేదా హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్ & దాని లక్షణాలను అర్థం చేసుకోవడానికి మీకు సహాయపడుతుంది. మీరు దాని ప్రధాన భాగాలను కూడా క్లుప్తంగా అన్వేషిస్తారు.

HDFS ట్యుటోరియల్

ఈ HDFS ట్యుటోరియల్ బ్లాగులో ముందుకు వెళ్ళే ముందు, HDFS కి సంబంధించిన కొన్ని పిచ్చి గణాంకాల ద్వారా మిమ్మల్ని తీసుకెళతాను:

  • 2010 లో, ఫేస్బుక్ అతిపెద్ద HDFS క్లస్టర్ నిల్వలో ఒకటిగా పేర్కొంది 21 పెటాబైట్స్ డేటా.
  • 2012 లో, ఫేస్బుక్ కంటే ఎక్కువ అతిపెద్ద సింగిల్ హెచ్‌డిఎఫ్‌ఎస్ క్లస్టర్‌ను కలిగి ఉన్నట్లు ప్రకటించారు 100 పిబి డేటా .
  • మరియు యాహూ ! కంటే ఎక్కువ ఉంది 100,000 సిపియు పైగా 40,000 సర్వర్లు హడూప్ నడుస్తోంది, దాని అతిపెద్ద హడూప్ క్లస్టర్ నడుస్తోంది 4,500 నోడ్లు . అన్నీ చెప్పారు, Yahoo! దుకాణాలు 455 పెటాబైట్లు HDFS లోని డేటా.
  • వాస్తవానికి, 2013 నాటికి, ఫార్చ్యూన్ 50 లోని చాలా పెద్ద పేర్లు హడూప్ ఉపయోగించడం ప్రారంభించాయి.

జీర్ణించుకోవడం చాలా కష్టమేనా? కుడి. లో చర్చించినట్లు , హడూప్‌కు రెండు ప్రాథమిక యూనిట్లు ఉన్నాయి - ఎస్ torage మరియు ప్రాసెసింగ్ . నేను హడూప్ యొక్క నిల్వ భాగం అని చెప్పినప్పుడు, నేను సూచిస్తున్నాను HDFS ఇది నిలుస్తుంది హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్ . కాబట్టి, ఈ బ్లాగులో, నేను మీకు పరిచయం చేస్తాను HDFS .





ఇక్కడ, నేను దీని గురించి మాట్లాడుతున్నాను:

  • HDFS అంటే ఏమిటి?
  • HDFS యొక్క ప్రయోజనాలు
  • HDFS యొక్క లక్షణాలు

HDFS గురించి మాట్లాడే ముందు, డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్ అంటే ఏమిటి?



DFS లేదా పంపిణీ ఫైల్ సిస్టమ్:

పంపిణీ ఫైల్ సిస్టమ్ గురించి మాట్లాడుతుంది మేనేజింగ్ సమాచారం , అనగా. బహుళ కంప్యూటర్లు లేదా సర్వర్లలో ఫైల్‌లు లేదా ఫోల్డర్‌లు. మరో మాటలో చెప్పాలంటే, DFS అనేది ఒక ఫైల్ సిస్టమ్, ఇది క్లస్టర్‌లోని బహుళ నోడ్‌లు లేదా యంత్రాల ద్వారా డేటాను నిల్వ చేయడానికి అనుమతిస్తుంది మరియు బహుళ వినియోగదారులను డేటాను యాక్సెస్ చేయడానికి అనుమతిస్తుంది. కాబట్టి ప్రాథమికంగా, ఇది మీ మెషీన్‌లో అందుబాటులో ఉన్న ఫైల్ సిస్టమ్ వలె పనిచేస్తుంది, మీకు NTFS (న్యూ టెక్నాలజీ ఫైల్ సిస్టమ్) ఉన్న విండోస్ లేదా మాక్ కోసం మీకు HFS (హైరార్కికల్ ఫైల్ సిస్టమ్) ఉంది. ఒకే తేడా ఏమిటంటే, డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్ విషయంలో, మీరు సింగిల్ మెషీన్ కంటే బహుళ మెషీన్లలో డేటాను నిల్వ చేస్తారు. ఫైల్‌లు నెట్‌వర్క్‌లో నిల్వ చేయబడినప్పటికీ, DFS డేటాను నిర్వహిస్తుంది మరియు ప్రదర్శిస్తుంది, ఒక మెషీన్‌లో కూర్చున్న వినియోగదారుడు అన్ని డేటాను ఆ యంత్రంలోనే నిల్వ చేసినట్లు అనిపిస్తుంది.

జావా డబుల్ పూర్ణాంకానికి మారుస్తుంది

HDFS అంటే ఏమిటి?

హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్ లేదా హెచ్‌డిఎఫ్‌ఎస్ అనేది జావా ఆధారిత డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్, ఇది హడూప్ క్లస్టర్‌లో బహుళ నోడ్‌లలో పెద్ద డేటాను నిల్వ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది. కాబట్టి, మీరు హడూప్‌ను ఇన్‌స్టాల్ చేస్తే, పంపిణీ చేయబడిన వాతావరణంలో డేటాను నిల్వ చేయడానికి మీరు హెచ్‌డిఎఫ్‌ఎస్‌ను అంతర్లీన నిల్వ వ్యవస్థగా పొందుతారు.

దీన్ని అర్థం చేసుకోవడానికి ఒక ఉదాహరణ తీసుకుందాం. ప్రతి మెషీన్‌లో 1 టిబి హార్డ్‌డ్రైవ్‌తో మీకు పది యంత్రాలు లేదా పది కంప్యూటర్లు ఉన్నాయని g హించుకోండి. ఇప్పుడు, ఈ పది యంత్రాల పైన మీరు హడూప్‌ను ప్లాట్‌ఫామ్‌గా ఇన్‌స్టాల్ చేస్తే, మీకు హెచ్‌డిఎఫ్‌ఎస్‌ను నిల్వ సేవగా పొందుతారు. హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్ పంపిణీ చేయబడుతుంది, ప్రతి మెషీన్ ఎలాంటి డేటాను నిల్వ చేయడానికి వారి వ్యక్తిగత నిల్వకు దోహదం చేస్తుంది.



HDFS ట్యుటోరియల్: HDFS యొక్క ప్రయోజనాలు

1. పంపిణీ చేసిన నిల్వ:

పంపిణీ చేసిన నిల్వ - HDFS ట్యుటోరియల్ - ఎడురేకా

మీరు హడూప్ క్లస్టర్‌లోని పది యంత్రాల నుండి హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్‌ను యాక్సెస్ చేసినప్పుడు, మీరు 10 టిబి (మొత్తం పది యంత్రాలకు పైగా నిల్వ) నిల్వ సామర్థ్యం కలిగిన ఒకే పెద్ద యంత్రంలోకి లాగిన్ అయినట్లు మీకు అనిపిస్తుంది. దాని అర్థం ఏమిటి? మీరు 10 టిబిల యొక్క ఒక పెద్ద ఫైల్‌ను నిల్వ చేయవచ్చని దీని అర్థం, ఇది పది యంత్రాలపై పంపిణీ చేయబడుతుంది (ఒక్కొక్కటి 1 టిబి).కాబట్టి ఇది భౌతిక సరిహద్దులకు పరిమితం కాదు ప్రతి వ్యక్తి యంత్రం.

2. పంపిణీ మరియు సమాంతర గణన:

డేటా యంత్రాల మధ్య విభజించబడినందున, ఇది మాకు ప్రయోజనాన్ని పొందటానికి అనుమతిస్తుంది పంపిణీ మరియు సమాంతర గణన . పై ఉదాహరణ ద్వారా ఈ భావనను అర్థం చేసుకుందాం. ఒకే యంత్రంలో 1 టిబి ఫైల్‌ను ప్రాసెస్ చేయడానికి 43 నిమిషాలు పడుతుందని అనుకుందాం. కాబట్టి, ఇప్పుడు నాకు చెప్పండి, అదే ఆకృతీకరణతో హడూప్ క్లస్టర్‌లో మీకు 10 యంత్రాలు ఉన్నప్పుడు అదే 1 టిబి ఫైల్‌ను ప్రాసెస్ చేయడానికి ఎంత సమయం పడుతుంది - 43 నిమిషాలు లేదా 4.3 నిమిషాలు? 4.3 నిమిషాలు, సరియైనది! ఇక్కడ ఏమి జరిగింది? ప్రతి నోడ్స్ సమాంతరంగా 1 టిబి ఫైల్ యొక్క ఒక భాగంతో పనిచేస్తున్నాయి. అందువల్ల, 43 నిమిషాల ముందు తీసుకుంటున్న పని కేవలం 4.3 నిమిషాల్లో పూర్తవుతుంది, ఎందుకంటే పని పది యంత్రాలకు పైగా విభజించబడింది.

3. క్షితిజసమాంతర స్కేలబిలిటీ:

చివరిది కాని, మనం మాట్లాడదాము క్షితిజ సమాంతర స్కేలింగ్ లేదా స్కేలింగ్ అవుట్ హడూప్‌లో. స్కేలింగ్‌లో రెండు రకాలు ఉన్నాయి: నిలువుగా మరియు క్షితిజ సమాంతర . నిలువు స్కేలింగ్‌లో (స్కేల్ అప్), మీరు మీ సిస్టమ్ యొక్క హార్డ్‌వేర్ సామర్థ్యాన్ని పెంచుతారు. మరో మాటలో చెప్పాలంటే, మీరు మరింత ర్యామ్ లేదా సిపియుని సేకరించి, దాన్ని మరింత దృ and ంగా మరియు శక్తివంతంగా చేయడానికి మీ ప్రస్తుత సిస్టమ్‌కు జోడించండి. కానీ నిలువు స్కేలింగ్ లేదా స్కేలింగ్ అప్‌తో సంబంధం ఉన్న సవాళ్లు ఉన్నాయి:

  • మీరు మీ హార్డ్‌వేర్ సామర్థ్యాన్ని పెంచే పరిమితి ఎల్లప్పుడూ ఉంటుంది. కాబట్టి, మీరు యంత్రం యొక్క RAM లేదా CPU ని పెంచడం కొనసాగించలేరు.
  • నిలువు స్కేలింగ్‌లో, మీరు మొదట మీ యంత్రాన్ని ఆపివేస్తారు. అప్పుడు మీరు మరింత బలమైన హార్డ్‌వేర్ స్టాక్‌గా చేయడానికి RAM లేదా CPU ని పెంచుతారు. మీరు మీ హార్డ్‌వేర్ సామర్థ్యాన్ని పెంచిన తర్వాత, మీరు యంత్రాన్ని పున art ప్రారంభించండి. మీరు మీ సిస్టమ్‌ను ఆపే సమయం ఈ సవాలుగా మారుతుంది.

విషయంలో క్షితిజ సమాంతర స్కేలింగ్ (స్కేల్ అవుట్) , మీరు వ్యక్తిగత యంత్రాల హార్డ్‌వేర్ సామర్థ్యాన్ని పెంచడానికి బదులుగా ఇప్పటికే ఉన్న క్లస్టర్‌కు ఎక్కువ నోడ్‌లను జోడిస్తారు. మరియు ముఖ్యంగా, మీరు చేయవచ్చు ప్రయాణంలో మరిన్ని యంత్రాలను జోడించండి అనగా వ్యవస్థను ఆపకుండా . అందువల్ల, స్కేల్ చేస్తున్నప్పుడు మనకు సమయం లేదా గ్రీన్ జోన్ లేదు, అలాంటిదేమీ లేదు. రోజు చివరిలో, మీ అవసరాలను తీర్చడానికి సమాంతరంగా ఎక్కువ యంత్రాలు పని చేస్తాయి.

HDFS ట్యుటోరియల్ వీడియో:

HDFS కి సంబంధించిన అన్ని అంశాలు వివరంగా చర్చించబడిన క్రింద ఇవ్వబడిన వీడియోను మీరు చూడవచ్చు:

mysql_fetch_array

HDFS ట్యుటోరియల్: HDFS యొక్క లక్షణాలు

మేము మా తదుపరి HDFS ట్యుటోరియల్ బ్లాగులో HDFS ఆర్కిటెక్చర్‌ను అన్వేషించినప్పుడు ఈ లక్షణాలను వివరంగా అర్థం చేసుకుంటాము. కానీ, ప్రస్తుతానికి, HDFS యొక్క లక్షణాలపై ఒక అవలోకనాన్ని కలిగి ఉండండి:

  • ధర: HDFS, సాధారణంగా, మీరు ప్రతిరోజూ ఉపయోగించే మీ డెస్క్‌టాప్ / ల్యాప్‌టాప్ వంటి వస్తువుల హార్డ్‌వేర్‌పై అమర్చబడుతుంది. కాబట్టి, ప్రాజెక్ట్ యాజమాన్యం ఖర్చు పరంగా ఇది చాలా పొదుపుగా ఉంటుంది. మేము తక్కువ ఖర్చుతో కూడిన వస్తువుల హార్డ్‌వేర్‌ను ఉపయోగిస్తున్నందున, మీ హడూప్ క్లస్టర్‌ను స్కేల్ చేయడానికి మీరు పెద్ద మొత్తంలో డబ్బు ఖర్చు చేయవలసిన అవసరం లేదు. మరో మాటలో చెప్పాలంటే, మీ HDFS కు ఎక్కువ నోడ్‌లను జోడించడం ఖర్చుతో కూడుకున్నది.
  • డేటా యొక్క వెరైటీ మరియు వాల్యూమ్: మేము HDFS గురించి మాట్లాడేటప్పుడు భారీ డేటాను నిల్వ చేయడం గురించి మాట్లాడుతాము, అనగా టెరాబైట్స్ & పెటాబైట్ల డేటా మరియు వివిధ రకాల డేటా. కాబట్టి, మీరు ఏ రకమైన డేటాను హెచ్‌డిఎఫ్‌ఎస్‌లో నిల్వ చేయవచ్చు, అది నిర్మాణాత్మకంగా, నిర్మాణాత్మకంగా లేదా సెమీ స్ట్రక్చర్‌గా ఉండవచ్చు.
  • విశ్వసనీయత మరియు తప్పు సహనం: మీరు HDFS లో డేటాను నిల్వ చేసినప్పుడు, అది ఇచ్చిన డేటాను అంతర్గతంగా డేటా బ్లాక్‌లుగా విభజిస్తుంది మరియు మీ హడూప్ క్లస్టర్‌లో పంపిణీ పద్ధతిలో నిల్వ చేస్తుంది. మెటాడేటాలో ఏ డేటా నోడ్స్‌లో ఏ డేటా బ్లాక్ ఉందో సమాచారం. నేమ్‌నోడ్ మెటా డేటాను నిర్వహిస్తుంది మరియు డేటానోడ్స్ డేటాను నిల్వ చేయడానికి బాధ్యత వహిస్తారు.
    నేమ్ నోడ్ కూడా డేటాను ప్రతిబింబిస్తుంది, అనగా డేటా యొక్క బహుళ కాపీలను నిర్వహిస్తుంది. డేటా యొక్క ఈ ప్రతిరూపం HDFS ను చాలా నమ్మదగినదిగా మరియు తప్పును తట్టుకునేలా చేస్తుంది. కాబట్టి, నోడ్స్‌లో ఏదైనా విఫలమైనప్పటికీ, ఇతర డేటా నోడ్‌లలో నివసించే ప్రతిరూపాల నుండి డేటాను తిరిగి పొందవచ్చు. అప్రమేయంగా, ప్రతిరూపణ కారకం 3. కాబట్టి, మీరు 1 GB ఫైల్‌ను HDFS లో నిల్వ చేస్తే, అది చివరకు 3 GB స్థలాన్ని ఆక్రమిస్తుంది. పేరు నోడ్ క్రమానుగతంగా మెటాడేటాను నవీకరిస్తుంది మరియు ప్రతిరూపణ కారకాన్ని స్థిరంగా నిర్వహిస్తుంది.
  • డేటా సమగ్రత: డేటా సమగ్రత నా HDFS లో నిల్వ చేసిన డేటా సరైనదా కాదా అనే దాని గురించి మాట్లాడుతుంది. HDFS దాని చెక్‌సమ్‌కు వ్యతిరేకంగా నిల్వ చేసిన డేటా యొక్క సమగ్రతను నిరంతరం తనిఖీ చేస్తుంది. ఇది ఏదైనా లోపం కనుగొంటే, దాని గురించి పేరు నోడ్‌కు నివేదిస్తుంది. అప్పుడు, పేరు నోడ్ అదనపు కొత్త ప్రతిరూపాలను సృష్టిస్తుంది మరియు అందువల్ల పాడైన కాపీలను తొలగిస్తుంది.
  • అధిక నిర్గమాంశ: నిర్గమాంశ అంటే యూనిట్ సమయంలో చేసిన పని. ఇది మీరు ఫైల్ సిస్టమ్ నుండి డేటాను ఎంత వేగంగా యాక్సెస్ చేయగలదో దాని గురించి మాట్లాడుతుంది. సాధారణంగా, ఇది సిస్టమ్ పనితీరు గురించి మీకు అంతర్దృష్టిని ఇస్తుంది. పై ఉదాహరణలో మీరు చూసినట్లుగా, గణనను మెరుగుపరచడానికి మేము పది యంత్రాలను సమిష్టిగా ఉపయోగించాము. అక్కడ మేము ప్రాసెసింగ్ సమయాన్ని తగ్గించగలిగాము 43 నిమిషాలు కేవలం 4.3 నిమిషాలు అన్ని యంత్రాలు సమాంతరంగా పనిచేస్తున్నందున. అందువల్ల, డేటాను సమాంతరంగా ప్రాసెస్ చేయడం ద్వారా, మేము ప్రాసెసింగ్ సమయాన్ని విపరీతంగా తగ్గించాము మరియు తద్వారా అధిక నిర్గమాంశను సాధించాము.
  • డేటా ప్రాంతం: ప్రాసెసింగ్ యూనిట్‌కు డేటా కాకుండా ప్రాసెసింగ్ యూనిట్‌ను డేటాకు తరలించడం గురించి డేటా ప్రాంతం మాట్లాడుతుంది. మా సాంప్రదాయ వ్యవస్థలో, మేము డేటాను అప్లికేషన్ లేయర్‌కు తీసుకువచ్చి, ఆపై ప్రాసెస్ చేస్తాము. కానీ ఇప్పుడు, ఆర్కిటెక్చర్ మరియు డేటా యొక్క భారీ వాల్యూమ్ కారణంగా, డేటాను అప్లికేషన్ లేయర్‌కు తీసుకురావడం జరుగుతుందినెట్‌వర్క్ పనితీరును గుర్తించదగిన మేరకు తగ్గించండి.కాబట్టి, HDFS లో, మేము డేటా నివసించే డేటా నోడ్లకు గణన భాగాన్ని తీసుకువస్తాము. అందువల్ల, మీరు డేటాను తరలించడం లేదు, మీరు ప్రోగ్రామ్ లేదా ప్రాసెస్‌ను తీసుకువస్తున్నారుడేటాకు భాగం.

కాబట్టి ఇప్పుడు, మీకు HDFS మరియు దాని లక్షణాల గురించి సంక్షిప్త ఆలోచన ఉంది. కానీ నన్ను నమ్మండి, ఇది మంచుకొండ యొక్క కొన మాత్రమే. నా తదుపరి , నేను లోతుగా డైవ్ చేస్తాను HDFS నిర్మాణం మరియు నేను HDFS విజయం వెనుక రహస్యాలను ఆవిష్కరిస్తాను. మీ తలపై ఆలోచిస్తున్న అన్ని ప్రశ్నలకు మేము కలిసి సమాధానం ఇస్తాము:

  • మీరు హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్‌లో డేటాను చదివినప్పుడు లేదా వ్రాసేటప్పుడు తెర వెనుక ఏమి జరుగుతుంది?
  • HDFS ను తప్పుగా తట్టుకునేలా చేసే రాక్ అవగాహన వంటి అల్గోరిథంలు ఏమిటి?
  • హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్ ప్రతిరూపాన్ని ఎలా నిర్వహిస్తుంది మరియు సృష్టిస్తుంది?
  • బ్లాక్ కార్యకలాపాలు ఏమిటి?

ఇప్పుడు మీరు HDFS మరియు దాని లక్షణాలను అర్థం చేసుకున్నారు, చూడండి ప్రపంచవ్యాప్తంగా 250,000 కంటే ఎక్కువ సంతృప్తికరమైన అభ్యాసకుల నెట్‌వర్క్‌తో విశ్వసనీయ ఆన్‌లైన్ లెర్నింగ్ సంస్థ ఎడురేకా చేత. రిటైల్, సోషల్ మీడియా, ఏవియేషన్, టూరిజం, ఫైనాన్స్ డొమైన్‌లో రియల్ టైమ్ యూజ్ కేసులను ఉపయోగించి హెచ్‌డిఎఫ్‌ఎస్, నూలు, మ్యాప్‌రెడ్యూస్, పిగ్, హైవ్, హెచ్‌బేస్, ఓజీ, ఫ్లూమ్ మరియు స్కూప్‌లో నిపుణులు కావడానికి ఎడురేకా బిగ్ డేటా హడూప్ సర్టిఫికేషన్ ట్రైనింగ్ కోర్సు సహాయపడుతుంది.

మాకు ప్రశ్న ఉందా? దయచేసి దీన్ని వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.