స్క్రాపీ ట్యుటోరియల్: స్క్రాపీని ఉపయోగించి వెబ్-క్రాలర్‌ను ఎలా తయారు చేయాలి?



ఈ స్క్రాపీ ట్యుటోరియల్ వ్యాసంలో, మీరు వివిధ డేటా వెలికితీత పద్ధతులు మరియు డేటాబేస్లో డేటాను నిల్వ చేసే మార్గాలతో వెబ్-క్రాలర్ చేయడానికి నేర్చుకుంటారు.

వెబ్ స్క్రాపింగ్ అనేది వెబ్‌పేజీల నుండి డేటాను సేకరించడానికి ఒక ప్రభావవంతమైన మార్గం, ఇది ప్రభావవంతమైన సాధనంగా మారింది . వివిధ తో గ్రంథాలయాలు వంటి వెబ్ స్క్రాపింగ్ కోసం ప్రదర్శించండి , డేటా సైంటిస్ట్ పని సరైనది అవుతుంది. స్క్రాపీ అనేది డేటాను సేకరించేందుకు, ప్రాసెస్ చేయడానికి మరియు నిల్వ చేయడానికి ఉపయోగించే శక్తివంతమైన వెబ్ ఫ్రేమ్‌వర్క్. ఈ స్క్రాపీ ట్యుటోరియల్‌లో వెబ్ క్రాలర్‌ను ఎలా తయారు చేయవచ్చో నేర్చుకుంటాము, ఈ బ్లాగులో చర్చించిన విషయాలు క్రిందివి:

స్క్రాపీ అంటే ఏమిటి?

స్క్రాపీ అనేది పైథాన్‌లో వ్రాయబడిన ఉచిత మరియు ఓపెన్-సోర్స్ వెబ్ క్రాలింగ్ ఫ్రేమ్‌వర్క్. ఇది మొదట ప్రదర్శించడానికి రూపొందించబడింది , కానీ API లను ఉపయోగించి డేటాను సేకరించేందుకు కూడా ఉపయోగించవచ్చు. దీనిని స్క్రాపింగ్‌హబ్ లిమిటెడ్ నిర్వహిస్తుంది.





వెబ్‌పేజీలను డౌన్‌లోడ్ చేయడం, డేటాను ప్రాసెస్ చేయడం మరియు నిల్వ చేయడం వంటివి చేసినప్పుడు స్క్రాపీ పూర్తి ప్యాకేజీ .

వెబ్‌సైట్‌ను స్క్రాప్ చేయడానికి బహుళ మార్గాలతో వెబ్ స్క్రాపింగ్ విషయానికి వస్తే ఇది పవర్‌హౌస్ లాంటిది. స్క్రాపీ పెద్ద పనులను సులభంగా నిర్వహిస్తుంది, బహుళ పేజీలను లేదా URL ల సమూహాన్ని ఒక నిమిషం లోపు స్క్రాప్ చేస్తుంది. ఇది సమకాలీకరణను సాధించడానికి అసమకాలికంగా పనిచేసే ట్విస్టర్‌ను ఉపయోగిస్తుంది.



ఇది సాధారణ మరియు లోతైన క్రాలర్లను సృష్టించడానికి అనుమతించే స్పైడర్ కాంట్రాక్టులను అందిస్తుంది. డేటాలో విలువలను మార్చడం వంటి వివిధ కార్యకలాపాలను చేయగల స్పైడర్‌లో ఫంక్షన్లను సృష్టించడానికి స్క్రాపీ ఐటెమ్ పైప్‌లైన్‌లను అందిస్తుంది.

స్క్రాపీ ఆర్కిటెక్చర్-స్క్రాపీ ట్యుటోరియల్-ఎడురేకా

వెబ్-క్రాలర్ అంటే ఏమిటి?

వెబ్-క్రాలర్ అనేది వెబ్‌లోని పత్రాల కోసం స్వయంచాలకంగా శోధించే ప్రోగ్రామ్. అవి ప్రధానంగా ఆటోమేటెడ్ బ్రౌజింగ్ కోసం పునరావృత చర్య కోసం ప్రోగ్రామ్ చేయబడతాయి.

అది ఎలా పని చేస్తుంది?



వెబ్-క్రాలర్ లైబ్రేరియన్‌తో సమానంగా ఉంటుంది. ఇది వెబ్‌లోని సమాచారం కోసం చూస్తుంది, సమాచారాన్ని వర్గీకరిస్తుంది మరియు తరువాత క్రాల్ చేసిన సమాచారాన్ని తిరిగి పొందటానికి మరియు తదనుగుణంగా నిల్వ చేయడానికి సమాచారాన్ని సూచికలు మరియు జాబితా చేస్తుంది.

క్రాలర్ చేత చేయబడే ఆపరేషన్లు ముందే సృష్టించబడతాయి, తరువాత క్రాలర్ ఆ ఆపరేషన్లన్నింటినీ స్వయంచాలకంగా చేస్తుంది, ఇది సూచికను సృష్టిస్తుంది. ఈ సూచికలను అవుట్పుట్ సాఫ్ట్‌వేర్ ద్వారా యాక్సెస్ చేయవచ్చు.

వెబ్-క్రాలర్ వీటి కోసం ఉపయోగించగల వివిధ అనువర్తనాలను పరిశీలిద్దాం:

  • వెబ్-క్రాలర్ ఉపయోగించి వేర్వేరు ప్లాట్‌ఫామ్‌లపై ధరలను పోల్చడానికి ధర పోలిక పోర్టల్స్ నిర్దిష్ట ఉత్పత్తి వివరాల కోసం శోధిస్తాయి.

  • సమాచారం తిరిగి పొందటానికి డేటా మైనింగ్ రంగంలో వెబ్-క్రాలర్ చాలా ముఖ్యమైన పాత్ర పోషిస్తుంది.

  • పేజీ వీక్షణలు, ఇన్‌బౌండ్ మరియు అవుట్‌బౌండ్ లింక్‌ల కోసం డేటాను లెక్కించడానికి డేటా విశ్లేషణ సాధనాలు వెబ్-క్రాలర్‌లను ఉపయోగిస్తాయి.

  • న్యూస్ పోర్టల్స్ వంటి డేటాను సేకరించడానికి క్రాలర్లు సమాచార కేంద్రాలకు కూడా సేవలు అందిస్తారు.

స్క్రాపీని ఎలా ఇన్స్టాల్ చేయాలి?

మీ సిస్టమ్‌లో స్క్రాపీని ఇన్‌స్టాల్ చేయడానికి, దీన్ని ప్రత్యేకమైన వర్చువాలెన్వ్‌లో ఇన్‌స్టాల్ చేయాలని సిఫార్సు చేయబడింది. మీరు ఉపయోగిస్తుంటే, పైథాన్‌లోని ఇతర ప్యాకేజీలతో ఇన్‌స్టాలేషన్ చాలా పోలి ఉంటుంది కాండా పర్యావరణం, స్క్రాపీని వ్యవస్థాపించడానికి కింది ఆదేశాన్ని ఉపయోగించండి:

conda install -c conda-forge scrapy

స్క్రాపీని వ్యవస్థాపించడానికి మీరు పైప్ వాతావరణాన్ని కూడా ఉపయోగించవచ్చు,

పిప్ ఇన్‌స్టాల్ స్క్రాపీ

మీ ఆపరేటింగ్ సిస్టమ్‌ను బట్టి కొన్ని సంకలన డిపెండెన్సీలు ఉండవచ్చు. స్క్రాపీ స్వచ్ఛమైన పైథాన్‌లో వ్రాయబడింది మరియు కొన్ని పైథాన్ ప్యాకేజీలపై ఆధారపడి ఉంటుంది:

  • lxml - ఇది సమర్థవంతమైన XML మరియు HTML పార్సర్.

  • పార్సెల్ - ఒక HTML / XML వెలికితీత లైబ్రరీ పైన lxml లో వ్రాయబడింది

  • W3lib - ఇది URL లు మరియు వెబ్‌పేజీ ఎన్‌కోడింగ్‌లతో వ్యవహరించడానికి బహుళ ప్రయోజన సహాయకుడు

  • వక్రీకృత - అసమకాలిక నెట్‌వర్కింగ్ ఫ్రేమ్‌వర్క్

  • గూ pt లిపి శాస్త్రం - ఇది వివిధ నెట్‌వర్క్-స్థాయి భద్రతా అవసరాలకు సహాయపడుతుంది

మీ మొదటి స్క్రాపీ ప్రాజెక్ట్ను ప్రారంభించడం

మీ మొదటి స్క్రాపీ ప్రాజెక్ట్ను ప్రారంభించడానికి, మీరు మీ ఫైళ్ళను సేవ్ చేయదలిచిన డైరెక్టరీ లేదా స్థానానికి వెళ్లి, కింది ఆదేశాన్ని అమలు చేయండి

జావాలో అనుబంధం అంటే ఏమిటి
స్క్రాపీ స్టార్ట్‌ప్రొజెక్ట్ ప్రాజెక్ట్ పేరు

మీరు ఈ ఆదేశాన్ని అమలు చేసిన తర్వాత, మీరు ఆ ప్రదేశంలో సృష్టించబడిన క్రింది డైరెక్టరీలను పొందుతారు.

  • ప్రాజెక్ట్ పేరు/

    • scrapy.cfg: ఇది కాన్ఫిగరేషన్ ఫైల్‌ను అమలు చేస్తుంది

  • ప్రాజెక్ట్ పేరు/

  • సాలెపురుగులు /

    • __init__.py: తరువాత మీరు మీ సాలెపురుగులను ఉంచే డైరెక్టరీ

మీ మొదటి స్పైడర్‌ను తయారు చేయడం

సాలెపురుగులు మేము నిర్వచించే తరగతులు మరియు వెబ్ నుండి సమాచారాన్ని సేకరించడానికి స్క్రాపీ ఉపయోగిస్తుంది. మీరు తప్పనిసరిగా సబ్‌క్లాపీ స్క్రాపీ.స్పైడర్ మరియు ప్రారంభ అభ్యర్థనలను నిర్వచించండి.

మీరు మీ స్పైడర్ కోసం కోడ్‌ను ప్రత్యేక పైథాన్ ఫైల్‌లో వ్రాసి, మీ ప్రాజెక్ట్‌లోని ప్రాజెక్ట్ పేరు / స్పైడర్స్ డైరెక్టరీలో సేవ్ చేయండి.

quotes_spider.py

దిగుమతి స్క్రాపీ క్లాస్ QuotesSpider (scrapy.Spider): name = 'quotes' def start_request (self): urls = ['http://quotes.toscrape.com/page/1/', http://quotes.toscrape.com / page / 2 /,] url లో url కోసం: దిగుబడి scrapy.Request (url = url, callback = self.parse) def parse (self, response): page = response.url.split ('/') [- 2 ] filename = 'quotes-% s.html'% పేజీ ఓపెన్ (ఫైల్ పేరు, 'wb') తో f: f.write (response.body) self.log ('సేవ్ చేసిన ఫైల్% s'% ఫైల్ పేరు)

మీరు గమనిస్తే, మేము మా సాలెపురుగులలో వివిధ విధులను నిర్వచించాము,

  • పేరు: ఇది సాలీడును గుర్తిస్తుంది, ఇది ప్రాజెక్ట్ అంతటా ప్రత్యేకంగా ఉండాలి.

  • start_requests (): సాలీడు క్రాల్ చేయటం ప్రారంభించే అభ్యర్ధనలను తిరిగి ఇవ్వాలి.

  • పార్స్ (): ఇది ప్రతి అభ్యర్థనతో డౌన్‌లోడ్ చేసిన ప్రతిస్పందనను నిర్వహించడానికి పిలువబడే ఒక పద్ధతి.

డేటాను సంగ్రహిస్తోంది

ఇప్పటి వరకు సాలీడు ఏ డేటాను తీయదు, అది మొత్తం HTML ఫైల్‌ను సేవ్ చేసింది. స్క్రాపీ స్పైడర్ సాధారణంగా పేజీ నుండి సేకరించిన డేటాను కలిగి ఉన్న అనేక నిఘంటువులను ఉత్పత్తి చేస్తుంది. డేటాను సేకరించేందుకు మేము బ్యాక్‌బ్యాక్‌లోని పైథాన్‌లో దిగుబడి కీవర్డ్‌ని ఉపయోగిస్తాము.

దిగుమతి స్క్రాపీ క్లాస్ QuotesSpider (scrapy.Spider): name = 'quotes' start_urls = [http://quotes.toscrape.com/page/1/ ', http://quotes.toscrape.com/page/2/,] def parse (self, response): response.css ('div.quote') లో కోట్ కోసం: దిగుబడి {'text': quote.css (span.text :: text '). పొందండి (),' author ': quote .css (small.author::text ') పొందండి (),' tags ': quote.css (div.tags a.tag :: text'). getall ()}

మీరు ఈ సాలీడును నడుపుతున్నప్పుడు, అది సేకరించిన డేటాను లాగ్‌తో అవుట్పుట్ చేస్తుంది.

డేటాను నిల్వ చేస్తుంది

సేకరించిన డేటాను నిల్వ చేయడానికి సరళమైన మార్గం ఫీడ్ ఎగుమతులను ఉపయోగించడం, మీ డేటాను నిల్వ చేయడానికి క్రింది ఆదేశాన్ని ఉపయోగించండి.

స్క్రాపీ క్రాల్ కోట్స్ -o quotes.json

ఈ ఆదేశం సీరియల్ చేయబడిన అన్ని స్క్రాప్ చేసిన అంశాలను కలిగి ఉన్న quotes.json ఫైల్‌ను ఉత్పత్తి చేస్తుంది JSON .

ఇది ఈ వ్యాసం చివరకి తీసుకువస్తుంది, ఇక్కడ పైథాన్‌లో స్క్రాపీని ఉపయోగించి వెబ్-క్రాలర్‌ను ఎలా తయారు చేయాలో నేర్చుకున్నాము, వెబ్‌సైట్‌ను స్క్రాప్ చేయడానికి మరియు డేటాను JSON ఫైల్‌లోకి తీయడానికి. ఈ ట్యుటోరియల్‌లో మీతో పంచుకున్న అన్ని విషయాలతో మీరు స్పష్టంగా ఉన్నారని నేను ఆశిస్తున్నాను.

“స్క్రాపీ ట్యుటోరియల్” పై మీరు ఈ కథనాన్ని కనుగొంటే, చూడండి ప్రపంచవ్యాప్తంగా 250,000 కంటే ఎక్కువ సంతృప్తికరమైన అభ్యాసకుల నెట్‌వర్క్‌తో విశ్వసనీయ ఆన్‌లైన్ లెర్నింగ్ సంస్థ.

మీ ప్రయాణంలో అడుగడుగునా మీకు సహాయం చేయడానికి మేము ఇక్కడ ఉన్నాము మరియు విద్యార్థులు మరియు నిపుణుల కోసం రూపొందించిన పాఠ్యాంశాలను రూపొందించండి. . ఈ కోర్సు మీకు పైథాన్ ప్రోగ్రామింగ్‌లోకి రావడానికి మరియు వివిధ మరియు ప్రధాన మరియు అధునాతన పైథాన్ భావనలకు శిక్షణ ఇవ్వడానికి రూపొందించబడింది వంటి

మీకు ఏవైనా ప్రశ్నలు వస్తే, “స్క్రాపీ ట్యుటోరియల్” యొక్క వ్యాఖ్యల విభాగంలో మీ ప్రశ్నలన్నింటినీ అడగడానికి సంకోచించకండి మరియు మా బృందం సమాధానం ఇవ్వడానికి సంతోషిస్తుంది.