వెబ్ స్క్రాపింగ్ అనేది వెబ్పేజీల నుండి డేటాను సేకరించడానికి ఒక ప్రభావవంతమైన మార్గం, ఇది ప్రభావవంతమైన సాధనంగా మారింది . వివిధ తో గ్రంథాలయాలు వంటి వెబ్ స్క్రాపింగ్ కోసం ప్రదర్శించండి , డేటా సైంటిస్ట్ పని సరైనది అవుతుంది. స్క్రాపీ అనేది డేటాను సేకరించేందుకు, ప్రాసెస్ చేయడానికి మరియు నిల్వ చేయడానికి ఉపయోగించే శక్తివంతమైన వెబ్ ఫ్రేమ్వర్క్. ఈ స్క్రాపీ ట్యుటోరియల్లో వెబ్ క్రాలర్ను ఎలా తయారు చేయవచ్చో నేర్చుకుంటాము, ఈ బ్లాగులో చర్చించిన విషయాలు క్రిందివి:
- స్క్రాపీ అంటే ఏమిటి?
- వెబ్ క్రాలర్ అంటే ఏమిటి?
- స్క్రాపీని ఎలా ఇన్స్టాల్ చేయాలి?
- మీ మొదటి స్క్రాపీ ప్రాజెక్ట్ను ప్రారంభించడం
- మీ మొదటి స్పైడర్ను తయారు చేయడం
- డేటాను సంగ్రహిస్తోంది
- సంగ్రహించిన డేటాను నిల్వ చేస్తుంది
స్క్రాపీ అంటే ఏమిటి?
స్క్రాపీ అనేది పైథాన్లో వ్రాయబడిన ఉచిత మరియు ఓపెన్-సోర్స్ వెబ్ క్రాలింగ్ ఫ్రేమ్వర్క్. ఇది మొదట ప్రదర్శించడానికి రూపొందించబడింది , కానీ API లను ఉపయోగించి డేటాను సేకరించేందుకు కూడా ఉపయోగించవచ్చు. దీనిని స్క్రాపింగ్హబ్ లిమిటెడ్ నిర్వహిస్తుంది.
వెబ్పేజీలను డౌన్లోడ్ చేయడం, డేటాను ప్రాసెస్ చేయడం మరియు నిల్వ చేయడం వంటివి చేసినప్పుడు స్క్రాపీ పూర్తి ప్యాకేజీ .
వెబ్సైట్ను స్క్రాప్ చేయడానికి బహుళ మార్గాలతో వెబ్ స్క్రాపింగ్ విషయానికి వస్తే ఇది పవర్హౌస్ లాంటిది. స్క్రాపీ పెద్ద పనులను సులభంగా నిర్వహిస్తుంది, బహుళ పేజీలను లేదా URL ల సమూహాన్ని ఒక నిమిషం లోపు స్క్రాప్ చేస్తుంది. ఇది సమకాలీకరణను సాధించడానికి అసమకాలికంగా పనిచేసే ట్విస్టర్ను ఉపయోగిస్తుంది.
ఇది సాధారణ మరియు లోతైన క్రాలర్లను సృష్టించడానికి అనుమతించే స్పైడర్ కాంట్రాక్టులను అందిస్తుంది. డేటాలో విలువలను మార్చడం వంటి వివిధ కార్యకలాపాలను చేయగల స్పైడర్లో ఫంక్షన్లను సృష్టించడానికి స్క్రాపీ ఐటెమ్ పైప్లైన్లను అందిస్తుంది.
వెబ్-క్రాలర్ అంటే ఏమిటి?
వెబ్-క్రాలర్ అనేది వెబ్లోని పత్రాల కోసం స్వయంచాలకంగా శోధించే ప్రోగ్రామ్. అవి ప్రధానంగా ఆటోమేటెడ్ బ్రౌజింగ్ కోసం పునరావృత చర్య కోసం ప్రోగ్రామ్ చేయబడతాయి.
అది ఎలా పని చేస్తుంది?
వెబ్-క్రాలర్ లైబ్రేరియన్తో సమానంగా ఉంటుంది. ఇది వెబ్లోని సమాచారం కోసం చూస్తుంది, సమాచారాన్ని వర్గీకరిస్తుంది మరియు తరువాత క్రాల్ చేసిన సమాచారాన్ని తిరిగి పొందటానికి మరియు తదనుగుణంగా నిల్వ చేయడానికి సమాచారాన్ని సూచికలు మరియు జాబితా చేస్తుంది.
క్రాలర్ చేత చేయబడే ఆపరేషన్లు ముందే సృష్టించబడతాయి, తరువాత క్రాలర్ ఆ ఆపరేషన్లన్నింటినీ స్వయంచాలకంగా చేస్తుంది, ఇది సూచికను సృష్టిస్తుంది. ఈ సూచికలను అవుట్పుట్ సాఫ్ట్వేర్ ద్వారా యాక్సెస్ చేయవచ్చు.
వెబ్-క్రాలర్ వీటి కోసం ఉపయోగించగల వివిధ అనువర్తనాలను పరిశీలిద్దాం:
వెబ్-క్రాలర్ ఉపయోగించి వేర్వేరు ప్లాట్ఫామ్లపై ధరలను పోల్చడానికి ధర పోలిక పోర్టల్స్ నిర్దిష్ట ఉత్పత్తి వివరాల కోసం శోధిస్తాయి.
సమాచారం తిరిగి పొందటానికి డేటా మైనింగ్ రంగంలో వెబ్-క్రాలర్ చాలా ముఖ్యమైన పాత్ర పోషిస్తుంది.
పేజీ వీక్షణలు, ఇన్బౌండ్ మరియు అవుట్బౌండ్ లింక్ల కోసం డేటాను లెక్కించడానికి డేటా విశ్లేషణ సాధనాలు వెబ్-క్రాలర్లను ఉపయోగిస్తాయి.
న్యూస్ పోర్టల్స్ వంటి డేటాను సేకరించడానికి క్రాలర్లు సమాచార కేంద్రాలకు కూడా సేవలు అందిస్తారు.
స్క్రాపీని ఎలా ఇన్స్టాల్ చేయాలి?
మీ సిస్టమ్లో స్క్రాపీని ఇన్స్టాల్ చేయడానికి, దీన్ని ప్రత్యేకమైన వర్చువాలెన్వ్లో ఇన్స్టాల్ చేయాలని సిఫార్సు చేయబడింది. మీరు ఉపయోగిస్తుంటే, పైథాన్లోని ఇతర ప్యాకేజీలతో ఇన్స్టాలేషన్ చాలా పోలి ఉంటుంది కాండా పర్యావరణం, స్క్రాపీని వ్యవస్థాపించడానికి కింది ఆదేశాన్ని ఉపయోగించండి:
conda install -c conda-forge scrapy
స్క్రాపీని వ్యవస్థాపించడానికి మీరు పైప్ వాతావరణాన్ని కూడా ఉపయోగించవచ్చు,
పిప్ ఇన్స్టాల్ స్క్రాపీ
మీ ఆపరేటింగ్ సిస్టమ్ను బట్టి కొన్ని సంకలన డిపెండెన్సీలు ఉండవచ్చు. స్క్రాపీ స్వచ్ఛమైన పైథాన్లో వ్రాయబడింది మరియు కొన్ని పైథాన్ ప్యాకేజీలపై ఆధారపడి ఉంటుంది:
lxml - ఇది సమర్థవంతమైన XML మరియు HTML పార్సర్.
పార్సెల్ - ఒక HTML / XML వెలికితీత లైబ్రరీ పైన lxml లో వ్రాయబడింది
W3lib - ఇది URL లు మరియు వెబ్పేజీ ఎన్కోడింగ్లతో వ్యవహరించడానికి బహుళ ప్రయోజన సహాయకుడు
వక్రీకృత - అసమకాలిక నెట్వర్కింగ్ ఫ్రేమ్వర్క్
గూ pt లిపి శాస్త్రం - ఇది వివిధ నెట్వర్క్-స్థాయి భద్రతా అవసరాలకు సహాయపడుతుంది
మీ మొదటి స్క్రాపీ ప్రాజెక్ట్ను ప్రారంభించడం
మీ మొదటి స్క్రాపీ ప్రాజెక్ట్ను ప్రారంభించడానికి, మీరు మీ ఫైళ్ళను సేవ్ చేయదలిచిన డైరెక్టరీ లేదా స్థానానికి వెళ్లి, కింది ఆదేశాన్ని అమలు చేయండి
జావాలో అనుబంధం అంటే ఏమిటి
స్క్రాపీ స్టార్ట్ప్రొజెక్ట్ ప్రాజెక్ట్ పేరు
మీరు ఈ ఆదేశాన్ని అమలు చేసిన తర్వాత, మీరు ఆ ప్రదేశంలో సృష్టించబడిన క్రింది డైరెక్టరీలను పొందుతారు.
ప్రాజెక్ట్ పేరు/
scrapy.cfg: ఇది కాన్ఫిగరేషన్ ఫైల్ను అమలు చేస్తుంది
ప్రాజెక్ట్ పేరు/
__init__.py: ప్రాజెక్టుల పైథాన్ మాడ్యూల్
items.py: ప్రాజెక్ట్ ఐటమ్స్ డెఫినిషన్ ఫైల్
middlewares.py: ప్రాజెక్ట్ మిడిల్వేర్ ఫైల్
సాస్ ప్రోగ్రామింగ్ దేనికి ఉపయోగించబడుతుంది
piplines.py: ప్రాజెక్ట్ పైప్లైన్ల ఫైల్
settings.py: ప్రాజెక్ట్ సెట్టింగుల ఫైల్
సాలెపురుగులు /
__init__.py: తరువాత మీరు మీ సాలెపురుగులను ఉంచే డైరెక్టరీ
మీ మొదటి స్పైడర్ను తయారు చేయడం
సాలెపురుగులు మేము నిర్వచించే తరగతులు మరియు వెబ్ నుండి సమాచారాన్ని సేకరించడానికి స్క్రాపీ ఉపయోగిస్తుంది. మీరు తప్పనిసరిగా సబ్క్లాపీ స్క్రాపీ.స్పైడర్ మరియు ప్రారంభ అభ్యర్థనలను నిర్వచించండి.
మీరు మీ స్పైడర్ కోసం కోడ్ను ప్రత్యేక పైథాన్ ఫైల్లో వ్రాసి, మీ ప్రాజెక్ట్లోని ప్రాజెక్ట్ పేరు / స్పైడర్స్ డైరెక్టరీలో సేవ్ చేయండి.
quotes_spider.py
దిగుమతి స్క్రాపీ క్లాస్ QuotesSpider (scrapy.Spider): name = 'quotes' def start_request (self): urls = ['http://quotes.toscrape.com/page/1/', http://quotes.toscrape.com / page / 2 /,] url లో url కోసం: దిగుబడి scrapy.Request (url = url, callback = self.parse) def parse (self, response): page = response.url.split ('/') [- 2 ] filename = 'quotes-% s.html'% పేజీ ఓపెన్ (ఫైల్ పేరు, 'wb') తో f: f.write (response.body) self.log ('సేవ్ చేసిన ఫైల్% s'% ఫైల్ పేరు)
మీరు గమనిస్తే, మేము మా సాలెపురుగులలో వివిధ విధులను నిర్వచించాము,
పేరు: ఇది సాలీడును గుర్తిస్తుంది, ఇది ప్రాజెక్ట్ అంతటా ప్రత్యేకంగా ఉండాలి.
start_requests (): సాలీడు క్రాల్ చేయటం ప్రారంభించే అభ్యర్ధనలను తిరిగి ఇవ్వాలి.
పార్స్ (): ఇది ప్రతి అభ్యర్థనతో డౌన్లోడ్ చేసిన ప్రతిస్పందనను నిర్వహించడానికి పిలువబడే ఒక పద్ధతి.
డేటాను సంగ్రహిస్తోంది
ఇప్పటి వరకు సాలీడు ఏ డేటాను తీయదు, అది మొత్తం HTML ఫైల్ను సేవ్ చేసింది. స్క్రాపీ స్పైడర్ సాధారణంగా పేజీ నుండి సేకరించిన డేటాను కలిగి ఉన్న అనేక నిఘంటువులను ఉత్పత్తి చేస్తుంది. డేటాను సేకరించేందుకు మేము బ్యాక్బ్యాక్లోని పైథాన్లో దిగుబడి కీవర్డ్ని ఉపయోగిస్తాము.
దిగుమతి స్క్రాపీ క్లాస్ QuotesSpider (scrapy.Spider): name = 'quotes' start_urls = [http://quotes.toscrape.com/page/1/ ', http://quotes.toscrape.com/page/2/,] def parse (self, response): response.css ('div.quote') లో కోట్ కోసం: దిగుబడి {'text': quote.css (span.text :: text '). పొందండి (),' author ': quote .css (small.author::text ') పొందండి (),' tags ': quote.css (div.tags a.tag :: text'). getall ()}
మీరు ఈ సాలీడును నడుపుతున్నప్పుడు, అది సేకరించిన డేటాను లాగ్తో అవుట్పుట్ చేస్తుంది.
డేటాను నిల్వ చేస్తుంది
సేకరించిన డేటాను నిల్వ చేయడానికి సరళమైన మార్గం ఫీడ్ ఎగుమతులను ఉపయోగించడం, మీ డేటాను నిల్వ చేయడానికి క్రింది ఆదేశాన్ని ఉపయోగించండి.
స్క్రాపీ క్రాల్ కోట్స్ -o quotes.json
ఈ ఆదేశం సీరియల్ చేయబడిన అన్ని స్క్రాప్ చేసిన అంశాలను కలిగి ఉన్న quotes.json ఫైల్ను ఉత్పత్తి చేస్తుంది JSON .
ఇది ఈ వ్యాసం చివరకి తీసుకువస్తుంది, ఇక్కడ పైథాన్లో స్క్రాపీని ఉపయోగించి వెబ్-క్రాలర్ను ఎలా తయారు చేయాలో నేర్చుకున్నాము, వెబ్సైట్ను స్క్రాప్ చేయడానికి మరియు డేటాను JSON ఫైల్లోకి తీయడానికి. ఈ ట్యుటోరియల్లో మీతో పంచుకున్న అన్ని విషయాలతో మీరు స్పష్టంగా ఉన్నారని నేను ఆశిస్తున్నాను.
“స్క్రాపీ ట్యుటోరియల్” పై మీరు ఈ కథనాన్ని కనుగొంటే, చూడండి ప్రపంచవ్యాప్తంగా 250,000 కంటే ఎక్కువ సంతృప్తికరమైన అభ్యాసకుల నెట్వర్క్తో విశ్వసనీయ ఆన్లైన్ లెర్నింగ్ సంస్థ.
మీ ప్రయాణంలో అడుగడుగునా మీకు సహాయం చేయడానికి మేము ఇక్కడ ఉన్నాము మరియు విద్యార్థులు మరియు నిపుణుల కోసం రూపొందించిన పాఠ్యాంశాలను రూపొందించండి. . ఈ కోర్సు మీకు పైథాన్ ప్రోగ్రామింగ్లోకి రావడానికి మరియు వివిధ మరియు ప్రధాన మరియు అధునాతన పైథాన్ భావనలకు శిక్షణ ఇవ్వడానికి రూపొందించబడింది వంటి
మీకు ఏవైనా ప్రశ్నలు వస్తే, “స్క్రాపీ ట్యుటోరియల్” యొక్క వ్యాఖ్యల విభాగంలో మీ ప్రశ్నలన్నింటినీ అడగడానికి సంకోచించకండి మరియు మా బృందం సమాధానం ఇవ్వడానికి సంతోషిస్తుంది.