Semalt सेयरहरू वेबसाइटहरूबाट जानकारी निकाल्ने एक सजिलो तरीका

वेब स्क्र्यापि वेबसाइटहरूबाट सामग्री प्राप्त गर्ने लोकप्रिय विधि हो। विशेष प्रोग्राम गरिएको एल्गोरिथ्म साइटको मुख्य पृष्ठमा आउँदछ र सबै आन्तरिक लिंकहरू पछ्याउन सुरू गर्दछ, डिभासहरूको भित्री भेलालाई तपाईंले निर्दिष्ट गर्नुभएको। नतिजाको रूपमा - तयार CSV फाईलमा सबै आवश्यक जानकारी समावेश गरिएको छ सख्त अर्डरमा। नतिजा CSV भविष्य अद्वितीय सामग्री सिर्जना गर्न को लागी प्रयोग गर्न सकिन्छ। र सामान्य रूपमा, एक तालिकाको रूपमा, त्यस्ता डाटाको ठूलो मूल्य हुन्छ। कल्पना गर्नुहोस् कि निर्माण पसलको सम्पूर्ण उत्पाद सूची तालिकामा प्रस्तुत गरिएको छ। यसबाहेक, प्रत्येक उत्पादनको लागि, उत्पादको प्रत्येक प्रकार र ब्रान्डको लागि, सबै क्षेत्रहरू र सुविधाहरू भरिएका हुन्छन्। अनलाइन स्टोरका लागि काम गर्ने कुनै पनि प्रतिलिपि अधिकारकर्तालाई त्यस्तो CSV फाईल पाउँदा खुसी हुनेछ।

वेबसाइट वा वेब स्क्र्यापि fromबाट डाटा निकाल्न धेरै उपकरणहरू छन् र चिन्ता नलिनुहोस् यदि तपाईं कुनै प्रोग्रामिंग भाषाहरूसँग परिचित हुनुहुन्न भने, यस लेखमा म एउटा सजिलो तरीका देखाउने छु - स्क्र्यापिंगब प्रयोग गरेर।

सबै भन्दा पहिले, जानुहोस् scrapinghub.com, रेजिस्टर, र लगइन।

तपाईको संगठनको बारेमा अर्को चरण मात्र छोड्न सकिन्छ।

त्यसोभए तपाईं आफ्नो प्रोफाइलमा आउनुहुनेछ। तपाईंले प्रोजेक्ट सिर्जना गर्नु आवश्यक छ।

यहाँ तपाईंले एल्गोरिथ्म छनौट गर्नुपर्नेछ (हामी एल्गोरिथ्म "पोर्टिया" प्रयोग गर्नेछौं) र परियोजनालाई नाम दिनुहोस्। यसलाई केहि अनौंठो भन्नु पर्छ। उदाहरण को लागी, "१११"।

अब हामी एल्गोरिथ्मको काम गर्ने ठाउँमा पुग्छौं जहाँ तपाइँले डेटा निकाल्न चाहानुभएको वेबसाइटको URL टाइप गर्न आवश्यक छ। त्यसपछि "नयाँ स्पाइडर" मा क्लिक गर्नुहोस्।

हामी पृष्ठमा जान्छौं जुन उदाहरणको रूपमा सेवा गर्न गइरहेको छ। ठेगाना हेडरमा अपडेट गरिएको छ। "यो पृष्ठ एनोटेट गर्नुहोस्" क्लिक गर्नुहोस्।

तपाइँको माउस कर्सरलाई दायाँ लैजानुहोस् जसले मेनु देखा पर्नेछ। यहाँ हामी "निकालेको वस्तु" ट्याबमा चासो लिन्छौं, जहाँ तपाईले "वस्तु सम्पादन गर्नुहोस्" क्लिक गर्नुपर्दछ।

अझै हाम्रो क्षेत्रहरूको खाली सूची प्रदर्शित छ। "+ Field" क्लिक गर्नुहोस्।

यहाँ सबै कुरा सजिलो छ: तपाईलाई फाँटहरूको सूची बनाउनु आवश्यक छ। प्रत्येक वस्तुको लागि तपाईले नाम प्रविष्ट गर्नु पर्छ (यस अवस्थामा शिर्षक र सामग्री), यो फिल्ड आवश्यक छ कि भनेर निर्दिष्ट गर्नुहोस् ("आवश्यक") र यो फरक हुन सक्दछ ("फरक")। यदि तपाइँ निर्दिष्ट गर्नुहुन्छ कि एक वस्तु "आवश्यक छ", एल्गोरिथ्म केवल पृष्ठहरू छोड्नेछ जहाँ यसले यो फिल्ड भर्न सक्षम हुँदैन। यदि झण्डा लगाइएको छैन भने, प्रक्रिया सधैंभरि रहन सक्छ।

अब हामीलाई चाहिने फिल्डमा क्लिक गर्नुहोस् र यो के हो संकेत गर्नुहोस्:

भयो? अनि वेबसाइटको हेडरमा क्लिक गर्नुहोस् "नमूना सुरक्षित गर्नुहोस्"। त्यस पछि, तपाइँ काम गर्ने ठाउँमा फर्कन सक्नुहुन्छ। अब एल्गोरिथ्मलाई केहि प्राप्त गर्ने तरिका थाहा छ, हामीले यसको लागि कार्य सेट गर्नु पर्छ। यो गर्नका लागि "परिवर्तन परिवर्तन गर्नुहोस्" मा क्लिक गर्नुहोस्।

टास्क बोर्डमा जानुहोस्, "स्पाइडर चलाउनुहोस्" क्लिक गर्नुहोस्। वेबसाइट छनौट गर्नुहोस्, प्राथमिकता र क्लिक गर्नुहोस् "चलाउनुहोस्"।

खैर, स्क्र्यापिंग अब प्रक्रियामा छ। यसको गति पठाइएको अनुरोधहरूको संख्यामा तपाईंको कर्सरलाई दर्साएर देखाउँदछ:

CSV मा तैयार तारहरू हुने गति - अर्को नम्बरमा अting्कित गरेर।

पहिले नै बनेका वस्तुहरूको सूची हेर्नका लागि यस नम्बरमा क्लिक गर्नुहोस्। तपाईंले त्यस्तै केही देख्नुहुनेछ:

जब यो समाप्त हुन्छ, यस बटन क्लिक गरेर परिणाम बचत गर्न सकिन्छ:

त्यो हो! अब तपाइँ प्रोग्रामिंगमा कुनै अनुभव बिना वेबसाइटहरूबाट जानकारी निकाल्न सक्नुहुन्छ।