Back to Question Center
0

मिमल - वेब पृष्ठे कशा काढाव्यात?

1 answers:

सुंदर सूप एक पायथन लायब्ररी आहे ज्याचा उपयोग पर्स ट्री तयार करुन वेब पृष्ठांना शक्यतो वापरता येतो. एक्सएमएल आणि एचटीएमएल दस्तऐवजांमधून. वेब स्क्रॅपिंग, वेबसाइट्स आणि पृष्ठांवरील डेटा काढण्याचा एक तंत्रज्ञानाचा वापर डेटा विश्लेषण आणि व्यवस्थापन क्षेत्रात मोठ्या प्रमाणावर केला जातो. बहुतांश घटनांमध्ये, डेटा विज्ञान मध्ये पायथन प्रोग्रामिंग भाषा ही एक पूर्व शर्त आहे - el mundo fotografia curso.

पायथन 3 मध्ये स्क्रॅपिंग टूल्स आणि मोड्यूल्स आहेत जे आपण आपल्या डेटा मॅनेजमेंट प्रोजेक्टवर लागू करू शकता.सध्या सुंदर सूप 4 म्हणून कार्यरत आहे, हे मॉड्यूल पायथन 3 आणि पायथन 2 सह सुसंगत आहे. 7. सुंदर सूप 4 मोड्यूल नॉन-बंद टॅग सूपसाठी पार्स ट्री तयार करण्यास सक्षम आहे. या ट्युटोरियलमध्ये आपण पेज स्क्रॅप आणि स्क्रॅप केलेला डेटा CSV फाइलवर कसा लिहायचा ते शिकाल.

प्रारंभ करणे (1 9)

प्रारंभ करण्यासाठी, आपल्या PC वर सर्व्हर किंवा स्थानिक-आधारित पायथन कोडिंग पर्यावरण सेट करा. आपण आपल्या मशीनवर सुंदर सूप आणि विनंत्या मोड्यूल देखील स्थापित केले पाहिजे. दोन्ही मॉड्यूलसह ​​कार्य करण्याचे ज्ञान ही आवश्यक पूर्वतयारी देखील आहे. HTML टॅगिंग आणि संरचनेसह परिचित देखील एक अतिरिक्त लाभ आहे.

आपला डेटा समजणे (1 9)

या संदर्भात, नॅशनल गॅलरी ऑफ आर्टकडून प्रत्यक्ष डेटा वापरण्यात येईल जो तुम्हाला सुंदर सूप 4 चा वापर कसा करायचा हे समजून घेण्यास मदत करेल.नॅशनल गॅलरी ऑफ आर्टमध्ये 120,000 तुकडे आहेत ज्यांची संख्या अंदाजे 13,000 कलाकारांद्वारे केली जाते. ही कला वॉशिंग्टन डीमध्ये आधारित आहे. सी, युनायटेड स्टेट्स.

सुंदर सूपसह वेब डेटा काढणे हे क्लिष्ट नाही. उदाहरणार्थ, आपण पत्र Z वर लक्ष केंद्रित केल्यास, चिन्हांकित करा आणि सूचीमधील प्रथम नाव लिहा. या प्रकरणात, पहिला नाव झबाग्लिया, निककोला आहे. सुसंगततेसाठी, त्या पृष्ठावर शेवटच्या कलाकारांचे पृष्ठांची संख्या आणि त्याचे नाव सूचित करा.

मागणी आणि सुंदर सूप लायब्ररी कशी आयात करावी (1 9)

लायब्ररी आयात करण्यासाठी, आपल्या पायथन 3 प्रोग्रामिंग पर्यावरणास सक्रिय करा. आपण आपल्या प्रोग्रामिंग पर्यावरणासह समान निर्देशिकामध्ये असल्याचे सुनिश्चित करण्यासाठी तपासा. प्रारंभ करण्यासाठी निम्न आज्ञा चालवा. my_env / bin / activate.

एक नवीन फाइल तयार करा आणि सुंदर सूप आणि विनंत्या लायब्ररी आयात करणे प्रारंभ करा. विनंत्या लायब्ररी आपल्याला आपल्या पायथन प्रोग्राम्समध्ये वाचनीय स्वरूपांमध्ये HTTP वापरण्याची परवानगी देईल. दुसरीकडे, सुंदर सूप, पटकन पृष्ठे स्क्रॅप करते. सुंदर सूप आयात करण्यासाठी बीएस 4 चा वापर करा.

एखादे वेब पृष्ठ कसे एकत्रित करावे आणि विश्लेषित करावे (1 9)

विनंती केल्याने आपल्या प्रथम पृष्ठाचे URL एकत्रित करा. प्रथम पृष्ठाचे URL व्हेरिएबल पेजला नियुक्त केले जाईल. विनंत्यामधून एक सुंदर सूप ऑब्जेक्ट तयार करा आणि पायथनच्या पार्सरवरून ऑब्जेक्टला विश्लेषण करा.

या ट्युटोरियलमध्ये लिंक्स आणि कलाकारांची नावे एकत्रित करण्याचे हेतू आहे. उदाहरणार्थ, आपण कलाकारांची तारखा आणि राष्ट्रीयता एकत्र करू शकता. Windows वापरकर्त्यांसाठी, कलाकारांच्या पहिल्या नावावर उजवे क्लिक करा. या प्रकरणात, जबाग्लिया, निककोलाचा वापर करा. Mac OS वापरकर्त्यांसाठी, "CTRL" टॅप करा आणि नावावर क्लिक करा. वेब डेव्हलपर्स 'टूल्सवर प्रवेश करण्यासाठी तुमच्या स्क्रीनवरील पॉप-अप्स' 'एलिमेंट' 'मेनू क्लिक करा. सुंदर सूप बनविण्यासाठी कलाकारांच्या नावांची छपाई करा पटकन एक झाड पार्स करा.

तळाशी दुवे काढून टाकणे (1 9)

आपल्या वेब पृष्ठावरील खालच्या दुव्यांना काढून टाकण्यासाठी, घटक उजवे-क्लिक करून DOM चे निरीक्षण करा. आपण दुवे एका HTML सारणी अंतर्गत असल्याचे ओळखू शकाल. सुंदर सूप वापरणे, पार्स ट्रीवरील टॅग काढून टाकण्यासाठी "विघटन पद्धती" वापरा.

टॅग्जवरून सामग्री कशी काढायची (1 9)

आपल्याला संपूर्ण लिंक टॅग मुद्रित करण्याची गरज नाही, टॅगला सामग्री काढून टाकण्यासाठी सुंदर सूपचा वापर करा. सुंदर सूप 4 वापरून आपण कलाकारांशी संबद्ध URL देखील कॅप्चर करू शकता.

(4 9)

एका सीएसव्ही फाईलवर स्क्रॅप केलेला डेटा कॅप्चर करणे (1 9)

सीएसव्ही फाइल आपल्याला साध्या मजकूराने संरचित डेटा संचयित करण्याची परवानगी देईल, जे मुख्यतः डेटाशीट्ससाठी वापरली जाते. Python मधील साधा मजकूर फाइल हाताळण्याविषयीची शिफारस केलेली आहे.

वेब डेटा निष्कर्ष पृष्ठे निभावणे आणि माहिती प्राप्त करण्यासाठी वापरले जाते. आपण ज्या माहितीतून माहिती काढता त्या वेबसाइटवर विचार करा. काही डायनॅमिक वेबसाइट त्यांच्या साइट्सवरील वेब डेटा काढण्याला प्रतिबंध करतात. सुंदर सूप आणि पायथन 3 सह पृष्ठ उभं करण्यासाठी हे सोपे आहे.

December 22, 2017