Back to Question Center
0

Semalt - Ինչպես հեռացնել վեբ էջերը

1 answers:
Գեղեցիկ ապուրը Python- ի գրադարանն է, որն լայնորեն օգտագործվում է վեբ էջերի քերծվածքով, ստեղծելով ծառահատման ծառը:

XML եւ HTML փաստաթղթերից. Վեբ քերծվածքները, վեբ-կայքերից եւ էջերից տվյալների հայտնաբերման տեխնիկան լայնորեն օգտագործվում է տվյալների վերլուծության եւ կառավարման ոլորտներում. Շատ դեպքերում Python- ի ծրագրավորման լեզուն նախապայման է տվյալների գիտության մեջ.

Python 3-ը քերծվածքային գործիքներ եւ մոդուլներ կարող եք դիմել ձեր տվյալների կառավարման նախագծին. Ներկայումս աշխատում է որպես գեղեցիկ ապուր 4, այս մոդուլը համատեղելի է ինչպես Python 3 եւ Python 2. 7. Գեղեցիկ ապուր 4 մոդուլը նաեւ ի վիճակի է ստեղծել փակ աղյուսակի ապուրը. Այս ձեռնարկում դուք կսովորեք, թե ինչպես պետք է քերել էջը եւ գրել քերված տվյալները CSV ֆայլում.

Սկսել

Սկսել, սերվերի կամ տեղակայված Python- ի կոդավորման միջավայր ստեղծել ձեր համակարգչի վրա. Դուք նաեւ պետք է տեղադրել ձեր Գեղեցիկ Ապուր եւ Պահանջներ Մոդուլը ձեր մեքենայի վրա. Երկու մոդուլների հետ աշխատելու իմացությունը նաեւ անհրաժեշտ նախապայման է. HTML- ի հատկորոշման եւ կառուցվածքի հետ ծանոթությունը նաեւ ավելացված առավելություն է.

Հասկանալ ձեր տվյալները

Այս համատեքստում Ազգային պատկերասրահից իրական տվյալները կօգտագործվեն, որպեսզի հասկանաք, թե ինչպես օգտվել գեղեցիկ ապուրներից. Արվեստի ազգային պատկերասրահը բաղկացած է 120,000 կտորներից, որոնք կատարվում են մոտավորապես 13,000 արվեստագետների կողմից. Արվեստը հիմնված է Վաշինգտոնում. C, ԱՄՆ.

Գեղեցիկ ապուրով վեբ տվյալների արդյունահանումը ոչ այնքան բարդ է. Օրինակ, եթե Z- ի վրա կենտրոնանաք, նշեք եւ նշեք անունը. Այս դեպքում առաջին անունը Զաբաղիա է, Նիկոլան. Համապատասխանության համար նշեք էջերի քանակը եւ վերջին նկարչի անունը այդ էջում.

How to import Requests and Beautiful Soup գրադարան

Գրադարանների ներմուծում, ակտիվացրեք ձեր Python 3 ծրագրավորման միջավայրը. Ստուգեք, համոզվեք, որ ձեր ծրագրավորման միջավայրում նույն գրացուցակում եք. Սկսել գործարկել հետեւյալ հրահանգը. my_env / bin / ակտիվացնել.

Ստեղծեք նոր ֆայլ եւ սկսեք ներմուծել «Գեղեցիկ ապուր» եւ «Պահանջներ» գրադարանները. Պահանջների գրադարանը թույլ կտա Ձեզ օգտագործել HTTP ձեր Python ծրագրերի շրջանակներում ընթերցվող ձեւաչափերով. Գեղեցիկ ապուրը, մյուս կողմից, աշխատում է քերել էջերը արագ. Օգտագործեք bs4 `գեղեցիկ ապուր ներմուծելու համար.

Ինչպես հավաքել եւ վերլուծել վեբ էջը

Օգտագործելով Հաճախորդները ձեր առաջին էջի URL- ն հավաքելիս. Առաջին էջի URL- ն կփոխանցվի փոփոխական էջին. Կառուցեք BeautifulSoup օբյեկտը Requests- ից եւ օբյեկտը վերլուծել Python- ի պարկում.

Այս ձեռնարկի նպատակն է հավաքել հղումները եւ նկարիչների անունները. Օրինակ, դուք կարող եք հավաքել արվեստագետների տարեթիվը եւ ազգությունները. Windows- ի օգտագործողների համար սեղմեք աջ նկարչի անունը. Այս դեպքում օգտագործեք Zabaglia, Niccola. Mac OS- ի օգտվողների համար սեղմեք "CTRL" եւ սեղմեք անունը. Սեղմեք «Խմբագրեք Element» ընտրացանկը, որը էկրանին ձեր էկրանին հասանելի է վեբ մշակողների գործիքներին. Տպել արվեստագետի անունները, որպեսզի գեղեցիկ ապուրը ծառի արագ վերլուծի.

Հեռացնել ներքեւի հղումները

Վերացնել ձեր վեբ էջի ներքեւի հղումները, ստուգել DOM- ը, սեղմելով տարրը. Դուք կգտնեք, որ հղումները գտնվում են HTML աղյուսակում. Օգտագործելով Գեղեցիկ ապուր, օգտագործեք «ապամոնտաժման մեթոդը» տարաները հեռացնելու ծառից.

How to pull a content tag

Դուք չունեք տպագրեք ամբողջ հղումը tag, օգտագործեք Գեղեցիկ ապուր նյութ հեռացնել tag. Դուք նաեւ կարող եք նկարագրել նկարիչների հետ կապված հղումները, օգտագործելով «Գեղեցիկ ապուր» 4.

CSV ֆայլի վրա գրված տվյալների հավաքում

CSV ֆայլը թույլ է տալիս պահպանված տվյալներ պահել պարզ տեքստում, որը հիմնականում օգտագործվում է տվյալների թերթիկների համար. Խորհուրդ է տրվում Python- ում պարզ տեքստային ֆայլերի մշակման վերաբերյալ գիտելիքներ.

Web տվյալների հանելը օգտագործվում է էջեր քաշելու եւ տեղեկատվություն ստանալու համար. Զգուշացեք այն կայքերից, որոնք ձեր արտադրության մասին են. Որոշ դինամիկ կայքեր կասեցնում են վեբ տվյալների ստացումը իրենց կայքերում. Գեղեցիկ ապուրով գրիչ էջը եւ Python 3-ը այն պարզն են.

December 22, 2017
Semalt - Ինչպես հեռացնել վեբ էջերը
Reply