Back to Question Center
0

Semalt - چگونه صفحات وب را خراشیده کنیم؟

1 answers:

سوپ زیبا یک کتابخانه پایتون است که به طور گسترده ای برای ایجاد صفحات وب با ایجاد یک درخت تجزیه می شود از اسناد XML و HTML. وب خرابکاری، تکنیک استخراج داده ها از وب سایت ها و صفحات، به طور گسترده ای در زمینه تجزیه و تحلیل داده ها و زمینه های مدیریت استفاده می شود. در بیشتر موارد، زبان برنامه نویسی پایتون، پیش نیاز دانش علمی است.

پایتون 3 ابزار خراب کردن و ماژول ها شما می توانید به پروژه مدیریت داده خود اعمال کنید. در حال حاضر به عنوان زیبا سوپ 4، این ماژول با هر دو پایتون 3 و پایتون 2 سازگار است - net 24 net. 7. سوپ 4 زیبا ماژول نیز قادر به ایجاد یک درخت تجزیه برای سوپ برچسب غیر بسته است. در این آموزش، شما یاد خواهید گرفت که چگونه صفحه را پاک کنید و داده های خراب شده را به یک فایل CSV ارسال کنید.

شروع

برای شروع، یک محیط سرور یا محیط کدگذاری کدگذاری مبتنی بر محلی بر روی رایانه خود را راه اندازی کنید. شما همچنین باید ماژول سوپ زیبا و درخواست ها را بر روی دستگاه خود نصب کنید. دانش کار با هر دو ماژول نیز یک پیش نیاز لازم است. آشنایی با برچسب گذاری و ساختار HTML نیز یک مزیت اضافه است.

درک اطلاعات شما

در این زمینه، اطلاعات واقعی از گالری ملی هنر برای کمک به شما در درک نحوه استفاده از سوپ زیبا 4. گالری ملی هنر شامل 120،000 قطعه است که توسط تقریبا 13،000 هنرمند انجام می شود. هنر در واشنگتن دی سی مستقر است. C، ایالات متحده است.

استخراج اطلاعات وب با سوپ زیبا آن پیچیده نیست. به عنوان مثال، اگر شما روی حرف Z تمرکز کنید، نام و نام خانوادگی را در لیست ثبت کنید. در این مورد، نام Zabaglia، Niccola است. برای تطابق، تعداد صفحات و نام آخرین هنرمند را در آن صفحه نشان می دهد.

نحوه درخواست و کتابخانه سوپ زیبا

برای وارد کردن کتابخانه ها، محیط برنامه نویسی Python 3 خود را فعال کنید. بررسی کنید که مطمئن شوید که شما در محیط برنامه نویسی خود در همان دایرکتوری هستید. برای شروع، دستور زیر را اجرا کنید. my_env / bin / فعال.

ایجاد یک فایل جدید و شروع به وارد کردن سوپ زیبا و درخواست کتابخانه ها. کتابخانه درخواستها به شما اجازه می دهد از HTTP در برنامه های پایتون خود در فرمت های قابل خواندن استفاده کنید. از طرف دیگر، سوپ زیبا، به سرعت کار می کند. برای وارد کردن سوپ زیبا، از bs4 استفاده کنید.

نحوه جمع آوری و تجزیه یک صفحه وب

با استفاده از درخواستها، URL اول صفحه خود را جمع آوری می کند. URL اول صفحه به صفحه متغیر اختصاص داده می شود. یک Object BeautifulSoup را از درخواستها ساخت و جسم را از تجزیه کننده پایتون تجزیه کنید.

در این آموزش، هدف این است که لینک ها و نام هنرمندان را جمع آوری کنید. به عنوان مثال، شما می توانید تاریخ و ملیت هنرمندان را جمع آوری کنید. برای کاربران ویندوز، بر روی نام هنرمند راست کلیک کنید. در این مورد، از Zabaglia، Niccola استفاده کنید. برای کاربران سیستم عامل Mac، روی "CTRL" ضربه بزنید و روی نام کلیک کنید. بر روی منوی "بازرسی عنصر" کلیک کنید که پنجره های بازشو روی صفحه خود برای دسترسی به ابزارهای توسعه دهندگان وب است. اسم هنرمند را برای ساختن سوپ زیبا به سرعت درخت را تجزیه کنید.

حذف لینک های پایین

برای حذف لینک های پایین در صفحه وب خود، DOM را با کلیک راست بر روی عنصر بررسی کنید. شما شناسایی کنید که پیوندها زیر یک جدول HTML قرار دارند. با استفاده از سوپ زیبا، از روش "تجزیه" برای حذف برچسب ها از درخت تجزیه استفاده کنید.

چگونه محتوای را از یک برچسب بکشید

شما مجبور نیستید تگ کل پیوند را چاپ کنید، برای حذف مواد از یک برچسب از سوپ زیبا استفاده کنید. همچنین میتوانید با استفاده از Beautiful Soup 4 URL های مربوط به هنرمندان را ضبط کنید.

گرفتن داده های خراب شده به یک فایل CSV

فایل CSV به شما امکان می دهد داده های ساختاری را در متن ساده ذخیره کنید، فرمت ای که بیشتر برای داده ها استفاده می شود. دانش در مورد دستکاری فایل های متن ساده در پایتون توصیه می شود.

استخراج داده های اینترنتی به منظور خرد کردن صفحات و به دست آوردن اطلاعات استفاده می شود. از وبسایتهایی که اطلاعات استخراج از آنها دارید، توجه کنید. برخی از وب سایت های پویا وب سایت های خود را محدود می کنند. صفحه را با سوپ زیبا و پایتون 3 خرد کنید این ساده است.

December 22, 2017