Back to Question Center
0

Semalt توضیح می دهد که چگونه داده های مورد نیاز از وب سایت های HTML را استخراج می کند

1 answers:

مقدار زیادی از اطلاعات ارائه شده در شبکه "بدون ساختار" این درست نیست. وب سایت های HTML به طوری که آنها شامل اسناد سازمان یافته متفاوت است، و متن ارائه شده در اسناد در داخل کد HTML زیر در نظر گرفته شده است.

سه روش اصلی استخراج اطلاعات از وب سایت های HTML وجود دارد:

  • صرفه جویی در متن موجود در یک صفحه وب به کامپیوتر شما؛
  • نوشتن کد برای استخراج اطلاعات؛
  • با استفاده از ابزار استخراج ویژه؛

1. نحوه استخراج HTML از وب سایت بدون برنامه نویسی

شما می توانید یک صفحه وب را با استفاده از مراحل زیر شرح دهید:

استخراج فقط متن

پس از باز کردن یک صفحه وب حاوی متن مورد نظر، روی آن کلیک راست کرده و گزینه "Save Page As،" یا "Save As" را انتخاب کنید. یک نام برای فایل در نام "نام فایل" و از منوی کشویی "ذخیره به عنوان نوع" را تایپ کنید، "صفحه وب، فقط HTML را انتخاب کنید - grain bins in ohio. "بر روی دکمه" ذخیره "کلیک کنید و چند ثانیه صبر کنید.

تمام متن در آن صفحه به عنوان یک فایل HTML استخراج و ذخیره می شود. گزینه های اصلی قالب بندی صفحه باقی می ماند و شما می توانید محتوا را در ویرایشگرهای متن مانند Notepad ویرایش کنید.

استخراج کل صفحه وب

گزینه "ذخیره به عنوان" یا "ذخیره صفحه به عنوان" را در منوی "File" انتخاب کنید. سپس از منوی کشویی «ذخیره به عنوان نوع» روی «صفحه وب کامل» کلیک کنید. پس از کلیک کردن بر روی "ذخیره"، متن و تصاویر از صفحه گرفته می شود و هر جا که بخواهید ذخیره می شود. متن در یک فایل HTML در حالی که تصاویر در یک پوشه ذخیره می شود.

2. استخراج HTML از یک وب سایت با استفاده از برنامه نویسی

شما می توانید به طور مستقیم با استفاده از ابزارهای ویژه فایل های HTML کار کنید. همچنین میتوانید کد را برای حذف همه تگهای HTML ایجاد کنید و متن موجود در فایلهای HTML را با استفاده از XPath یا عبارات منظم حفظ کنید. برخی از محبوب ترین زبان های برنامه نویسی برای این کار عبارتند از Python، Java، JS، Go، PHP و NodeJs.

3. با استفاده از ابزار استخراج داده های وب

اگر فقط می خواهید فایل های HTML را از یک وب سایت بدون استخراج یک خط از کد و یا از شکنجه روش کپی و جای گذاری اجتناب کنید، از ابزار Web scraping . در حقیقت، ابزارهای مفید زیادی وجود دارد که می تواند اطلاعات لازم را از یک وب سایت برداشت و سپس آن را به فرمت ساختار تبدیل کند. فقط چند ابزار خراب کردن s را امتحان کنید، و شما قطعا یکی از آن را مناسب ترین برای نیازهای دور انداختن خود را پیدا کنید.

December 22, 2017