تراشیدن وب
برای تأییدپذیری کامل این مقاله به منابع بیشتری نیاز است. (ژوئن ۲۰۱۷) |
وب اسکرپینگ، گردآوری از وب، برداشت وب یا استخراج دادههای وب، نوعی تراشدادن داده است که داده را از وبسایت استخراج میکند. این کار با استفاده از برنامههای کامپیوتری انجام میشود که میتوانند کد HTML صفحات وب را تجزیه و تحلیل کرده و اطلاعات مورد نظر را استخراج کنند. در حالی که گردآوری از وب را میتوان به صورت دستی توسط یک کاربر نرمافزار انجام داد، این اصطلاح معمولاً به فرآیندهای خودکار اجرا شده با استفاده از یک ربات یا خزنده وب اشاره دارد. این نوعی کپی است که در آن دادههای خاصی از وب جمعآوری و کپی میشوند، معمولاً در یک پایگاه داده یا صفحه گسترده محلی مرکزی، برای بازیابی یا تجزیه و تحلیل بعدی.
اسکرپینگ یک صفحه وب شامل واکشی آن و استخراج از آن است. واکشی بارگیری یک صفحه است (کاری که مرورگر زمانی که کاربر یک صفحه را مشاهده میکند انجام میدهد). بنابراین، خزیدن وب یکی از مؤلفههای اصلی گردآوری از وب برای واکشی صفحات برای پردازش بعدی است. پس از واکشی، استخراج میتواند انجام شود. محتوای یک صفحه ممکن است تجزیه، جستجو و قالب بندی مجدد شود و دادههای آن در یک صفحه گسترده کپی شده یا در پایگاه داده بارگذاری شود. اسکراپرهای وب معمولاً چیزی را از یک صفحه خارج میکنند تا از آن برای هدف دیگری در جای دیگری استفاده کنند. یک مثال میتواند یافتن و کپی کردن نامها و شماره تلفنها، شرکتها و آدرسهای اینترنتی آنها، یا آدرسهای پست الکترونیکی در یک لیست (خراش دادن مخاطبین) باشد.
و همچنین تحلیل تماس، وب اسکرپینگ به عنوان جزئی از برنامههای کاربردی مورد استفاده برای نمایه سازی وب، وب کاوی و داده کاوی، نظارت بر تغییر قیمت آنلاین و مقایسه قیمت، خراش بررسی محصول (برای تماشای رقابت)، جمعآوری لیست املاک، آب و هوا استفاده میشود. نظارت بر دادهها، تشخیص تغییر وب سایت، تحقیق، ردیابی حضور و شهرت آنلاین، آمیختگی وب و یکپارچه سازی دادههای وب.
صفحات وب با استفاده از زبانهای نشانهگذاری مبتنی بر متن (HTML و XHTML) ساخته میشوند و اغلب حاوی دادههای مفید فراوانی در قالب متن هستند. با این حال، بیشتر صفحات وب برای کاربران نهایی انسانی طراحی شدهاند و نه برای سهولت استفاده خودکار. در نتیجه ابزارها و نرمافزارهای تخصصی برای تسهیل خراش دادن صفحات وب ایجاد شدهاست.
اشکال جدیدتر گردآوری از وب شامل نظارت بر فیدهای داده از سرورهای وب است. به عنوان مثال، جیسان معمولاً به عنوان مکانیزم ذخیرهسازی انتقال بین مشتری و وب سرور استفاده میشود.
روشهایی وجود دارد که برخی از وب سایتها از آنها برای جلوگیری از خراش وب استفاده میکنند، مانند شناسایی و ممنوع کردن رباتها از خزیدن (مشاهده) صفحات خود. در پاسخ، سیستمهای اسکرپینگ وب وجود دارند که بر استفاده از تکنیکهایی در تجزیه DOM، بینایی رایانه و پردازش زبان طبیعی برای شبیهسازی مرور انسان برای فعال کردن جمعآوری محتوای صفحه وب برای تجزیه آفلاین متکی هستند.
تاریخ
[ویرایش]تاریخچه وب اسکرپینگ تقریباً به زمانی برمی گردد که وب جهانی متولد شد.
- پس از تولد شبکه جهانی وب در سال ۱۹۸۹، اولین ربات وب،[۱] World Wide Web Wanderer، در ژوئن ۱۹۹۳ ایجاد شد که فقط برای اندازهگیری اندازه وب در نظر گرفته شده بود.
- در دسامبر ۱۹۹۳، اولین موتور جستجوی وب مبتنی بر خزنده، JumpStationجامپاستیشن، راه اندازی شد. از آنجایی که وبسایتهای کمتری در وب وجود داشت، موتورهای جستجو در آن زمان برای جمعآوری و قالببندی پیوندها به مدیران انسانی متکی بودند. در مقایسه، JumpStation اولین موتور جستجوی WWW بود که به یک ربات وب متکی بود.
- در سال ۲۰۰۰، اولین Web API و خزنده API ایجاد شد. API (Application Programming Interface) رابطی است که توسعه یک برنامه را با ارائه بلوکهای ساختمان بسیار آسانتر میکند. در سال ۲۰۰۰، Salesforce و eBay API خود را راهاندازی کردند که با آن برنامهنویسان میتوانستند به برخی از دادههای در دسترس عموم دسترسی داشته باشند و آنها را دانلود کنند. از آن زمان، بسیاری از وب سایتها APIهای وب را برای دسترسی افراد به پایگاه داده عمومی خود ارائه میدهند.
تکنیک
[ویرایش]خراش وب فرایند استخراج خودکار دادهها یا جمعآوری اطلاعات از شبکه جهانی وب است. این حوزه ای با پیشرفتهای فعال است که هدف مشترکی با چشمانداز وب معنایی دارد، یک ابتکار بلندپروازانه که هنوز به پیشرفتهایی در پردازش متن، درک معنایی، هوش مصنوعی و تعامل انسان و رایانه نیاز دارد.
کپی و پیست انسانی
[ویرایش]سادهترین شکل وب اسکرپینگ، کپی و چسباندن دستی دادهها از یک صفحه وب در یک فایل متنی یا صفحه گستردهاست. گاهی حتی بهترین فناوری گردآوری از وب نمیتواند جایگزین معاینه دستی انسان و کپی و چسباندن شود، و گاهی ممکن است این تنها راه حل قابل اجرا باشد زمانی که وبسایتهای خراش دادن به صراحت موانعی را برای جلوگیری از اتوماسیون ماشین ایجاد میکنند.
تطبیق الگوی متن
[ویرایش]یک رویکرد ساده و در عین حال قدرتمند برای استخراج اطلاعات از صفحات وب میتواند بر اساس دستور grep یونیکس یا امکانات تطبیق بیان منظم زبانهای برنامهنویسی (مثلاً پرل یا پایتون) باشد.
برنامهنویسی HTTP
[ویرایش]صفحات وب استاتیک و پویا را میتوان با ارسال درخواستهای HTTP به وب سرور راه دور با استفاده از برنامهنویسی سوکت بازیابی کرد.
تجزیه HTML
[ویرایش]بسیاری از وب سایتها دارای مجموعههای بزرگی از صفحات هستند که به صورت پویا از یک منبع ساختار یافته مانند پایگاه داده تولید میشوند. دادههای یک دسته معمولاً توسط یک اسکریپت یا قالب مشترک در صفحات مشابه کدگذاری میشوند. در داده کاوی، برنامه ای که چنین قالبهایی را در یک منبع اطلاعاتی خاص شناسایی میکند، محتوای آن را استخراج میکند و آن را به شکل رابطه ای ترجمه میکند، wrapper نامیده میشود. الگوریتمهای تولید Wrapper فرض میکنند که صفحات ورودی یک سیستم القایی wrapper با یک الگوی رایج مطابقت دارند و میتوان آنها را به راحتی از نظر یک طرح URL مشترک شناسایی کرد.[۲] علاوه بر این، برخی از زبانهای پرس و جوی داده نیمه ساختاریافته، مانند XQuery و HTQL، میتوانند برای تجزیه صفحات HTML و برای بازیابی و تبدیل محتوای صفحه استفاده شوند.
تجزیه DOM
[ویرایش]با تعبیه یک مرورگر وب کامل، مانند اینترنت اکسپلورر یا کنترل مرورگر موزیلا، برنامهها میتوانند محتوای پویا تولید شده توسط اسکریپتهای سمت سرویس گیرنده را بازیابی کنند. این کنترلهای مرورگر همچنین صفحات وب را به یک درخت DOM تجزیه میکنند، که بر اساس آن برنامهها میتوانند بخشهایی از صفحات را بازیابی کنند. از زبانهایی مانند Xpath میتوان برای تجزیه درخت DOM حاصل استفاده کرد.
تجمع عمودی
[ویرایش]چندین شرکت وجود دارند که سکوهای برداشت عمودی خاص را توسعه دادهاند. این پلتفرمها تعداد زیادی «ربات» را برای عمودهای خاص بدون «مرد در حلقه» (بدون دخالت مستقیم انسان)، و هیچ کار مرتبط با یک سایت هدف خاص ایجاد و نظارت میکنند. آمادهسازی شامل ایجاد پایگاه دانش برای کل عمودی است و سپس پلت فرم بهطور خودکار رباتها را ایجاد میکند. استحکام پلتفرم با کیفیت اطلاعاتی که بازیابی میکند (معمولاً تعداد فیلدها) و مقیاسپذیری آن (چقدر سریع میتواند به صدها یا هزاران سایت برسد) اندازهگیری میشود. این مقیاسپذیری بیشتر برای هدف قرار دادن Long Tail از سایتهایی استفاده میشود که جمعآوریکنندههای معمولی آنها را پیچیده یا بسیار سخت برای برداشت محتوا میدانند.
تشخیص حاشیه نویسی معنایی
[ویرایش]صفحاتی که خراشیده میشوند ممکن است دارای متادیتا یا نشانه گذاریهای معنایی و حاشیه نویسی باشند که میتوانند برای مکانیابی تکههای داده خاص استفاده شوند. اگر حاشیهنویسیها در صفحات جاسازی شوند، همانطور که Microformat انجام میدهد، این تکنیک را میتوان به عنوان یک مورد خاص از تجزیه DOM مشاهده کرد. در موردی دیگر، حاشیه نویسیها که در یک لایه معنایی سازماندهی شدهاند،[۳] بهطور جداگانه از صفحات وب ذخیره و مدیریت میشوند، بنابراین اسکراپرها میتوانند طرح دادهها و دستورالعملها را قبل از خراش دادن صفحات از این لایه بازیابی کنند.
تجزیه و تحلیل صفحه وب بینایی کامپیوتری
[ویرایش]تلاشهایی با استفاده از یادگیری ماشین و بینایی رایانهای وجود دارد که تلاش میکند با تفسیر بصری صفحات مانند یک انسان، اطلاعات را از صفحات وب شناسایی و استخراج کند.[۴]
نرمافزار
[ویرایش]ابزارهای نرمافزاری زیادی وجود دارد که میتوان از آنها برای سفارشی کردن راه حلهای خراش وب استفاده کرد. این نرمافزار ممکن است سعی کند ساختار دادههای یک صفحه را بهطور خودکار تشخیص دهد یا یک رابط ضبط ارائه کند که نیاز به نوشتن دستی کدهای اسکرپینگ یا برخی از توابع اسکریپتنویسی را که میتوانند برای استخراج و تبدیل محتوا مورد استفاده قرار گیرند، و رابطهای پایگاهدادهای که میتوانند ذخیره کنند را برطرف کند. دادههای خراشیده شده در پایگاههای داده محلی برخی از نرمافزارهای scraping وب نیز میتوانند برای استخراج مستقیم دادهها از یک API استفاده شوند.
مسائل حقوقی
[ویرایش]مثالها و چشماندازهای موجود در این section در درجهٔ اول نوع نگرش به موضوع یا شیوهٔ عملکردن به آن در ایالات متحده آمریکا را بیان میکنند و بازتابدهندهٔ دیدگاهی جهانشمول از موضوع نیستند. |
قانونی بودن اسکرپینگ وب در سراسر جهان متفاوت است. بهطور کلی، گردآوری از وب ممکن است بر خلاف شرایط استفاده برخی از وب سایتها باشد، اما قابل اجرا بودن این شرایط نامشخص است.[۵]
ایالات متحده
[ویرایش]در ایالات متحده، صاحبان وبسایتها میتوانند از سه ادعای حقوقی اصلی برای جلوگیری از حذف ناخواسته وب استفاده کنند: (۱) نقض حق چاپ (تدوین)، (۲) نقض قانون تقلب و سوء استفاده رایانهای ("CFAA") و (۳) تجاوز چرت زدن.[۶] با این حال، اثربخشی این ادعاها متکی بر رعایت معیارهای مختلف است و رویه قضایی هنوز در حال تحول است. به عنوان مثال، با توجه به حق چاپ، در حالی که تکرار آشکار عبارت اصلی در بسیاری از موارد غیرقانونی است، در ایالات متحده دادگاهها در انتشارات Feist v. خدمات تلفن روستایی که تکرار حقایق مجاز است.
دادگاههای ایالات متحده اذعان کردهاند که کاربران «خراشندهها» یا «رباتها» ممکن است در قبال ارتکاب تجاوز به خانهها مسئول شناخته شوند،[۷][۸] که شامل خود یک سیستم رایانهای به عنوان دارایی شخصی تلقی میشود که کاربر خراشدهنده به آن تجاوز میکند. شناخته شدهترین این موارد، eBay v. Bidder's Edge منجر به دستوری شد که به Bidder's Edge دستور داد دسترسی، جمعآوری و نمایهسازی مزایدهها را از وبسایت eBay متوقف کند. این مورد شامل ارائه خودکار پیشنهادهای، معروف به حراج sniping بود. با این حال، برای موفقیت در ادعای تجاوز به اموال، شاکی باید نشان دهد که مدعی علیه عمداً و بدون مجوز با منافع مالکانه شاکی در سیستم رایانه ای تداخل کرده و استفاده غیرمجاز متهم باعث خسارت به شاکی شدهاست. همه پروندههای عنکبوت وب که در دادگاهها مطرح شدهاند، تجاوز به مالکان تلقی نشدهاند.[۹]
یکی از اولین آزمایشهای مهم تراشیدن صفحه، خطوط هوایی آمریکا (AA) و شرکتی به نام FareChase بود.[۱۰] AA با موفقیت دستوری را از یک دادگاه محاکمه تگزاس دریافت کرد و FareChase را از فروش نرمافزاری که به کاربران امکان میدهد در صورتی که نرمافزار وب سایت AA را جستجو کند، قیمتهای آنلاین را مقایسه کنند، متوقف کرد. این شرکت هواپیمایی استدلال میکند که نرمافزار جستجوی وب FareChase هنگام جمعآوری دادههای در دسترس عموم، به سرورهای AA نفوذ کردهاست. FareChase در مارس ۲۰۰۳ درخواست تجدید نظر داد. تا ژوئن، FareChase و AA موافقت کردند که به توافق برسند و درخواست تجدید نظر لغو شد.[۱۱]
خطوط هوایی ساوت وست نیز شیوههای خراش دادن صفحه نمایش را به چالش کشیدهاست و هم FareChase و هم شرکت دیگری به نام Outtask را درگیر یک ادعای حقوقی کردهاست. شرکت هواپیمایی ساوت وست، خراش دادن صفحه را غیرقانونی دانستهاست زیرا نمونه ای از «تقلب و سوء استفاده رایانه ای» است و منجر به «آسیب و ضرر» و «دسترسی غیرمجاز» به سایت Southwest شدهاست. همچنین شامل «تداخل در روابط تجاری»، «تجاوز» و «دسترسی مضر توسط رایانه» است. آنها همچنین ادعا کردند که خراش دادن صفحه نمایش چیزی است که از نظر قانونی به عنوان «اختلاس و غنی سازی ناعادلانه» شناخته میشود، و همچنین نقض توافق کاربر وب سایت است. Outtask همه این ادعاها را رد کرد و ادعا کرد که قانون حاکم، در این مورد، باید قانون حق نسخه برداری ایالات متحده باشد و طبق حق چاپ، قطعات اطلاعاتی که خراشیده میشوند مشمول حمایت حق نسخه برداری نمیشوند. اگرچه این پروندهها هرگز در دادگاه عالی ایالات متحده حل نشد، اما FareChase در نهایت توسط شرکت مادر یاهو بسته شد! و Outtask توسط شرکت هزینه سفر Concur خریداری شد.[۱۲] در سال ۲۰۱۲، استارتاپی به نام 3Taps تبلیغات طبقهبندی شده مسکن را از Craigslist حذف کرد. Craigslist نامه ای برای 3Taps ارسال کرد و آدرسهای IP آنها را مسدود کرد و بعداً در Craigslist v. 3Taps شکایت کرد. دادگاه اعلام کرد که نامه توقف و توقف و مسدود کردن IP برای Craigslist کافی است تا به درستی ادعا کند که 3Taps قانون کلاهبرداری و سوء استفاده رایانه ای را نقض کردهاست.
اگرچه اینها تصمیمات اولیه حذف هستند و تئوریهای مسئولیت یکسان نیستند، اما نادیده گرفتن الگویی که دادگاهها آمادگی دارند از محتوای اختصاصی سایتهای تجاری در برابر استفادههایی که برای صاحبان چنین سایتهایی نامطلوب است محافظت کنند دشوار است. با این حال، میزان حفاظت از چنین محتوایی مشخص نیست و به نوع دسترسی ایجاد شده توسط اسکراپر، میزان دسترسی و کپی کردن اطلاعات، میزان تأثیر نامطلوب دسترسی بر سیستم مالک سایت و انواع و نحوه آن بستگی دارد. ممنوعیت چنین رفتاری[۱۳]
در حالی که قانون در این زمینه ثابتتر میشود، نهادهایی که در نظر دارند از برنامههای خراش دادن برای دسترسی به یک وبسایت عمومی استفاده کنند، باید با بررسی شرایط استفاده و سایر شرایط یا اعلامیههای ارسال شده در سایت یا در دسترس قرار گرفتن از طریق این سایت، در نظر بگیرند که آیا چنین اقدامی مجاز است یا خیر. در حکمی در سال ۲۰۱۰ در Cvent, Inc. ایونتبرایت در دادگاه منطقه ای ایالات متحده برای ناحیه شرقی ویرجینیا، دادگاه حکم داد که شرایط استفاده باید در معرض توجه کاربران قرار گیرد تا قرارداد بستهبندی مرور یا مجوز اجرا شود.[۱۴] در یک پرونده در سال ۲۰۱۴، که در دادگاه منطقه ای ایالات متحده برای ناحیه شرقی پنسیلوانیا ثبت شد،[۱۵] سایت تجارت الکترونیک QVC به «خراش دادن سایت QVC برای دادههای قیمت لحظه ای» توسط گردآورنده خرید مشابه Pinterest اعتراض کرد. QVC ادعا میکند که در نتیجه سایت خرده فروشی QVC را «بیش از حد خزیده» کردهاست (به ادعای ارسال ۲۰۰–۳۰۰ درخواست جستجو به وب سایت QVC در دقیقه، گاهی تا ۳۶۰۰۰ درخواست در دقیقه) که باعث از کار افتادن سایت QVC برای دو روز و در نتیجه از دست رفتن فروش QVC میشود. .[۱۶] شکایت QVC مدعی است که متهم خزنده وب خود را پنهان کرده تا آدرس IP منبع خود را پنهان کند و بنابراین از تعمیر سریع مشکل QVC جلوگیری کردهاست. این یک مورد خراش دادن به خصوص جالب است زیرا QVC به دنبال خسارت به دلیل در دسترس نبودن وب سایت خود است که QVC ادعا میکند توسط Resultly ایجاد شدهاست.
در وب سایت شاکی در طول مدت این محاکمه، لینک شرایط استفاده از بین تمامی لینکهای سایت، در پایین صفحه به عنوان اکثر سایتهای موجود در اینترنت نمایش داده میشود. این حکم با حکم ایرلندی که در زیر توضیح داده شدهاست در تضاد است. دادگاه همچنین استدلال شاکی را رد کرد که محدودیتهای مرور بستهبندی با توجه به تصویب قانون یکنواخت تراکنشهای اطلاعات رایانهای (UCITA) توسط ویرجینیا قابل اجرا بودند - قانونی یکسان که بسیاری معتقد بودند به نفع روشهای قراردادی مرسوم مرور بستهبندی است.[۱۷]
در Facebook, Inc. v. Power Ventures, Inc.، یک دادگاه منطقه ای در سال ۲۰۱۲ حکم داد که Power Ventures نمیتواند صفحات فیس بوک را از طرف یک کاربر فیس بوک خراش دهد. این پرونده در حال تجدید نظر است و بنیاد مرز الکترونیکی در سال ۲۰۱۵ یک گزارش مختصر ارائه کرد و خواستار لغو آن شد.[۱۸][۱۹] در Associated Press v. Meltwater US Holdings, Inc.، دادگاهی در ایالات متحده، Meltwater را مسئول خراش دادن و بازنشر اطلاعات خبری از آسوشیتدپرس دانست، اما دادگاهی در بریتانیا به نفع Meltwater حکم داد.
بایگانی اینترنت تعداد قابل توجهی از صفحات وب در دسترس عموم را جمعآوری و توزیع میکند بدون اینکه در نظر گرفته شود که قوانین کپی رایت را نقض میکنند.
اتحادیه اروپا
[ویرایش]در فوریه ۲۰۰۶، دادگاه تجاری و دریایی دانمارک (کپنهاگ) حکم داد که خزیدن سیستماتیک، نمایه سازی و پیوند عمیق توسط سایت پورتال ofir.dk سایت املاک Home.dk با قوانین دانمارک یا دستورالعمل پایگاه داده اتحادیه اروپا در تضاد نیست.[۲۰]
دادگاه عالی ایرلند در یک پرونده فوریه ۲۰۱۰ که به دلیل مسائل صلاحیتی پیچیده بود، حکمی صادر کرد که وضعیت نامطلوب در حال توسعه رویه قضایی را نشان میدهد. در پرونده Ryanair Ltd v Billigfluege.de GmbH، دادگاه عالی ایرلند موافقتنامه " کلیک-لپ " Ryanair را از نظر قانونی الزامآور اعلام کرد. برخلاف یافتههای دادگاه منطقهای ایالات متحده در ناحیه شرقی ویرجینیا و یافتههای دادگاه دریایی و تجاری دانمارک، قاضی مایکل هانا حکم داد که لینک فوق به شرایط و ضوابط Ryanair به وضوح قابل مشاهده است و این مسئولیت را بر عهده کاربر گذاشتهاست که موافقت با شرایط و ضوابط به منظور دسترسی به خدمات آنلاین برای تشکیل یک رابطه قراردادی کافی است.[۲۱] این تصمیم در دادگاه عالی ایرلند قابل تجدید نظر است.[۲۲]
در ۳۰ آوریل ۲۰۲۰، سازمان حفاظت از دادههای فرانسه (CNIL) دستورالعملهای جدیدی را در مورد وب اسکرپینگ منتشر کرد.[۲۳] دستورالعملهای CNIL به وضوح نشان میدهد که دادههای در دسترس عموم هنوز هم دادههای شخصی هستند و بدون اطلاع شخصی که آن دادهها به او تعلق دارد، قابل استفاده مجدد نیستند.[۲۴]
استرالیا
[ویرایش]در استرالیا، قانون هرزنامه ۲۰۰۳ برخی از اشکال برداشت وب را غیرقانونی میکند، اگرچه این فقط برای آدرسهای ایمیل اعمال میشود.[۲۵][۲۶]
هند
[ویرایش]با باقی گذاشتن چند پرونده مربوط به نقض حقوق مالکیت معنوی، دادگاههای هند صریحاً در مورد قانونی بودن گردآوری از وب رای ندادهاند. با این حال، از آنجایی که همه اشکال رایج قراردادهای الکترونیکی در هند قابل اجرا هستند، نقض شرایط استفاده که حذف دادهها را ممنوع میکند، نقض قانون قرارداد خواهد بود. همچنین قانون فناوری اطلاعات ۲۰۰۰ را که دسترسی غیرمجاز به یک منبع رایانه یا استخراج داده از یک منبع رایانه را جریمه میکند، نقض میکند.
روشهای جلوگیری از وب اسکرپینگ
[ویرایش]مدیر یک وب سایت میتواند از اقدامات مختلفی برای متوقف کردن یا کند کردن ربات استفاده کند. برخی از تکنیکها عبارتند از:
- مسدود کردن یک آدرس IP به صورت دستی یا بر اساس معیارهایی مانند موقعیت جغرافیایی و DNSRBL. با این کار تمام مرور از آن آدرس نیز مسدود میشود.
- غیرفعال کردن هر گونه API سرویس وب که ممکن است سیستم وب سایت در معرض نمایش قرار دهد.
- رباتها گاهی اعلام میکنند که چه کسی هستند (با استفاده از رشتههای عامل کاربر) و میتوانند بر این اساس با استفاده از robots.txt مسدود شوند. " googlebot " یک مثال است. سایر رباتها هیچ تمایزی بین خود و انسان با استفاده از مرورگر قائل نمیشوند.
- رباتها را میتوان با نظارت بر ترافیک اضافی مسدود کرد
- گاهی میتوان رباتها را با ابزارهایی مسدود کرد تا تأیید شود که یک شخص واقعی به سایت دسترسی دارد، مانند یک CAPTCHA. رباتها گاهی برای شکستن الگوهای خاص CAPTCHA کدگذاری میشوند یا ممکن است از سرویسهای شخص ثالثی استفاده کنند که از نیروی انسانی برای خواندن و پاسخگویی در زمان واقعی به چالشهای CAPTCHA استفاده میکنند.
- خدمات تجاری ضد ربات: شرکتها خدمات ضد ربات و ضد خراش را برای وب سایتها ارائه میدهند. برخی از فایروالهای برنامه وب دارای قابلیتهای محدودی برای شناسایی ربات نیز هستند. با این حال، بسیاری از این راه حلها چندان مؤثر نیستند.[۲۷]
- مکانیابی رباتها با honeypot یا روشهای دیگر برای شناسایی آدرسهای IP خزندههای خودکار.
- مبهم سازی با استفاده از CSS sprites برای نمایش دادههایی مانند شماره تلفن یا آدرس ایمیل، به قیمت دسترسی به کاربران صفحه خوان.
- از آنجایی که رباتها به یکپارچگی در کد فرانتاند یک وبسایت هدف متکی هستند، افزودن تغییرات کوچک به HTML/CSS پیرامون دادههای مهم و عناصر ناوبری به مشارکت بیشتر انسان در راهاندازی اولیه یک ربات نیاز دارد و اگر بهطور مؤثر انجام شود ممکن است گردآوری از وب سایت مورد نظر به دلیل کاهش توانایی در خودکارسازی فرایند خراش دادن بسیار دشوار است.
- وبسایتها میتوانند اعلام کنند که خزیدن در فایل robots.txt مجاز است یا نه و اجازه دسترسی جزئی را میدهند، سرعت خزیدن را محدود میکنند، زمان بهینه برای خزیدن را مشخص میکنند و موارد دیگر.
- دادههای پایگاه داده را مستقیماً در HTML DOM از طریق AJAX بارگیری کنید، و از روشهای DOM برای نمایش آن استفاده کنید، خزندهها را مجبور میکند که آن درخواستهای AJAX را بازتولید کنند یا از رندر مرورگر استفاده کنند (مثلاً یک مرورگر بدون سر).
جستارهای وابسته
[ویرایش]- Archive.today
- مقایسه جمعکنندههای خوراک
- اسکرپینگ دادهها
- جدال دادهها
- واردکننده
- بستهبندی کار
- استخراج دانش
- اوپن سوشیال
- سایت اسکرپر
- وبسایت اخبار جعلی
- اسکرپینگ وبلاگ
- اسپمدکسینگ
- لیست حذف نام دامنه
- مجموعه متن
- بایگانی وب
- خزنده وب
- خواننده آفلاین
- مزرعه پیوند (شبکه وبلاگ)
- اسکرپینگ موتور جستجو
- خزندههای وب
منابع
[ویرایش]- ↑ "Search Engine History.com". Search Engine History. Retrieved November 26, 2019.
- ↑ Song, Ruihua; Microsoft Research (Sep 14, 2007). "Joint Optimization of Wrapper Generation and Template Detection" (PDF). The 13th International Conference on Knowledge Discovery and Data Mining: 894. doi:10.1145/1281192.1281287. ISBN 978-1-59593-609-7. Archived from the original (PDF) on October 11, 2016.
- ↑ "What is FreeFormat". www.gooseeker.com.
- ↑ Roush, Wade (2012-07-25). "Diffbot Is Using Computer Vision to Reinvent the Semantic Web". www.xconomy.com. Retrieved 2013-03-15.
- ↑ "FAQ about linking – Are website terms of use binding contracts?". www.chillingeffects.org. 2007-08-20. Archived from the original on 2002-03-08. Retrieved 2007-08-20.
- ↑ Kenneth, Hirschey, Jeffrey (2014-01-01). "Symbiotic Relationships: Pragmatic Acceptance of Data Scraping". Berkeley Technology Law Journal. 29 (4). doi:10.15779/Z38B39B. ISSN 1086-3818.
- ↑ "Internet Law, Ch. 06: Trespass to Chattels". www.tomwbell.com. 2007-08-20. Retrieved 2007-08-20.
- ↑ "What are the "trespass to chattels" claims some companies or website owners have brought?". www.chillingeffects.org. 2007-08-20. Archived from the original on 2002-03-08. Retrieved 2007-08-20.
- ↑ "Ticketmaster Corp. v. Tickets.com, Inc". 2007-08-20. Retrieved 2007-08-20.
- ↑ "American Airlines v. FareChase" (PDF). 2007-08-20. Archived from the original (PDF) on 2011-07-23. Retrieved 2007-08-20.
- ↑ "American Airlines, FareChase Settle Suit". The Free Library. 2003-06-13. Archived from the original on 5 March 2016. Retrieved 2012-02-26.
- ↑ Imperva (2011). Detecting and Blocking Site Scraping Attacks. Imperva white paper..
- ↑ Adler, Kenneth A. (2003-07-29). "Controversy Surrounds 'Screen Scrapers': Software Helps Users Access Web Sites But Activity by Competitors Comes Under Scrutiny". Archived from the original on 2011-02-11. Retrieved 2010-10-27.
- ↑ "QVC Inc. v. Resultly LLC, No. 14-06714 (E.D. Pa. filed Nov. 24, 2014)" (PDF). 2014-11-24. Archived from the original (PDF) on 21 September 2013. Retrieved 2015-11-05.
- ↑ "QVC Inc. v. Resultly LLC, No. 14-06714 (E.D. Pa. filed Nov. 24, 2014)". United States District Court for the Eastern District of Pennsylvania. Retrieved 5 November 2015.
- ↑ Neuburger, Jeffrey D (5 December 2014). "QVC Sues Shopping App for Web Scraping That Allegedly Triggered Site Outage". The National Law Review. Proskauer Rose LLP. Retrieved 5 November 2015.
- ↑ "Did Iqbal/Twombly Raise the Bar for Browsewrap Claims?" (PDF). 2010-09-17. Archived from the original (PDF) on 23 July 2011. Retrieved 2010-10-27.
- ↑ "Can Scraping Non-Infringing Content Become Copyright Infringement... Because Of How Scrapers Work? | Techdirt". Techdirt. 2009-06-10. Retrieved 2016-05-24.
- ↑ "Facebook v. Power Ventures". Electronic Frontier Foundation. Retrieved 2016-05-24.
- ↑ "UDSKRIFT AF SØ- & HANDELSRETTENS DOMBOG" (PDF) (به دانمارکی). bvhd.dk. 2006-02-24. Archived from the original (PDF) on 2007-10-12. Retrieved 2007-05-30.
- ↑ "High Court of Ireland Decisions >> Ryanair Ltd -v- Billigfluege.de GMBH 2010 IEHC 47 (26 February 2010)". British and Irish Legal Information Institute. 2010-02-26. Retrieved 2012-04-19.
- ↑ Matthews, Áine (June 2010). "Intellectual Property: Website Terms of Use". Issue 26: June 2010. LK Shields Solicitors Update. p. 03. Archived from the original on 24 June 2012. Retrieved 2012-04-19.
- ↑ "La réutilisation des données publiquement accessibles en ligne à des fins de démarchage commercial | CNIL". www.cnil.fr (به فرانسوی). Retrieved 2020-07-05.
- ↑ FindDataLab.com (2020-06-09). "Can You Still Perform Web Scraping With The New CNIL Guidelines?". Medium (به انگلیسی). Retrieved 2020-07-05.
- ↑ National Office for the Information Economy (February 2004). "Spam Act 2003: An overview for business". Australian Communications Authority. p. 6. Archived from the original on 3 December 2019. Retrieved 2017-12-07.
- ↑ National Office for the Information Economy (February 2004). "Spam Act 2003: A practical guide for business" (PDF). Australian Communications Authority. p. 20. Retrieved 2017-12-07.
- ↑ Mayank Dhiman Breaking Fraud & Bot Detection Solutions OWASP AppSec Cali' 2018 Retrieved February 10, 2018.