انسَ وعود مزودي البروكسي حول «99.9% وقت تشغيل» لجمع البيانات من الويب. دراسة جديدة تكشف أن «وقت تشغيل» البروكسي لا يعني بالضرورة نجاح طلباتك، خاصة عند التعامل مع المواقع المحمية بشدة.
إذا كنت جادًا في جمع البيانات من الويب (web scraping)، أو مراقبة الأسعار، أو تغذية نماذج الذكاء الاصطناعي بالبيانات، فمن المحتمل أنك أنفقت الكثير على نطاق ترددي البروكسي. غالبًا ما يعد مزودو البروكسي بأشياء مذهلة: «99.9% وقت تشغيل، وملايين العقد السكنية، وزمن وصول منخفض للغاية». لكن النتائج الجديدة تشير إلى أن هذه الادعاءات التسويقية غالبًا ما لا تتطابق مع ما يحدث على أرض الواقع. قرر الفريق الهندسي في ProxyVero الكشف عن الحقيقة. لقد قاموا ببناء نظام آلي خاص لاختبار شبكات البروكسي للمؤسسات باستمرار. وما اكتشفوه بعد تحليل ملايين الطلبات مثير حقًا للاهتمام. يتضح أنه عندما يخبرك مزود البروكسي أن خوادمه تعمل «99.9% من الوقت»، فإنهم عادةً ما يقصدون أن خادم البوابة الرئيسي الخاص بهم متاح. هذا يعني فقط أن خادمهم يستجيب برمز حالة HTTP. ومع ذلك، مجرد أن الخادم «يعمل» لا يعني أن طلبات البيانات الفعلية الخاصة بك تنجح. في عالم جمع البيانات الحقيقي، خاصة عند التعامل مع مواقع الويب الصعبة مثل أمازون أو خرائط جوجل، غالبًا ما تسقط بروكسيات الإقامة الأساسية الطلبات. يحدث هذا كثيرًا عندما ترسل العديد من الطلبات في وقت واحد. قد ترى أخطاء مثل 403 Forbidden أو 429 Too Many Requests، حتى لو كانت البوابة الرئيسية تبدو بخير. يمكن أن تحدث هذه المشاكل إذا لم يتم ضبط إعدادات جمع البيانات الخاصة بك، مثل بصمات المتصفح أو فترات التناوب للبروكسي، بشكل مثالي لتجاوز جدار حماية تطبيقات الويب (WAF) الخاص بالموقع المستهدف. لضمان أن تكون اختباراتهم عادلة، استخدم ProxyVero أدوات جمع بيانات متطابقة موجهة عبر شبكات بروكسي مؤسسية مختلفة. وبعد فترة اختبار استمرت 30 يومًا، وجدوا اختلافات كبيرة في زمن الوصول في الوقت الفعلي ومعدلات نجاح الطلبات الفعلية، وليس فقط في توفر الخادم المُبلغ عنه. هذا يعني أنك بحاجة إلى تجاوز ضمانات وقت التشغيل البسيطة والتركيز على عدد طلبات البيانات التي تنجح بالفعل. وإلا، فقد تدفع مقابل بروكسيات لا توفر البيانات التي تحتاجها بالفعل.