أساسيات محركات البحث.. غوغل نموذجاً
3 June 2010 | ?????? ماهر الجنيدي |أساسيات محركات البحث.. غوغل نموذجاً
عندما تجلس أمام الكمبيوتر، وبعد إجراء عملية بحث في أحد محركات البحث، تظهر لك على الفور قائمة بنتائج البحث من الويب. تُرى، كيف تعثر هذه المحركات على صفحات الويب التي تتطابق مع استعلام البحث، وعلى أي أساس يتم ترتيب النتائج؟
الأمر بسيط نظرياً. تخيّل عملية البحث في الويب على أنها اطّلاع على كتاب ضخم المحتوى، وأن هذا الكتاب يحتوي على فهرس شامل يخبرك بدقة بمكان كل جزء من محتواه. وعندما تجري بحثاً باستخدام أحد محركات البحث، فإن ثمة برامج تتولى مراجعة الفهرس، وتحديد نتائج البحث الأوثق صلةً بكلمات البحث، ومن ثم عرضها لك.
إذن، فحصولك على نتائج البحث يشتمل على ثلاث عمليات رئيسية هي:
· الزحف (Crawling).
· الفهرسة (Indexing).
· العرض (Serving).
هو عملية ينفذها روبوت محرك البحث، ويكتشف من خلالها الصفحات الجديدة أو التي يجري تحديثها، ليضيفها إلى فهرسه.
تستخدم محركات البحث مجموعة ضخمة من أجهزة الكمبيوتر للبحث عن (أو الزحف إلى) مليارات الصفحات الموجودة على الويب وجلبها. ويدعى البرنامج الذي يتولى البحث عن الصفحات وجلبها باسم الروبوت، أو برنامج التتبع، أو العنكبوت (Spider). ويستخدم روبوت غوغل مثلاً، الذي يسمى (غوغلبوت- Googlebot ) خوارزمية محددة في عمله: حيث تتولى برامج الكمبيوتر تحديد المواقع التي يتم الزحف إليها، وعدد مرات عملية الزحف، وعدد الصفحات التي يتم البحث عنها وجلبها من كل موقع.
وتبدأ عملية زحف غوغل من خلال قائمة عناوين URL لصفحات ويب، تم إنشاؤها من عمليات زحف سابقة، ودمجها مع بيانات ملفات خريطة الموقع (Sitemap) التي يقدمها مشرفو المواقع. وعندما يزور غوغلبوت كل موقع من مواقع الويب هذه، فإنه يكتشف روابط في كل صفحة، ويضيفها إلى قائمة الصفحات التي سيتم الزحف إليها. كما تتم ملاحظة المواقع الجديدة، والتغييرات التي تمت على المواقع الحالية، وكذلك الروابط المعطلة واستخدامها في تحديث فهرس غوغل.
لا تقبل غوغل تلقي الأموال مقابل الزحف إلى أحد المواقع أكثر من غيره، فهي تفصل تماماً بين خدمة البحث وبين خدمة AdWords التي تحقق ها العائدات.
ثانياً: الفهرسة
يعالج غوغلبوت كل صفحة من الصفحات التي يزحف إليها، لتكوين فهرس ضخم يضم جميع الكلمات التي يراها، وتحديد مكانها على كل صفحة. بالإضافة إلى ذلك، فهو يعالج المعلومات المضمنة في الواصفات المفتاحية للمحتوى (key content tags) وفي سماته (attributes)، مثل واصفات العنوان (Title Tags) وسمات النص البديل (ALT attributes). ويستطيع غوغلبوت معالجة الكثير من أنواع المحتوى وليس كل الأنواع. فعلى سبيل المثال، لا يمكنه معالجة محتوى بعض ملفات الوسائط الكبيرة، أو محتوى الصفحات ذات الطبيعة الديناميكية.
ثالثاً: عرض النتائج
عندما يدخل المستخدم طلب بحث، تتولى المحركات البحث في الفهرس عن الصفحات المطابقة، وتعرض له النتائج التي تراها الأوثق صلةً بالنسبة إلى المستخدم. وفي غوغل، يتم تحديد مدى الصلة تبعاً لأكثر من 200 عامل، أحدها تصنيف الصفحة (Page Rank) التي يتم عرضها. إن تصنيف الصفحات هو عبارة عن مقياس لمدى أهمية إحدى الصفحات، بناءً على الروابط الواردة إليها من الصفحات الأخرى. وبمعنى أبسط، كل رابط يتم الوصول من خلاله لصفحة من صفحات موقعك يزيد من تصنيف صفحاتك. ولا تتساوى كل الروابط: حيث يعمل غوغل مثلاً على تحسين تجربة المستخدم من خلال تحديد الروابط المزعجة وأية ممارسات أخرى تؤثر سلباً على نتائج البحث. وأفضل أنواع الروابط هي تلك التي تعكس جودة المحتوى.
ملاحظة هامة
(بنيت هذه المقالة على نص موجود بالعربية أصلاً ضمن موقع غوغل، بعد تصحيح أخطاء الترجمة فيه، وتعديل بعض التسميات لتتناسب مع التسميات العربية الشائعة، وإجراء بعض التنقيح).


2 ???????