خزیدن و ایندکس کردن

Saturday، ۱ Aazar ۱۳۹۹

خزیدن چیست؟

خزیدن فرآیندی است که به موتورهای جستجو امکان می دهد محتوای جدیدی را در اینترنت کشف کنند. برای این منظور ، آنها از رباتهای خزنده استفاده می کنند که پیوندهایی را از صفحات وب شناخته شده به صفحات جدید دنبال می کنند.

همانطور که روزانه هزاران صفحه وب ایجاد یا به روز می شوند ، روند خزیدن مکانیزمی بی پایان است که بارها و بارها تکرار می شود.

خزیدن اولین قدم در این فرآیند است. به دنبال آن فهرست بندی ، رتبه بندی (صفحاتی که از طریق الگوریتم های مختلف رتبه بندی انجام می شوند) و در آخر ، ارائه نتایج جستجو انجام می شود.

بیایید کمی بیشتر به اینجا برویم و ببینیم خزیدن چگونه کار می کند.

ربات موتور جستجو چیست؟

خزیدن موتور جستجو (وب یا ربات خزنده نیز نامیده می شود) بخشی از برنامه ای است که صفحات وب را خزنده می کند ، محتوای آنها را اسکن می کند و برای اهداف ایندکس کردن داده ها را جمع آوری می کند.

هر بار که ربات از طریق اتصال به اینترنت ، یک صفحه وب جدید را خزید ، محتوای موجود در آن را مشاهده می کند - کل متن ، عناصر بصری ، پیوندها ، HTML ، CSS یا فایلهای JavaScript و غیره را اسکن می کند. - و سپس این اطلاعات ایندکس کردن نهایی را برای پردازش ارسال یا بازیابی می کند

گوگل از ربات خود به نام Googlebot به عنوان موتور جستجوی خود استفاده می کند. خزندگان 2 نوع اصلی دارند:

  • تلفن هوشمند Googlebot ربات اصلی است
  • Googlebot Desktop - ربات ثانویه

Googlebot ترجیح می دهد وب سایت ها را عمدتاً به عنوان یک مرورگر تلفن هوشمند خزنده کند ، اما همچنین می تواند هر صفحه وب را با خزنده دسک تاپ خود جستجو کند تا عملکرد و رفتار وب سایت را از هر دو منظر بررسی کند.

دفعات خزیدن صفحات جدید توسط بودجه خزیدن تعیین می شود.

ایندکس کردن چیست؟

ایندکس کردن فرآیندی است برای تجزیه و تحلیل و ذخیره سازی مطالب از صفحات وب خزیده در پایگاه داده (که ایندکس نیز نامیده می شود). فقط صفحات ایندکس شده می توانند در جستجوی مربوطه رتبه بندی و استفاده شوند.

هر زمان که یک خزنده وب یک صفحه وب جدید را کشف می کند ، Googlebot محتوای آن را انتقال می دهد (به عنوان مثال متن ، تصاویر ، فیلم ها ، متا تگ ها ، ویژگی ها و غیره) به مرحله ایندکس کردن که در آن محتوا برای درک بهتر متن تجزیه می شود و در آن ذخیره می شود. فهرست مطالب.

برای این کار ، گوگل از سیستم به اصطلاح ایندکس کردن کافئین که در سال 2010 معرفی شد ، استفاده می کند.

بانک اطلاعاتی شاخص کافئین می تواند میلیون ها و میلیون ها گیگابایت صفحه وب را ذخیره کند. این صفحات به طور سیستماتیک پردازش شده و توسط Googlebot با توجه به محتوایی که در آنها فهرست می شود (و خزنده می شوند).

Googlebot نه تنها ابتدا به وب سایت های ربات موبایل مراجعه می کند ، بلکه ترجیح می دهد محتوای موجود در نسخه های تلفن همراه خود را از به اصطلاح به روزرسانی اول ایندکس کردن موبایل ، فهرست بندی کند.

ایندکس کردن موبایل چیست؟

اولین ایندکس کردن برای دستگاه های تلفن همراه برای اولین بار در سال 2016 انجام شد ، زمانی که گوگل اعلام کرد که آنها محتوای اساسی موجود در نسخه تلفن همراه وب سایت را فهرست بندی و استفاده می کنند.

در بیانیه رسمی گوگل به وضوح آمده است:

"در ایندکس کردن اولیه تلفن همراه ، ما فقط اطلاعات مربوط به سایت شما را از نسخه موبایل دریافت خواهیم کرد ، بنابراین مطمئن شوید که Googlebot می تواند محتوای کامل و منابع را در آنجا ببیند."

از آنجا که امروزه بیشتر مردم از تلفن های همراه برای گشت و گذار در اینترنت استفاده می کنند ، منطقی است که گوگل بخواهد به وب سایت ها "به همان روشی که" مردم نگاه می کنند ، نگاه کند. همچنین این یک تماس واضح برای دارندگان وب است تا مطمئن شوند وب سایت های آنها برای دستگاه های تلفن همراه پاسخگو و کاربرپسند هستند.

در این مرحله ، از نظر نظری به مفهوم خزیدن و ایندکس کردن پرداختیم.

حال ، بیایید مراحل واقعی را که می توانید هنگام خزیدن و / یا ایندکس کردن وب سایت خود انجام دهید ، بررسی کنیم.

چگونه Google را وادار کنیم تا وب سایت شما را جستجو و فهرست بندی کند؟

از نظر خزیدن و ایندکس کردن واقعی ، هیچ "دستور مستقیمی" وجود ندارد که موتورهای جستجو را برای ایندکس کردن وب سایت خود وادار کند.

با این وجود ، روش های مختلفی برای تأثیر در اینکه چه زمانی ، چگونه وب سایت شما خزیده و فهرست می شود وجود دارد.

1. فقط کاری نکنید - رویکرد انفعالی

از نظر فنی ، برای جستجوی وب سایت خود از Google لازم نیست کاری انجام دهید.

تمام آنچه شما نیاز دارید پیوندی از وب سایت خارجی است و در نهایت Googlebot شروع به خزیدن و ایندکس کردن تمام صفحات موجود می کند.

استفاده از رویکرد "هیچ کاری انجام نده" می تواند خزیدن و ایندکس کردن صفحات شما را به تعویق بیندازد ، زیرا یافتن وب سایت شما توسط خزنده وب ممکن است مدتی طول بکشد.

2. ارسال صفحات وب با استفاده از URL Verifier

یکی از راه هایی که می توانید از صفحات وب خزنده و ایندکس کردن "محافظت" کنید این است که مستقیماً از Google بخواهید صفحات شما را با استفاده از ابزار جستجوی URL در کنسول جستجوی Google فهرست بندی کند (یا ایندکس کند).

این ابزار زمانی مفید است که صفحه کاملاً جدیدی داشته باشید یا تغییرات قابل توجهی در صفحه موجود خود ایجاد کرده باشید و می خواهید آن را در اسرع وقت ایندکس کنید.

روند کار بسیار ساده است:

1. به کنسول جستجوی Google بروید و URL خود را در نوار جستجو در بالا بنویسید. Enter را بزنید.

2. کنسول جستجو وضعیت صفحه را به شما نشان می دهد. اگر ایندکس نشده باشد ، می توانید درخواست ایندکس کردن کنید. اگر ایندکس شده باشد ، نیازی به انجام کاری یا اظهارنظر مجدد ندارید (اگر تغییرات عمده ای در صفحه ایجاد کرده اید).

3- تأیید کننده URL شروع به آزمایش این می کند که آیا نسخه فعلی URL می تواند ایندکس شود (ممکن است چند ثانیه یا چند دقیقه طول بکشد).

4- پس از پایان موفقیت آمیز آزمون ، اعلانی ظاهر می شود که تأیید می کند URL شما برای فهرست بندی به اولویت خزیدن اولویت اضافه شده است. روند ایندکس کردن می تواند از چند دقیقه تا چند روز طول بکشد.

3. نقشه سایت را ارسال کنید

Sitemap یک لیست یا فایل XML است که شامل تمام صفحات وب شما است که قصد دارید آنها را با موتور جستجو خزیده و فهرست کنید.

مزیت اصلی نقشه سایت این است که موتور جستجوی وب سایت شما را بسیار آسان تر می کند. شما می توانید تعداد زیادی URL را به طور همزمان ارسال کنید و بنابراین روند ایندکس کردن کلی وب سایت خود را تسریع کنید.

4. لینک داخلی صحیح را برقرار کنید

ساختار پیوند داخلی قوی یک رویکرد بلند مدت برای آسان تر کردن صفحات وب شما است.

چگونه انجامش بدهیم؟ پاسخ معماری مسطح وب سایت است. به عبارت دیگر ، همه صفحات کمتر از 3 پیوند دارند:

یک معماری پیوند خوب می تواند اطمینان حاصل کند که تمام صفحات وب مورد نظر جهت خزیدن خاموش هستند ، زیرا خزنده های وب به راحتی به همه آنها دسترسی خواهند داشت. این روش به ویژه برای سایت های بزرگ (مانند تجارت الکترونیکی) حاوی هزاران صفحه محصول مهم است.

چگونه می توان Google را از خزیدن و ایندکس صفحه شما جلوگیری کرد؟

دلایل زیادی برای جلوگیری از خزیدن و / یا فهرست بندی قسمت های وب سایت شما توسط Googlebot وجود دارد. مثلا:

  • محتوای خصوصی (به عنوان مثال اطلاعات کاربری که نباید در نتایج جستجو نشان داده شود)
  • صفحات وب را کپی کنید (به عنوان مثال صفحاتی با محتوای یکسان که نباید برای ذخیره بودجه برای خزیدن و / یا چندین بار در نتایج جستجو صرفه جویی شود)
  • صفحات دارای خالی یا خطا (به عنوان مثال صفحات ناتمام که برای فهرست بندی آماده نیستند و در نتایج جستجو ظاهر می شوند)
  • صفحات کم ارزش و بدون ارزش (به عنوان مثال صفحات تولید شده توسط کاربر که هیچ محتوای با کیفیتی را برای سوالات جستجو حمل نمی کنند).

در این مرحله ، باید روشن شود که Googlebot در هنگام کشف صفحات وب جدید بسیار موثر است ، حتی زمانی که قصد شما این نبوده است.

همانطور که گوگل اظهار داشت ، "محرمانه نگه داشتن یک سرور وب بدون انتشار پیوندها به آن تقریباً غیرممکن است."

بیایید به توانایی های خود در مورد جلوگیری از خزیدن و / یا ایندکس کردن نگاه کنیم.

1. از robots.txt استفاده کنید (برای جلوگیری از خزیدن)

Robots.txt یک فایل متنی کوچک است که شامل دستورات مستقیم برای عنکبوت های وب در مورد نحوه جستجو در وب سایت شماست.

هر بار که خزنده های وب از وب سایت شما بازدید می کنند ، ابتدا بررسی می کنند که آیا وب سایت شما دارای یک فایل robots.txt است و دستورالعمل های مربوط به آنها چیست. پس از خواندن دستورات از پرونده ، طبق دستورالعمل ، وب سایت شما را شروع به خزیدن می کنند.

با استفاده از دستورالعمل های "مجاز" و "ممنوع" در پرونده robots.txt ، می توانید به خزنده های وب بگویید که کدام قسمت از وب سایت را باید بازدید و خزید و کدام صفحات وب را باید تنها گذاشت.

در اینجا مثالی از پرونده در وب سایت robots.txt نیویورک تایمز با بسیاری از دستورات منع وجود دارد:

به عنوان مثال ، می توانید از خزیدن Googlebot جلوگیری کنید:

  • صفحات محتوای تکراری
  • صفحات خصوصی
  • URL های پارامتر پرس و جو
  • صفحات نازک مطالب
  • صفحات آزمون

بدون دستورالعمل های این پرونده ، خزنده وب از هر صفحه وب پیدا می کند ، از جمله URL هایی که می خواهید برای جلوگیری از خزیدن استفاده کند.

در حالی که robots.txt می تواند یک روش خوب برای جلوگیری از خزیدن Googlebot در صفحات شما باشد ، شما نباید به این روش به عنوان راهی برای پنهان کردن محتوا اعتماد کنید.

اگر برخی از وب سایت های دیگر به این URL ها پیوند داشته باشند ، ممکن است صفحات وب مجاز همچنان توسط ایندکس شوند.

برای جلوگیری از ایندکس کردن صفحات وب ، روش موثر دیگری نیز وجود دارد - دستورالعمل های Meta برای روبات ها.

2. از دستورالعمل "noindex" استفاده کنید (برای جلوگیری از ایندکس کردن)

دستورالعملهای متا ربات (که بعضاً به آنها متا برچسب می گویند) قطعات کوچکی از کد HTML هستند که در بخش <head> یک صفحه وب قرار می گیرند و به موتورهای جستجو نحوه فهرست بندی یا خزیدن آن صفحه را آموزش می دهند.

یکی از رایج ترین دستورالعمل ها دستورالعمل موسوم به "noindex" (فرابخشی ربات با مقدار noindex در ویژگی محتوا) است. به موتورهای جستجو اجازه نمی دهد صفحه وب شما را در SERP ایندکس و نمایش دهند.

به این شکل است این کد:

<meta name = "robots" content = "noindex">

ویژگی "robots" به این معنی است که این دستور برای انواع ربات های وب اعمال می شود.

دستورالعمل noindex مخصوصاً برای صفحاتی مفید است که بازدیدکنندگان می خواهند آنها را ببینند ، اما شما نمی خواهید که آنها در نتایج جستجو فهرست شوند یا نمایش داده شوند.

noindex معمولاً با ویژگی های follow یا nofollow ترکیب می شود تا به موتورهای جستجو بفهماند که آیا باید پیوندهای صفحه را پیمایش کنند.

چگونه بررسی کنیم صفحه صفحه ایندکس شده است؟

وقتی نوبت به بررسی یا خزیدن و فهرست شدن صفحات وب می رسد ، یا اینکه یک صفحه وب دارای برخی مشکلات است ، چندین گزینه وجود دارد.

1. دستی آن را بررسی کنید

ساده ترین راه برای بررسی اینکه آیا وب سایت شما ایندکس شده است یا نه ، انجام دستی آن با استفاده از اپراتور سایت است ::

اگر وب سایت شما خزنده و ایندکس شده است ، باید تمام صفحات فهرست شده و همچنین تعداد تقریبی صفحات ایندکس شده را در بخش "درباره نتایج XY" مشاهده کنید.

اگر می خواهید نشان دهید که یک URL خاص ایندکس شده است ، از URL به جای دامنه استفاده کنید:

اگر صفحه وب شما ایندکس شده است ، باید آن را در نتایج جستجو مشاهده کنید.

2. وضعیت پوشش شاخص را بررسی کنید

برای اینکه اطلاعات بیشتری در مورد صفحات ایندکس شده (یا غیر ایندکس شده) خود کسب کنید ، می توانید از گزارش کنسول جستجوی Google استفاده کنید.

نمودارهای دارای جزئیات در گزارش پوشش فهرست می توانند اطلاعات ارزشمندی در مورد وضعیت URL ها و انواع مسائل با صفحات خزیده شده و / یا فهرست شده ارائه دهند.

3. از ابزار بازرسی URL استفاده کنید

ابزار بازرسی URL می تواند از آخرین باری که به وب سایت شما مراجعه می کنید ، اطلاعاتی درباره صفحات وب منفرد در وب سایت شما ارائه دهد.

شما می توانید بررسی کنید که آیا صفحه وب شما:

  • دارای برخی مسائل است (با جزئیات مربوط به نحوه کشف آن)
  • خزیده شده بود و آخرین زمان خزیدن است
  • آیا صفحه ایندکس شده است و آیا می تواند در نتایج جستجو ظاهر شود