מאחורי הקלעים של גוגל ושות': איך עובדים מנועי החיפוש?
מדי יום מיליוני אנשים בכל רחבי העולם מחפשים מידע במנועי חיפוש שונים ורבים כגון גוגל, בינג ואחרים. אבל איך זה באמת עובד? מנין גוגל וכל יתר מנועי החיפוש יודעים כיצד להציג דווקא את התוצאות הללו?
ובכן, רוב מנועי החיפוש פועלים באופן דומה למדי, המורכב משלושה חלקים שמתחילים ברגע בו משתמש מקליד דבר מה בשורת החיפוש. לאחר שמחרוזת החיפוש, המכונה גם שאילתה, משוגרת באמצעות לחיצה על העכבר, בתוך כמה חלקיקי שניה יתרחשו אותם שלושה חלקים בסדר הבא:
- סריקה ואיסוף מידע מכל רחבי הרשת באמצעות מכין רובוטים-סורקים
- "אינדוקס", כלומר שמירת עותקים מכל אתרי האינטרנט והעמודים בתוך מאגר מידע גדול
- יצירת רשימת תוצאות המוצגת למשתמש על פי אלגוריתם המדרג את מידת הרלוונטיות של אתרים ועמודים לחיפוש שבוצע
ככל שאתר או עמוד אינטרנט מדורגים במיקום גבוה יותר ברשימת תוצאות החיפוש המוגשת לגולש, כך גובר הסיכוי שהגולש יבחר בהם. מכאן, ככל שבעל אתר או מקדם אתרים יבינו טוב יותר את אופן הפעולה של מנועי החיפוש, כך ישתפרו סיכוייהם לבצע את מה שמכונה בשפה המקצועית קידום אתרים בגוגל מתחלק לשניים אורגני וממומן, כלומר לבצע פעולות שיעזרו לאתר המדובר לטפס אל מיקומים גבוהים יותר בתוצאות החיפוש המוצגות לגולשים שמבצעים חיפוש אחר מילות מפתח רלוונטיות. לפיכך, הבה נרחיב מעט על כל אחד מן השלבים.
• זאת ההזדמנות שלך! נסדר לך קריירה ונלווה אותך להצלחה - לפרטים נוספים לחצו כאן
- סריקת הרשת
רשת האינטרנט מתעדכנת בקצב מסחרר, ומנועי החיפוש עושים כל שביכולתם כדי לבצע סריקות חוזרות ונשנות של אתרים ועמודים שונים על מנת לבחון האם הם עדיין קיימים (או אולי הוסרו מאז הפעם האחרונה בה מנוע החיפוש סרק את הרשת?); האם התוכן בהם עדיין זהה לתוכן שהיה בהם בפעם האחרונה?; והאם עלו עמודים חדשים שיש בהם תוכן שונה ולפיכך עשויים להוות מענה טוב יותר לשאילתות מסוימות?
על מנת לסרוק את הרשת, מנועי החיפוש נעזרים במעין "שליחים" שמתרוצצים ברחבי האינטרנט. נהוג לכנותם "רובוטים", "זוחלים", "עכבישים" ועוד.
- אינדוקס
כאשר אחד מן הרובוטים הסורקים של מנוע החיפוש נתקל בעמוד אינטרנט כלשהו, הוא יוצר עותק שלו ושומר אותו במאגר נתונים עצום. מאגר זה נועד להוות מקום שבו נשמרים כל העותקים של כל עמודי האינטרנט שנסרקו על ידי הרובוטים הסורקים של אותו מנוע חיפוש. מדובר בכמות בלתי נתפסת של מידע, ולמשל לגוגל יש כתריסר מאגרי מידע אדירים כאלה המפוזרים ברחבי העולם ושמורים היטב בבניינים מפוארים וחדישים עם אבטחה כבדה.
מאגר המידע בו נשמרים עותקים מכל עמודי האינטרנט מכונה "האינדקס", וממנו נשלפים העמודים הספציפיים שמהווים את המענה הרלוונטי ביותר לגולש. האינדוקס הוא התהליך בו מסודרים כל עותקי העמודים שנסרקו באופן כזה ניתן יהיה לחפש בהם במהירות רבה אחר התוצאות הרלוונטיות ביותר עבור כל שאילתה.
האלגוריתם
במאגר המידע נמצאים עותקים מאינספור עמודי אינטרנט, שמתעדכנים כל הזמן ומסודרים כך שקל לחפש ביניהם. כעת יש צורך לדרג את כל העמודים הללו על פי הרלוונטיות שלהם למילות ספציפיות שהוקלדו בשורת החיפוש – וזה נעשה בעזרת האלגוריתם.
האלגוריתם הוא למעשה משוואה ארוכה ומסובכת המחשבת ערך עבור כל עמוד אינטרנט ביחס למילות מפתח מסוימות. לרוב אופן הפעולה המדויק של אותו אלגוריתם נשמר בסוד מפני מתחרים ומפני גורמים שישמחו לנצל אותו לרעה; אולם בדרכים של הסקת מסקנות וניסוי וטעייה ידוע היום למקדמי אתרים רבים כיצד אפשר לשפר את ביצועיו של אתר ולמעשה להתאים אותו בסיכויים גבוהים יותר אל האלגוריתם ובכך לשפר את דירוגו של האתר שלהם ולקדם אותו גבוה יותר בתוצאות החיפוש.
המאמר נכתב בשיתוף אייל רחמים, המייסד של חברת דיגיטאץ' עם ניסיון מעל 10 שנים בשיווק הדיגיטלי.