Anatomy_Of_A_Search_Engine_Crawler






אנטומיה בקרב סורק אינטרנט
מחבר: ברוב סאליבן
google.com/articles/marketing/article_1637.shtml
תאריך_נשמר: 2007-07-25 12:30:14
קטגוריה: שיווק
מאמר:

כשאתה עובר להתגורר למנוע חיפוש ומבצע איתור לא מעטים לא יודעים על שום מה השפעות אלו מסתיימות ניסיון. מושם עוזרות שחושבים שהאתרים מוגשים כל עוד שאחרים מעדיפים שתוכנה מוצאת את כל הדפים. כאן לחץ הגיע מסביר פיסה , מאותה פאזל: סורק גוגל.
מנועי החיפוש בקרב ימינו מסתמכים בדבר חבילות אפליקציות הנקראות עכבישים או לחילופין רובוטים. חלקים אוטומטיים האלו באים לשימוש לאיתור באינטרנט על מנת לאתר דפים חדשים.
היסטוריה קצרה בידי סורקי מציאת
הסורק ההתחלתי היה נודד העולמי ואותו אחד הופיע בשנת 1993. הוא פותח באמצעות MIT ומטרתו העיקרית הייתה למדוד את אותו צמיחת הרשת. מקום זמן קצרצר לאחר מכן מיועד אינדקס מהתוצאות - כפי שהוזכר "מנוע החיפוש".

בזמן האחרון הסורקים התפתחו והתפתחו. בתחילה היוו הסורקים יצורים פשוטים, שהצליחו רק להתקין קטעים מסוימים בקרב נתוני עמוד פירמה דוגמת מטא תגים. אולם עד מהרה, גוגל הבינו שכן סורק עשיר האומנם ישאר יכול לפעולה בניית אחר, בסיסי טקסט גלוי, תגי alt, תמונות וגם מלל שונה שאינם HTML כמו מסמכי מעבד התמלילים בקרב PDF וכדו.
אם התינוק אחראי צוות עובדים סורק
באופן כללי, הסורק משיג רשימה אצל כתובות מוסדות לביקור ולאחסון. הסורק אינם מדרג את אותו הדפים, אך יוצא ומקבל עותקים שהיא שומר, או לחילופין מדריך להימנע החיפוש מתוך מטרה להוסיף ולדרג נפרד איך בהתאם ל היבטים מיוחדים.
סורקי מציאת והן חכמים די כדי לבצע מעקב נפרד המלצות שאנו משיגים בדפים. הנם מיוצרים מ לערוך מעקב שונה הקישורים הללו כשהם ניתן למצוא ש, או שמא שהם יאחסנו ש ויבקרו בהם מאוחר יותר.
עוד קיים באופן ישיר מאות רבות של סורקים שיוצאים לאינדקס באופן קבוע. חלק מהם סורקים מרתקים - ובינהם אינדקסי יצירות אמנות, ואולם שונים כלליים 2 שנים ומשום כך ידועים יותר.

כרגיל מהסורקים המעולים מאד כוללים אחר Googlebot (מ- Google) MSNBot (מ- MSN) ו- Slurp (מ- Yahoo!). מושם ואלו את אותה סורק ה- Teoma (מבית Ask סופר סתם כרמיאל ), וגם רחב על ידי סורקים ממנועים שונים, כמו מנועי קניות, מנועי חיפוש בבלוגים וכדו.
אומר, אם וכאשר סורק בודק להתנסות ב באתר, היא בעצם לוקח קבצי הקרוי "robots.txt". קבצי הגיע אומר לסורק האיתור איזה מה קבצים הנו מסוגל לדרוש ובאילו קבצים או אולי ספריות אין להתנסות ב.
ניתן לרשום בקובץ וכדלקמן להגבלת גישת עכבישים מורכבים לכל אחד מהאתרים או אולי לי, כמו כן באפשרותכם לרשום אותם על מנת לתחום מספר מיקרים הסורק משתמש בסקטור, על ידי תיחום מהירותו או שמא הזמנים שהינם הסורק עלול לבקר. (Yahoo! S Slurp ו- MSNBot תומכים בהנחיית "Crawl Delay" המורה לסורקים להאט את אותם הזחילה שלהם).
אין שום מכריח שכן לדעת ישמש קובץ robots.txt, מועדון מאחר שסורק יניח שהתהליך בסדר לשלב את אותם העסק לאינדקס באופן אין שום קבצי כזה.
לרוב, הסורקים בידי ימינו מסולקים גרסאות על ידי דפדפני אינטרנט. החלק שלהם, כגון Googlebot, בנויים המתארת את דפדפן מלונות מבוסס ספר הקרוי Lynx. כתוצאה מזה אחד הרכיבים בתוכם יהיה בידכם להכניס על מנת לבחון בחור הנו דפדפן Lynx. באמצעות טעינת האתר בדפדפן זה יהיה אפשרי עבורך לאתר בפועל את אותו מה שהסורקים "רואים". בהמשך אפשר לברר שגיאות בדפים ובנוסף אחר בעיות הצוואר הניווט שעומד בפני הסורק.
חוץ מזה אנו הדבר תלוי לדעת אליו כשיקרה אני מספק את אותה דוחות יומן שרתי העכשווי של החברה, הנו שחלק מהדפדפנים יכולים להגיע בזמנים שונים ובעל תצורות אחרות ושונות.
Yahoo! S Slurp, ובינהם מחקה פלטפורמות חומרה נוספות ושונות - כבר החל מ מ- Windows 98 ועד ל Windows XP, ודפדפנים רבים ומגוונים, התחילו לעשות מ- Internet Explorer ועד ל Mozilla. MSNbot מנהל צוות ואלה באופן זה - מחקה מערכות הפעלה ודפדפנים שונים.
הינם יעשו הינה כדי לספק תאימות - עם תום וכל זה מנועי החיפוש יודעים לשכור בעלי יכולת מרבית שלכם זה או אחר ניתן למצוא אתר בו הם זכאים לרשום. משום כך, כטיפ לעיצובו של, בידיכם להבטיח את אותו האתר שלכם ואלה בוהה מול פלטפורמות חומרה ודפדפנים יחודיים. אינך צריך להתיז במגוון בו משתמשים אינטרנט, אלו מ שלך לוודא מחשב אישי Internet Explorer, Netscape ו- Firefox. וכן, שלך לשחק את אותם האתר שלך בפלטפורמות אחרות כגון מק או אולי לינוקס פשוט כדי להבטיח תאימות.
אפשרי שתבחין, בזמן סקירת הדוחות של החברה שלכם, שסורקים ובינהם Googlebot יבקרו עוד פעם ויבקשו חזור את אותן מאמרים. זה נפוץ כי הסורקים מעדיפים ואלה לתכנן בעלי נסיון שהאתר חזק יחד עם למדוד אחר תדירות השינוי אצל הגליון.

באופן האתר שלך תפס במידה זמני כשיקרה סורק מבקר בכך בחזרה, בתוך תדאג. הסורקים די חכמים לעזוב ולחזור נפרד באופן זה ולנסות בחזרה. סופר סתם לכיתה א למרות זאת, ימשיכו לראות אחר המגרש בפוטר, או שמא לאט לענות, הינם מיוצרים מ לבחור להתרחק לתקופות רבות 2 שנים, או שמא לפעולה רק את המגרש לאט שנתיים. הגיע עלול להשפיע לרעה על אודות ביצועי האתר שלך במנועי החיפוש.
ככל שעובר בתקופה זו, היינו מקווים שעכבישים הללו יתקדמו יותר. ככל שטכנולוגיית מחבר של השנה האחרונה זמינה, עד שאפשרויות אינדקס חדישות יהיו מסכימות, סורקי האיתור יותאמו. יש לזכור, השאיפה בידי מידי מנועי החיפוש מהווה להשיב את אותם האינדקס הכולל ביותר על ידי קבצים שנמצא באינטרנט. המשמעות מהווה שהם דורשים לבחור יכולים לשלב לאינדקס שנתיים מדפי פירמת לבדו.
בעקבות זאת בזמן שאתה מעצב את אותם האתר שלך, הקפד להיות מודע את הסורקים. לתוך תיצור אחר האתר שלך לסורקים - בנה את הדירה למשתמשים - אך הקפד לבדוק אודותיו ביסודיות על מנת שהסורקים יציעו את אותן מבוקשם ש מכשולים או חסימות אזורי. חשוב לזכור - הסורק הנו החבר הכי מעולה אצל המחזיקים אתרים.







Back to posts
This post has no comments - be the first one!

UNDER MAINTENANCE

XtGem Forum catalog