אמש נתתי הרצאה במכללה החברתית כלכלית לכבוד 10 שנים להקמת גוגל.
הנה הסרט של ההרצאה מאתר הטלוויזיה החברתית.
אני דיברתי על התשתית של גוגל ואחרי דיבר גל מור והעלה שאלות עקרוניות למחשבה על גוגל והתנהלותה.
אני מדביק כאן את מתווה ההרצאה שלי. כמובן שזה לא כל מה שאמרתי ויש דברים שאני הראתי בהרצאה ואני לא יכול להראות כאן (סטטיסטיקה של גישה לאתרים שלי, נתוני ההכנסות שלי מפרסומות גוגל)
גוגל התחיל כמנוע חיפוש שמביא באופן יעיל מידע ציבורי למחפשים. שם מקור כוחו.
ככה נראה דף הכניסה של האתר שלי באוגוסט 2000
שימו לב למשפט שנשמע היום נורא מוזר – "Yahoo! הוא אתר ממש גרוע לחיפוש. תתחילו להתרגל ל Google"
אז, גוגל נתנו תמריצים כספיים לבעלי אתרים כדי שיציגו את אפשרות החיפוש בתוך גוגל.
תיאור מקרה
בשעה 15:07 פרסמתי בבלוג שלי את ההזמנה להרצאה
בשעה 16:26 – לאחר פחות מ 40 דקות – הבלוג שלי הופיע בתוצאות החיפוש בגוגל כשחיפשתי משפט מסויים בהזמנה.
איך גוגל הצליחו לסרוק את הבלוג שלי ולהכניס אותו לאינדקס שלהם בזמן כה קצר? בהתחשב בכך שמליונים של דפים נוצרו במקביל? ולמה זה חשוב להם? ואיך זה אפשרי שחיפוש יתבצע בתוך עשירית השניה?
איך מגיע מידע ציבורי חדש למסך שלנו?
לגוגל יש תוכנות ש:
1. סורקות את האינטרנט
2. מאכסנות ומוסיפות לאינדקס את המידע החדש
3. מאפשרות לנו לחפש באינדקס את המידע
מה התשתית המאפשרת את הזמינות של הדף שלי בגוגל?
מרכזי המידע של גוגל:
– נכון לאפריל 2008, לגוגל יש 36 מרכזי מידע (מפות)
– כל מרכז מידע חדש עולה בערך 600 מיליון דולאר
– מרכז מידע צריך להיות על שטח אדמה גדול ומרוחק כדי לאפשר פרטיות.
– צריכה להיות אפשרות הספקה של הרבה חשמל.
– צריך להיות אגם או נהר קרובים כדי להזין את מתקני הקירור
בכל מרכז מידע עד עשרות אלפים של מחשבים.
תחשבו על המחשב האישי שלכם. כמה צרות הוא עושה לכם?
האם הייתם מוכנים לקבל רמה כזאת של אמינות מהחיפוש של גוגל או מחשבון הג'ימייל שלכם?
אז מה עם האמינות של מחשבי גוגל?
מהנדס של גוגל סיפר שבכל אשכול של מחשבים, בשנה הראשונה יהיו :
– בעיות באלפי מחשבים
– אלפי הרד-דיסקים יתקלקלו
– מערכת החשמל תתקלקל לפחות פעם אחת, מה שיגרום להפסקת הפעולה של 500 עד 1000 מחשבים לפחות ל 6 שעות
– 20 ארונות מחשבים יתקלקלו
– מה שיגרום ל 40 עד 80 מחשבים להעלם מהרשת
– וחלקים שלמים יזדקקו לחיווט מחדש.
גוגל יודעים שחומרה מתקלקלת ולכן הם יצרו לעצמם תוכנה שמפצה על קילקולי החומרה.
לגוגל יש מערכות תוכנה מיוחדות שמאפשרות את פיזור המידע בין מחשבים בכל העולם ושומרות על זמינות ואמינות ברמה אחרת לגמרי מאשר אנחנו מכירים.
כל כתיבה של מידע מתועדת. במידה והמחשב שעליו נמצא המידע מתקלקל, נשמר התיעוד והמידע משוחזר על ידי מחשבים אחרים על פי התיעוד.
גוגל יצרו לעצמם שילוב של:
– מרכזי מידע
– מחשבים המיוצרים עבורם במיוחד
– מערכת הפעלה שהם פיתחו לעצמם
– מערכת ניהול קבצים פרטית – GFS
– מערכת ניהול מידע פרטית – BigTable
אם יש דבר אחד שחשוב לי שתזכרו מההרצאה הוא שהכח של גוגל הוא בתשתית.
שירותי גוגל העיקריים: (לכל שירותי גוגל)
– מידע ציבורי
– – דפי אינטרנט
– – חדשות
– – תמונות
– – קבוצות דיון (יכול להיות גם פרטי)
– – מאמרים אקדמים
– – מידע מסחרי
– – וידאו
– מידע שגוגל יוצרים
– – מפות
– – ספרים
– מידע אישי
– – אימייל
– – מסמכים
– – יומן
– – בלוגים
– – אתרים
– – מסרים מידיים
– מידע מנהלתי
– – סטטיסטיקות של אתרים
– – פרסומות!
לסיכום: ההכנסה מפרסומות היא המוטיבציה של גוגל להשקיע משאבים עצומים בתשתית, לתת לנו שירותים מצויינים בחינם ולשמור כל פיסת מידע שעוברת דרך גוגל.
התשתית של גוגל היא גם נקודת המוצא לבחינת הכח של גוגל ולשאלות שכח כזה מעלה.
יפה אמרת. רוב האנשים שמתייחסים לגוגל מתעלמים מהתשתית ומדברים רק על האלגוריתם (=פייג' רנק וכו') בעוד חלק נכבד מהכח הוא התשתית והאלגוריתמים לגיבוי ולאיחזור מקבילי.
ועוד נקודה נוספת לגבי התשתית – התשתית מבוססת על אלפי מחשבים *זולים מאוד* – כאלו שאם אחד קרס לא שווה להשקיע בו ולמצוא את התקלה אלא אפשר פשוט להחליף אותו באחר. השימוש באשכול של מחשבים זולים הוא עוד הברקה תפעולית ותקציבית שזוכה בד"כ להתעלמות (פעם זה היה סוד שמור).
יש כאן קצת היסחפות. ההתבססות על מספר גדול של מחשבים זולים לא הומצאה על ידי גוגל, ולמעשה נפוצה למדי בתחומים מסוימים בתעשיה. הייחוד במערך של גוגל הוא בתגובה המהירה שהמערך נותן, כשבדרך כלל המערכים בנויים לתפוקה (throughput) גבוהה ולא לתגובה מהירה.
מה שיפה בפוסט הזה, הוא הפסקאות הקצרות והמובנות. גוגל להדיוטות.
בהירות הכתיבה והתמצות מצאו חן בעיני.
אל גוגל התוודעתי בערך לפני 8 שנים, כשמישהו אמר לי שזה הדבר הגדול הבא ואני חייבת לבדוק.
הערת תוספת –
תחת מידע אישי, אני הייתי מכניסה גם את פיקסה שהוא כלי אישי להפצה ושמירה של תמונות.
שנה טובה.