יש האומרים, כימדען נתונים הוא השלב הבא באבולוציה של ה-Business Analyst. אחרים טוענים, כי מדען הנתונים הוא האדם אשר יודע באיזה שאלות כמותיות ואיכותניות כדאי לחפור, ובעיקר באילו שאלות לא כדאי לחפור, וכל זאת בכדי להפיק ערך עסקי מקסימאלי לארגון. כולם מסכימים, כימדען הנתונים יודע תכנות, מתמטיקה, סטטיסטיקה, אנליטיקה ובניית מודלים.
אומרים עליו שהוא "המפתח להפקת ערך עסקי מ-Big Data". אומרים שמדובר במשרה הנחשקת של המאה ה-21. אומרים שבכדי להיות "מדען נתונים" אתה צריך להיות גיק מחשבים, גאון סטטיסטי ו"קלף חזק" בתחום העסקי בו אתה נמצא ובמילים אחרות – סוג של סופרמן ארגוני.
מאמר שהתפרסם לאחרונה ב"הרווארד", מסביר למה משרות של "מדען נתונים" הינן בדרישה עולה. מאמר אחר שהתפרסם ב-Wiredמציע בין היתר לשלוח את הילדים להיות "מדעני נתונים". אז מה זה בכלל מדען נתונים (Data Scientist)? ויותר מעניין, איך הופכים לאחד כזה?
יש האומרים, כימדען נתונים הוא השלב הבא באבולוציה של ה-Business Analyst. אחרים טוענים, כי מדען הנתונים הוא האדם אשר יודע באיזה שאלות כמותיות ואיכותניות כדאי לחפור, ובעיקר באילו שאלות לא כדאי לחפור, וכל זאת בכדי להפיק ערך עסקי מקסימאלי לארגון. כולם מסכימים, כימדען הנתונים יודע תכנות, מתמטיקה, סטטיסטיקה, אנליטיקה ובניית מודלים. בנוסף לכל זה, מדען הנתונים מבין לעומק את צרכיו העיסקיים של הארגון ומסוגל לזהות היכן ניתן להפיק ערך לארגון.
עם זאת, רבים שואלים "איך הופכים למדען נתונים"? בכדי לענות על שאלה זו באופן מלא, יש להבין את שלושת הנקודות הבאות:
(1) הבנת "מחזור החיים האנליטי" הארגוני.
(2) הכרת כל בעלי התפקידים אשר יש להם נגיעה ל"מחזור החיים האנליטי" הארגוני.
(3) זיהוי כל היכולות הנדרשות מ"מדען הנתונים" בארגון.
(1) "מחזור החיים האנליטי" הארגוני, הוא תהליך הכולל קלט (Input) של "שאלת המחקר העסקית" ופלט (Output) שהוא תשובה כמותית הולמת על "שאלת המחקר העסקית". מחזור החיים מורכב מהשלבים הבאים:
(א) זיהוי הבעיה העסקית
(ב) הכנת המידע
(ג) חקירת המידע
(ד) טרנספורמציה ובחירה של המידע
(ה) בניית מודלים
(ו) תיקוף המודלים
(ז) פריסת המודלים
(ח) הערכת והצגת תוצאות המודלים.
קיומו של מחזור חיים זה לגבי כל שאלה עסקית שאנו רוצים לענות עליה באופן כמותי, הינו הכרחי לצורך קבלת מענה אפקטיבי על אותה שאלה. כפי שנכתב במאמר הקודם, "ארגון מונחה מידע", הוא ארגון שמיישם את "מחזור החיים האנליטי" בכמה שיותר מקומות ברחבי הארגון, וככלל הראייה הארגונית שלו הינה "מונחת מידע".
תרשים 1– תפקידי המפתח השונים ב"מחזור החיים האנליטי" הארגוני
(2) כפי שניתן לראות בדיאגרמה לעיל, ישנם מספר בעלי עניין האוחזים ב"תפקידי מפתח" ב"מחזור החיים האנליטי" הארגוני.
בעלי עניין אלה הינם:
(א) האנליסט
(ב) מדען הנתונים
(ג) מנהל ה-IT \ ה-DBA
(ד) מנהל העסקים
כמובן שלתפקידים אלה יכולים להיות שמות שונים בארגונים שונים. כמו כן, ברור כי גבולות הגזרה משתנים בין ארגון לארגון וכך גם תחומי האחריות של בעלי התפקידים השונים.
חשוב לציין, כי ישנם ארגונים בהם תפקידו של האנליסט והסטטיסטיקאי משולבים יחדיו. על אף כל ההסתייגויות דלעיל, נתאר בקצרה את תפקידם של הארבעה:
(א) תפקידו של האנליסט (משתנה מארגון לארגון!), הינו להכין דו"חות להנהלה ולמחלקות השונות, לנתח מדדי מפתח לצרכי הערכת יכולות, להפיק תובנות עסקיות שונות למקבלי ההחלטות, להעריך את איכותם של פרויקטים שונים (לדוגמא, קמפיין שיווקי מסוים) ולסייע בפיתוח תשתיות המידע הארגוניות.
(ב) תפקידו של מדען הנתונים \ סטטיסטיקאי הינו לבצע מחקרי מידע מעמיקים בכדי להפיק תובנות עסקיות לארגון, לנקות, לטייב ולסדר את המידע המשמש למחקרים השונים, להפעיל אלגוריתמים שונים של מידול, כריית מידע ו-Machine Learningעל המידע, ולסייע בבניית תהליכי הכנת המידע ואופטימיזציה של האלגוריתמים השונים.
(ג) מנהל ה- IT \ ה-DBA אחראי על תפעול כלל תהליכי האינטגרציה והטיוב של המידע, אחראי על תשתיות המחשוב שמחזיקות את המידע, אחראי על תהליכי העבודה ונהלי העבודה הקשורים לעיסוק במידע ואחראי על פיתוח יכולות חדשות במסגרת "מחזור החיים האנליטי". (ד) מנהל העסקים אחראי על הגדרת הצרכים העסקיים, הגדרת שאלות המחקר העסקיות והתובנות שנדרש להסיק מהמידע הכמותי, על הפניית המשאבים לחיזוק "מחזור החיים האנליטי" ועוד.
(3) כאמור דלעיל, מאמר זה עוסק בתפקיד "מדען הנתונים".
תפקיד זה דורש להכיר כלים מסוימים ולהיות בעל יכולות מסוימות. היכולות הנדרשות יאפשרו לו להשיג, לעבד ולטייב את המידע. עליו לדעת כיצד חוקרים את המידע ומפיקים ממנו תובנות. הוא צריך לדעת כיצד מבצעים אנליטיקה על המידע.
ולבסוף, הוא גם צריך שתהיה לו ההבנה לגבי אופני הצגת המידע הטובים ביותר. התרשים הבא, מציג באופן מפורט, כיצד "מדען נתונים" מומחה, אשר בקיא בטכנולוגיות SAS השונות, יכול להשתמש בכל כלי SAS שהוא מכיר בתהליך חקר המידע. למען הסר הספק, ישנם כלי נוספים בשוק (ביניהם כלי קוד פתוח), ש"מדען הנתונים" יכול להשתמש בהם בכדי לבצע את הפרוצדורות השונות, אולם מפאת היכרותו של הכותב עם כלי SAS, הם מובאים כאן כדוגמא לקורא.
תרשים 2- היכולות הנדרשות ל"מדען נתונים" אשר משתמש בכלי SASהשונים
מהתרשים דלעיל ניתן לראות כי "מדען הנתונים" מכיר כלים והינו בעל יכולות רבות. לדוגמא, ב"שלב 2 – חקירת המידע", צריך "מדען הנתונים" להיות בעל הבנה בסטטיסטיקה תיאורית, יצירת חיבור ועיבוד של בסיסי נתונים ויצירת ויזואליזציה של נתונים. על היכולות האלה, יכול "מדען הנתונים" לענות באמצעות הכלים השונים המוצגים בתרשים.
מהתרשים ניתן לראות, כי על "מדען הנתונים" להיות בעל 16 יכולות שונות כמפורט:
(1) "שלב 1 – השגת המידע" – יכולות של אינטגרציה של המידע ממספר מקורות, יכולות של הוצאת מידע מהאינטרנט, יכולות של עבודה עם כמויות גדולות של מידע (Big Data), יכולות של עיבוד מידע לא מובנה (Unstructured) וחצי מובנה ויכולות של ניקוי המידע.
(2) "שלב 2 – חקירת המידע" – יכולות של סטטיסטיקה תיאורית, של יצירת חיבורים בין בסיסי נתונים ויכולות של יצירת ויזואליזציה של נתונים.
(3) "שלב 3 – ניתוח המידע (אנליטיקה)" – יכולות של חיזוי, כריית מידע, אופטימיזציה, עיבוד מידע טקסטואלי ואנליטיקה של נתונים גדולים.
(4) "שלב 4 – הצגת המידע" – יכולות של הצגת תוצרי מידע, יכולות של מתן שירותי Webויכולות ויזואליזציה שונות.
למעשה, בעזרת 16 היכולות הנ"ל, יש למדען הנתונים את הפוטנציאל המירבי להוציא מקסימום ערך עסקי מהמידע שזמין לו. חשוב מאוד לציין, כי יכולות אלה הינן תנאי הכרחי, אך לא מספיק בכדי להפיק ערך עסקי לארגון, וכי קיימות עוד מספר יכולות שלא מופיעות כאן (לדוגמא, הבנה עסקית של "מדען הנתונים"), אשר הכרחיות על מנת להפוך ל "מדען נתונים" אפקטיבי.
לסיכום, ניתן לומר, כי "מדען נתונים" הינו תפקיד מולטי-דיסציפלינארי, שיכול להביא ערך רב לארגון. עם זאת, אל לארגון להניח כי "מדען הנתונים" הוא אכן סופרמן ויכול לשאת את כל כובד המשקל האנליטי לו זקוק הארגון על גבו. יש לו עוד מספר רב של שותפים (מנהל העסקים, האנליסט ומנהל ה-IT), שעבודתם ההרמונית יחד תאפשר לתת מענה על הצרכים האנליטיים של הארגון.
1. נתי | 7 פברואר 2016
התלבטות - מה כדאי ללמוד
אני מתלבט בין מדעי המחשב/הנדסת מערכות מידע בטכניון לבין מסלול לתואר שני (5 שנים) בבאר שבע בהנדסת מערכות מידע (בהתמחות בכריית נתונים ומידע).
אולי בכלל עדיך מדעי המחשב תל אביב או העברית?
מה הייתם ממליצים? תודה!
הוסף תגובה