כפי שכולנו יודעים, קיימת חשיבות בלתי רגילה למוסד מבקר המדינה, ולדו"חות מבקר המדינה במדינה דמוקרטית. בישראל, דו"חות אלו ידועים בהיותם מסמכים עמוקים ומלאים. עם זאת, מדובר בדו"חות אשר עמוסים בפרטים, נתונים, ממצאים ומסקנות, מה שהופך אותם לבלתי-קריאים עבור מרבית בני האנוש.
כפי שכולנו יודעים, קיימת חשיבות בלתי רגילה למוסד מבקר המדינה, ולדו"חות מבקר המדינה במדינה דמוקרטית. בישראל, דו"חות אלו ידועים בהיותם מסמכים עמוקים ומלאים. עם זאת, מדובר בדו"חות אשר עמוסים בפרטים, נתונים, ממצאים ומסקנות, מה שהופך אותם לבלתי-קריאים עבור מרבית בני האנוש. תוסיפו לזה את העובדה שמבקר המדינה מוציא מדי שנה מגוון רחב של דו"חות, ותקבלו תובנה ברורה: אף אחד לא עושה ביקורת על דו"חות ביקורת מבקר המדינה.
בכדי לנסות להבין מגמות בכתיבה של מבקר המדינה, החלטנו לבצע ניסוי קצר, בו לקחנו כקלט מספר רב של דו"חות ופרקים מדו"חות, וניסינו לזהות דפוסים אשר חוזרים על עצמם. מסתבר, שכאשר מנתחים את דו"חות מבקר המדינה באמצעות כלים לניתוח טקסטים (Contextual Analysis) וכלים סטטיסטיים, מקבלים תובנות מעניינות.
התהליך שעשינו היה די פשוט:
(1) אספנו אקראית 90 דו"חות ופרקים מדו"חות של מבקר המדינה.
(2) הפעלנו על הדו"חות הללו אלגוריתמים של Machine Learning.
(3) לאחר מכן ניסינו לזהות בתוך המסמכים אזכורים של קונספטים שונים כדוגמת: כסף ותקציבים, תכנון, תשתיות, קרקעות, בעלי תפקידים, מקומות, ארגונים וכו'.
(4) את כל התוצרים הללו הכנסנו לתוך תוכנת ויזואליזציה שהציפה לנו את התובנות השונות.
חשוב לציין, לא מדובר במחקר אמפירי ומובהק סטטיסטית. כמו כן, התובנות שאנו מציגים בהמשך הינן תובנות ממוצעות ויחסיות למסמך. לא נלקחו נתונים אבסולוטיים (לדוגמא, לא נספרה כמות הפעמים האבסולוטית בה מוזכר הקונספט תקציב במסמך, אלא נספרה הכמות הממוצעת של הקונספט תקציב פר מסמך). על אף כל ההסתייגויות דלעיל, מדובר בניתוח שמספיק מעניין להציג אותו גם אם הוא לא מובהק סטטיסטית.
להלן רשימה חלקית של התובנות שנצפו במהלך הניסוי. חשוב מאוד לציין, שהתובנות תלויות מאוד במסמכים שנלקחו למדגם, ועשויות להשתנות כפונקציה של השינוי בכמות ובסוג המסמכים:
תובנה מספר 1 – מניתוח 90 המסמכים עולה, כיכאשר מבקר המדינה כותב הרבה על כסף ותקציבים, הוא בסבירות גבוהה יותר ידבר על תשתיות או בריאות, מאשר על ביטחון, אנרגיה או בניה.
תובנה מספר 2 –כאשר מבקר המדינה כותב על וועדות, הוא בד"כ יכתוב את זה בהקשרים של בניה, דיור, קרקעות, תכנון וארגונים. הוא יכתוב את זה הרבה פחות בהקשרים של ביטחון, בריאות, אנרגיה וחינוך.
תובנה מספר 3 – בממוצע, בדו"חות על משרד הבריאות מדברים יותר על כסף, אנשים וארגונים, מאשר בדו"חות דומים על משרד הביטחון, צה"ל והתעשיות הביטחוניות.
תרשים 1 - כמה פעמים מדברים על כסף, ארגונים ואנשים בממוצע, בכל אחד מסוגי המסמכים (דו"חות על משרד הביטחון, דו"חות על משרדי הממשלה ודו"חות על משרד הבראיות)
תובנה 4 – בממוצע למסמך, הקונספט תקציב מופיע הכי הרבה פעמים בהקשרים הבאים: תקציב הביטחון, תקציבי הפיתוח, חוץ-תקציביות, תקציבי מחקר, מסגרת תקציבית, בקרה תקציבית ואגף התקציבים.
תובנה 5 – Topic (נושא) הוא אוסף של מילים (תמהיל מילים) שחוזר מספר פעמים רב במספר מסמכים שונים. שלושת הנושאים שזוהו על ידי אלגוריתמי ה-Machine Learning כמובהקים ביותר מכל המסמכים הם:
(1) נושא 1 - ביקורת על משרד הביטחון ו\או צה"ל
(2) נושא 2 - ביקורת על בעלי דרגות
(3) נושא 3 - ביקורת בנושאי תכנון, בנייה ודיור.
תובנה 6 – בממוצע למסמך, היו מספר מושגים שהופיעו הרבה יותר פעמים ממושגים אחרים. להלן רשימת 20 המושגים שמופיעים הכי הרבה פעמים בממוצע למסמך (כלומר, מספר הפעמים שמופיע המושג בכל המסמכים חלקי מספר המסמכים):
לסיכומו של דבר, קיימים הרבה נתונים נסתרים ומגמות מעניינות בדו"חות מבקר המדינה. לדעת כותב מאמר זה, מומלץ לבצע לעיתים ביקורת על דו"חות המבקר, בכדי לוודא שלא מתקיימת מגמתיות בדבריו (בין אם ביודעין או לא). חשוב מאוד לציין, כי בחירת המסמכים והדו"חות הנחקרים עשויה להשפיע משמעותית על התוצאות שהוצגו.