מוקד תמנון - וידאו אנליטיקה ותחום הלמידה העמוקה (Deep Learning)

וידאו אנליטיקה ותחום הלמידה העמוקה (Deep Learning)

השימוש בוידאו אנליטיקה לצורכי ביטחון נמצא בחיתוליו, יחד עם זאת ידוע בפי כל כי פריצת הדרך של האנליטיקה לתחום הביטחון מהווה אבן דרך חשובה להמשך המיזוג שבין טכנולוגיה וביטחון. לצד כל זה ועקב העדר רגולציה בתחום האבטחה נוצר מאין ריק וחוסר ידע מקצועי אודות התחום, זהו מצב בעייתי ובו כל גורם בעל אינטרס לרווח כלכלי יכול לטעון כי הוא מוסמך למכירה/התקנה/הסמכה של וידיאו אנליטיקה מבלי שיש בידיו את היכולת או הידע לעסוק בכך. מטרתו של מאמר זה היא לספק ידע אודות תחום הלמידה העמוקה (Deep Learning) והנגזרות שלה לתחום הביטחון. המאמר מיועד ליועצים, סוקרים ושמאים, משתמשי קצה, אינטרגרטורים/מתקינים ומפיצים השוקלים את השימוש בטכנולוגיית ה-VCA עבור מטרות ביטחון, בטיחות, וניהול תנועה או ספירת אנשים ואובייקטים. מטרתו לספק הבנה בסיסית של הטכנולוגיה וכן מתן ייעוץ כללי מועיל להערכת הספקים את המוצרים שלהם. המאמר סוקר את ההתפתחות הטכנולוגית של ה- VCA והלמידה העמוקה, אתגרי הטכנולוגיה, אופן הפעולה של מערכת VCA והשיקולים בבחירת המצלמות לצורך מיצוי מיטבי של יכולות הוידיאו אנליטיקה.

מאת: עוז גרטנר

למידה עמוקה - רקע

למידה עמוקה ((Deep Learning היא תת-תחום של למידה ממוחשבת (machine learning) העוסקת באלגוריתמים בהשראת המבנה והתפקוד של המוח הנקראים רשתות עצביות מלאכותיות. מדובר בתחום מחקר השייך לעולם המחשבים ומטרתו לחקות באופן ממוחשב את פעולת המוח האנושי. התחום הוא מרכזי בעולם הבינה המלאכותית. (IA-artificial intelligence) מה שמייחד את מערכות הלמידה העמוקה הוא היכולת שלהן ללמוד ולהשתפר כל הזמן ממש כמו המוח האנושי.

השאלה שעמדה במרכז הריצה לעבר בינה מלאכותית התרכזה בשאלה: כיצד והאם ניתן לגרום למחשב ללמוד לבד? דהיינו, האם ניתן לתת למחשב משימה כלשהי ואת המידע הדרוש כדי לבצע אותה, והמחשב יילמד בכוחות עצמו איך לבצע אותה.

מטרת העל הייתה - בניית מחשב שיוכל ללמוד או לנסח בעצמו את הכללים לביצוע משימה על סמך דוגמאות שיציגו בפניו. מחשב שכזה יוכל לסייע לאנושות באינספור תחומים שעד כה היו חסומים בפני המחשב כמו: רפואה, חלל, תעבורה וגם ביטחון.

הנוירונים

כדי לנסות ולבנות מכונה שכזו, האינסטינקט הראשוני של החוקרים היה לפנות אל הביולוגיה ואל מדעי המוח. התקדמות בתחום הנוירולוגיה והפיזיולוגיה של המוח סיפקו להם השראה למכביר. לאורך המאה העשרים חשפו חוקרי המוח מנגנונים ביולוגיים רבים שעומדים בבסיס פעילותו של המוח. עם הזמן החלו המדענים להבין את חשיבות הנוירונים, תאי העצב שמהם עשוי המוח. הנוירונים הם תאים זעירים בעלי זרועות ארוכות שמתחברים זה לזה ומעבירים ביניהם מידע באמצעות זרמים חשמליים. לכל נוירון יש מספר כניסות, והוא מקבל 'פולסים' חשמליים מנוירונים אחרים. טריליוני החיבורים שבין מיליארדי תאי העצב והפולסים שהם מעבירים ביניהם מהווים, בדרך נסתרת כלשהי, את התשתית לכל הפעילות המוחית שלנו.

היסטוריה

בכדי להבין את שלבי ההתפתחות של הלמידה העמוקה אנחנו צריכים לחזור אחורה עד לשנת 1958. בשנה זו בוצע על ידי פסיכולוג אמריקאי בשם פרנק רוזנבלט, אשר הושפע מתפיסת המחקר אודות הנוירונים, ניסוי ברכיב חשמלי חדש שכונה פרספטרון שהיווה למעשה מעיין נוירון מלאכותי. רוזנבלט הקים במעבדתו מכשיר שהכיל כמה פרספטרונים שכאלה מחוברים זה לזה במעין רשת של 'נוירונים מלאכותיים', וחיבר את הכניסות שלהם לארבע מאות קולטני אור. הוא הציב מול קולטני האור אותיות, ספרות וצורות גיאומטריות – ובאמצעות כיוון עדין של המשקולות בכניסות הפרספטרונים הצליח רוזנבלט 'ללמד' אותם לזהות את הצורות ובתגובה להפיק במוצאם אותות שאומרים – 'זו האות A' או 'זה מרובע'.

ההצלחה הכתה גלים בעולם המחקר של הבינה המלאכותית ונדמה היה שהעולם נמצא על סיפה של מהפכה. אך כעבור 11 שנים בשנת 1969 יצאו המתמטיקאים מרווין מינסקי וסימור פארפט בספר ששיסע את השיטה של רוזנבלט ולמעשה ייתר אותה לחלוטין. הבעיה שזיהו מינסקי ופאפרט נעוצה בשכבות הפנימיות של העוגה (רשת הנוירונים). המערכת שהדגים רוזנבלט הייתה מורכבת משתי שכבות: שכבה שלתוכה נכנסו האותות בכניסה, ושכבה שהוציאה את תוצאת החישוב. כשיש לך שתי שכבות של פרספטרונים קל יחסית למצוא את הכיוון הנכון של המשקולות בחיבורים ביניהן כדי להגיע לתוצאה הרצויה. אבל אם יש לך שכבה 'פנימית' – דהיינו, פרספטרונים שנמצאים בין שכבת הכניסה ושכבת המוצא – הרבה יותר קשה לכוון את המשקולות שלהם.

לאחר המחקר הזה נכנס תחום הבינה המלאכותית לעידן שמכונה "החורף של הבינה המלאכותית".

רק ב-1986 חזר התחום לכותרות כאשר שני פסיכולוגים בשם דיוויד רומלהארט וג'יימס מק'לילנד ביצעו ניסוי באמצעות רשת נוירונים מלאכותיים בעלי מספר שכבות ולימדו את רשת הנוירונים להטות פעלים באנגלית. הניסוי הדגים איך יכולה רשת נוירונים ללמוד מאפיין של שפה אנושית אך ורק מתוך דוגמאות ולא בעזרת ניסוח פורמאלי של כללים. לא זו בלבד, אלא שרשת הנוירונים המלאכותית הפגינה תהליך לימוד כמו-אנושי להפליא שחיקה לא רק את ההצלחות האנושיות, אלא גם את אותו סוג של טעויות שעושים בני אדם. הוא הצית מחדש את העניין של החוקרים בפוטנציאל של רשתות נוירונים מלאכותיים.

קפיצת הדרך המשמעותית ביותר בתחום התרחשה בשנת 2009 על ידי שני סטודנטים בשם עבד אלרחמן מוחמד וג'ורג דהאל. השניים הבינו כי קל הרבה יותר לבחון את התנהגותה של רשת נוירונים מלאכותיים בסימולציה ממוחשבת מאשר לממש רשת שכזו כאוסף של רכיבים אלקטרוניים.

סימולציה כזו הייתה נעשית בדרך כלל באמצעות מעבד מחשב CPU אבל הבעיה היא שסימולציית רשת נוירונים מלאכותיים היא משימה קשה במיוחד למעבד הראשי. ברשת נוירונים מציאותית החישובים נעשים כולם במקביל: כל הנוירונים פועלים בו זמנית והמידע זורם בין השכבות כמו מים בתוך ספוג. ב-CPU החישובים מתבצעים באופן טורי – דהיינו, על המעבד לסיים פעולה אחת לפני שהוא מתחיל פעולה אחרת. התוצאה היא שחישוב שלוקח שבריר ברשת נוירונים מקבילית, עלול לקחת שניות ארוכות בסימולציה טורית של אותה הרשת. המהפכה התגלתה כאשר השניים החלו לעבוד עם מעבדים גרפיים מסוג GPU שפותחו במקור למשחקי מחשב, אבל הם בעלי מבנה מושלם לביצועי סימולציות של רשתות נוירונים מלאכותיים, הדורשות גם הן חישובים רבים פשוטים במקביל. התוצאות שהתקבלו כבר בזמן הניסוי הראשון היו מדהימות, טובות פי שבעים מהתוצאות עד אז. לתובנה הזו הייתה השפעה דרמטית על המחקר בתחום הבינה המלאכותית!

למידה עמוקה - הווה

ניתן לחלק את הפיתוח של הלמידה העמוקה ל-4 קטגוריות מרכזיות:

עיבוד תמונה, עיבוד קול, ניתוח טקסט, רובוטיקה.

העוסקים במלאכת הפיתוח משקיעים כיום סכומי כסף אדירים בהקמת מערכות מבוססות למידה עמוקה בתחומים אלה. דה מרקר מציין כי בדו"ח התחזיות השנתי (שנת 2018) שפרסמה פירמת הייעוץ דלויט, הוקדש פרק שלם לתחום הלמידה העמוקה. בדלויט ציינו כי 80 מתוך 100 חברות התוכנה הגדולות בעולם יאמצו בשנה הקרובה מערכות תוכנה חכמות המבוססות על בינה מלאכותית וטכנולוגיות קוגניטיביות - עלייה של 25% לעומת השנה שעברה. התחומים שיהוו את השימוש העיקרי עבור חברות אלה, לפי דלויט, הם עיבוד שפה טבעית וזיהוי דיבור. תחזית המכירות בתחום הבינה המלאכותית, לפי המחקר, יגיעו ל-43 מיליארד דולר עד 2024.

למידה עמוקה ו- VCA

טכנולוגית ה- (VCA (Video Content Analysis, הידועה גם כ- (IVA (Intelligent Video Analytics, זה השם שניתן לאוטומציה אנליטית של מצלמות CCTV במטרה לייצר אינפורמציה יעילה לגבי התוכן. ה-VCA הוא תת תחום של הלמידה העמוקה בכל הקשור לעיבוד התמונה.

ל-VCA יש מספר דרכי שימוש:

- גילוי חודרים.

- גילוי חפץ חשוד.

- ספירת אובייקטים.

- גילוי התנהגות חשודה.

- זיהוי פנים.

רכישת מערכת VCA היא שונה מרכישת כל טכנולוגיה אחרת. ה-VCA הפך מציאותי רק בחמש השנים האחרונות. לצערנו עדיין נכנסים לשוק כמות מוצרים המבוססים דווקא על ניתוח פיקסלים (VMD) הסובל מקומבינציה של מכירה מאסיבית לביצועים נמוכים מה שמחייב משנה זהירות בנושא מצד כל הגורמים המעורבים (יועצים, ממליצים, יבואנים, מפיצים ומוכרי הקצה).

ניתן להשתמש ב-VCA בהצלחה במגוון של יישומים:

- איתור פולש חיצוני ופנימי.

- ספירת אנשים.

- אירוע תנועה אוטומטי וזיהוי תקריות.

- שיפורים בטיחותיים עבור שטחים ציבוריים.

- גילוי עשן ואש.

- כשל מצלמה או חבלה.

תצורת מערכת VCA

התקנת אנליטיקה על גבי מערכת מצלמות קיימת היא אפשרית. יחד עם זאת, המצלמות צריכות לאפשר הגדרות מתקדמות הנדרשות (לעיתים קרובות על ידי יצרן ספציפי) בכדי להבטיח את המהימנות של ה-VCA.

פלטפורמות VCA מוצעות בדרך כלל בשני סוגים של חבילות:

- שרת מרכזי/דוחס או ליבה - ניתוח תמונה שנערך על ידי יחידות קצה המרוחקות מהמצלמה על בסיס מספר זרמי וידאו ומותקן בחדר תקשורת/ארון תקשורת.

- ניתוח מבוסס קצה - מערכת שבה העיבוד אינו מבוצע באופן מרכזי אחד אלא משולב בתוך המצלמה או קרוב אליה.

את הציוד הנ"ל ניתן לחבר למערכות שו"ב ייעודיות עבור התראות בזמן אמת, ולציוד הקלטה המספק אינפורמציה שלאחר האירוע.

איך עובדת אנליטיקה

מערכות אנליטיקה שונות עושות דברים בצורה שונה. יחד עם זאת ניתן לומר באופן כללי כי התמונות מורכבות מיחידות קטנות שמורכבות מתמונת רקע סטטית בצורה של יחידות סטטיות שאינן זזות ובנוסף יש חלקים קטנים בתמונה החיצונית שתזוזתם נקראת BLOBS (כתמים). מידע על כל אובייקט עובר תהליך של זיקוק על ידי התוכנה לכדי עמדה, גודל, כוון תנועה, זמן צפייה וכו'. ניתן לדמות את הדבר לסלט אשר מופרד על ידי תוכנה לסך כל חלקיו: עגבניות, מלפפון, חסה וכדומה.

המידע המדויק המכונה METADATA או מטה הנתונים, קשור קשר הדוק למוצר ה- VCA ויכולותיו האינדיוידואליות. במקרים מסוימים שיטות מקבילות של ניתוח נתונים פועלות בצורה טובה יותר מאחרות. זה תלוי מאד גם בסצנה של התמונה.

התהליך של לכידת ה-METADATA מופרד לעיתים קרובות מכללי ההתראה. יש בזה בכדי לומר שהאלגוריתם של עיבוד התמונה אינו מודע למה שהמשתמש מחפש. העצמאות הזו מאפשרת להקליט METADATA לטובת חיפוש אחר חוקים שונים בתאריכים שונים מסיבות מגוונות.

חוקי האזעקה מוכוונים על ידי הקונפיגורציה מה שמאפשר הגדרה אפקטיבית של התנאים שחייבים להיות מותאמים על ידי ה-METADATA בכדי לקבל התראה.

להלן כמה עקרונות חשובים:

- בכל מקרה, חייבות מערכות ה-VCA שיהיה רקע סטטי בצילום ולכן הן עובדות רק עם מצלמות מותאמות. יש מערכות שיודעות לבצע אנליטיקה על מצלמות PTZ אבל רק במקרים בהם הן ניצבות בפריים קבוע.

- רק אובייקטים שזזים בנקודה מסוימת יכולים להיות מסווגים מאוחר יותר ולייצר פעולה. אם אובייקט אינו זז אז הוא נחשב לחלק מתמונת הרקע הסטטית אפילו אם יש לו את היכולת לזוז - מכונית כדוגמא. חשוב לציין כי לא כל האובייקטים שזזים הם בעלי עניין. למעשה, רובם לא. עלים על עצים, צל והשתקפות נכנסים לתוך הקטגוריה החשובה הזאת.

- כל סצנה היא שונה ולכן כל מצלמה צריכה לעבור כיול (Calibration). כל מצלמה צריכה להבין את הגודל של בני האדם, רכבים וכו' על פי מיקומם בתמונה וביחס לזווית הראייה שלה. הכלל מתבצע ביחס לאופק התמונה והמרחק ממנו, וביחס לגובה ההתקנה. הכיול מקבע את הפרספקטיבה של המצלמה וטעות בביצוע הכיול עלולה להשפיע לרעה על הפן המבצעי שלה: אזעקות שווא מצד אחד או חוסר גילוי מוחלט מן הצד השני ועל כן חשיבותו.

אתגרי הטכנולוגיה

באופן מובהק, שני האתגרים הגדולים בפניהם עומדת מערכת VCA הם יכולת הגילוי (PD-Probability of Detection) כלומר, היכולת של המערכת לגלות את מה שהמשתמש מעוניין לגלות ו- תדירות אזעקות השווא שלה (FAR - False alarm Rate), כלומר כמות הפעמים שהמערכת מזהה נכון ומתריעה למרות שלמשתמש אין עניין בזיהוי ובהתרעה האלה. הכוונה היא להתרעה אשר אינה תואמת את האינטרס של המשתמש לקבל אינדיקציה כלשהי אבל נגרמת על ידי אירוע אמיתי ומערכת האנליטיקה עושה למעשה את עבודתה נאמנה.

ישנה חשיבות גדולה מאד לנושא אזעקות השווא וגם מצלמה אשר מספקת לכאורה מעט אזעקות שווא (אחת ביום) צריכה להילקח בחשבון כי למרות שנראה על פניו שאזעקה שווא אחת ביום היא סבירה, למוקד אשר מתפעל 400 מצלמות הדבר יראה אחרת.

היתרון והרווח של מערכת VCA

למתקין/אינטגרטור - יכולת לתת מענה למיגון שטח גדול ללא צורך במערכת אזעקה ובאמצעות מספר קטן של מצלמות. התוצאה: חסכון ניכר של זמן עבודה, הפחתה משמעותית של אזעקות שווא ומיגון כלל השטח כולל שטח הפנים.

לחדרי בקרת מצלמות CCTV - במקום צפייה ומעקב אחר מספר גדול של מצלמות ללא אינדיקציה, היכולת לנטר, לסנן ולקבל אך ורק את האירועים הרלוונטיים. כתוצאה מכך- חסכון ניכר בכוח אדם לא יעיל ותפעול אירועים בצורה איכותית.

למוקד אבטחה כנגד פריצה - היכולת לזהות ניסיון פריצה בצורה ברורה בטרם האירוע נכנס לשלבים המתקדמים שלו. המערכת מאפשרת למוקדים תחליף לשמירה פיסית הממוקדת בשומר יחיד המאייש עמדה בודדת בשטח גדול אשר פגיע ונמצא ללא פיקוח. התקנה נבונה של מערכת VCA איכותית מאפשרת למוקד לאבטח בעת ובעונה אחת את כל שטח האתר בצורה מוגנת וללא חשש מפגיעה חיצונית ובכך מסייעת לו להבין את האירוע בזמן, להתריע בפני הפורצים באמצעות כריזה מרחוק ולשלוח כוחות סיור ומשטרה לאתר תוך כדי שהוא שולט במצב מרחוק ומספק לכוחות מודיעין בזמן אמת. הפתרון הזה חוסך כסף רב ללקוח, מפחית את הסיכון לפריצה מאסיבית לאתר ומשפר משמעותית את רמת האבטחה במקום.

ללקוח קצה - חשיפת פעילות בלתי רצויה/ איסוף נתונים בשטח המאובטח. תוצאה - התייעלות כלכלית ותפעולית של בית העסק.

אופן הפעולה של VCA

ה-VCA עובד על בסיס מענה לשאלות הבאות:

- מי? - בן אדם (נמוך או גבוה), רכב (קטן או גדול), בעל חיים (חיית מחמד או חיית בר).

- מה? (הוא עושה)- נע מנקודה לנקודה, עצר לפרק בזמן מסוים, משוטט לפרק זמן מסוים, נכנס או עוזב נקודת עניין.

- איפה?- אזור, אזור כפול, גדר וירטואלית, גדר אמיתית, תיל ממעיד וכו'....

- מתי?- זמן, יום, שעה, דקה, שניות.

כתוצאה מכך, המערכת יודעת לקבל גם חוקים לוגיים מורכבים יותר. כגון - "אם גם בן אדם וגם רכב שהוא באזור מסוים נמצאים במקום מעל ל-5 דקות החל מהשעה 18:00 ועד השעה 07:00 אז תפעילי אזעקה".

בחירת מערכת VCA

ישנם מספר היבטים חשובים שצריך להתייחס אליהם לפני בחירת מערכת VCA:

- המערכות הן אינן "שגר ושכח". כל מצלמה היא סצנה ייחודית והמצלמות צריכות לעבור כיול והגדרות, לעבור אופטימיזציה בכדי להצליח בתפקידן.

- כל השיטות המוזכרות במאמר זה הן נגישות באמצעות מוצרים שונים אך לא בהכרח נגישות למוצר יחיד או תואם לאותו מוצר של מערכת מצלמות.

טבלת יתרונות וחסרונות:

benifits table

התאמת מצלמות

מספר נקודות חשובות:

- מצלמות PTZ אינן מומלצות לשימוש כמצלמות VCA.

- במקרה של התקנת שרת VCA על בסיס מצלמות קיימות חשוב שהלקוח ידע שספק ה-VCA יודע לתמוך במוצר המצלמות (פירמת המצלמות) הקיים במקום.

- מצלמות טרמיות יכולות לתת פתרונות אנליטיקה בין אם הן מצלמות קיימות או מצלמות VCA מובנות אנליטיקה.

שיקולים שיש לקחת בחשבון בשלב ניתוח השטח טרם התקנת VCA:

- מרחק איתור מבוקש.

- נקודת מבט על הסצנה.

- גובה ורוחב הסצנה.

- מצב תאורה.

- יכולת פורץ לחסום את המצלמה.

- לא מומלץ להתקין תאורה בצמוד למצלמת VCA.

- להימנע מכשל של צל ועלים - באמצעות מיקום נכון של המצלמה, אספקה נכונה של תאורה וגיזום קבוע של הצמחיה.

- אובייקטים שנעים דרך חלונות זכוכית- בחירה נכונה של מיקום המצלמה או ביצוע חסימה אקטיבית באמצעות תכנות ה-VCA.

- בעיות תאורה - שימוש במצלמות WDR (ניגודיות גבוה).

סיכום

אנו נמצאים בראשיתו של עידן הבינה המלאכותית ואין לדעת מה עוד צופן העתיד בכל האמור להתפתחות הטכנולוגיות. פיתוח הלמידה העמוקה וחדירתה לתחומי חיים רבים, ביניהם ניתוח התמונה וכניסתן לתחום הביטחון מהווה כיום שוק חדש, אנרגטי ההולך ומתפתח בקצב מוגבר בקרב כל העוסקים במלאכה. יחד עם זאת, ישנה חשיבות רבה למתן דגשים מקצועיים בכלל הפרמטרים, לימוד התחום על בוריו ושיווק מוצרים איכותיים ואמינים בלבד כמו אלו שהוזכרו במאמר זה על מנת שנוכל לייצב תחום אבטחה חדש שיהיה מקצועי ומהימן בעיני גופים מעצבי מדיניות כגון משרד הביטחון ומשרד הפנים, חברות הביטוח השונות, יועצי המיגון וקציני הביטחון.

מקורות

https://www.youtube.com/watch?v=eXy4a8Accu4

https://www.youtube.com/watch?v=z-aezi4W90o&t=1s

https://www.ranlevi.com/texts/deep_learning_text/

http://www.cs.technion.ac.il/magazine/16/homepage16.pdf

https://www.themarker.com/technation/1.2899899

https://www.bsia.co.uk/Portals/4/Publications/262-introduction-video-content-analysis-industry-guide-02.pdf