שכיחות האותיות ||| כמה רישים יש בכנסת? כמה ממים יש בהארץ?

מה אכפתהרבה אותיות ומילים כבר נכתבו כאן בין הקווים והנקודות. אבל מסתבר שעוד לא הגעתי לדיון המעניין בנושא שכיחוּת האותיות בשפה העברית. כלומר מה הכמות של כל אות בטקסטים הנכתבים בימינו, או בקיצור כמה רישים וממים (ושאר האותיות העבריות) יש בטקסט נתון. מסתבר שהנושא הוא לא כזה שוּלי וזוּטולוגי כפי שהוא נשמע. על פי ויקיפדיה ״המחקר בנושא זה שימושי לפענוח צפנים המבוססים על החלפת אותיות, מסייע למחקר בלשני וחיוני בבלשנות חישובית ובעיבוד שפה טבעית״.

היום הנושא של שכיחוּת האותיות מתקשר באופן טבעי לכל מיני נושאים מורכבים של יישומי בינה מלאכותית ועיבוד שפה טבעית, אבל אצלי הוא מעורר זיכרונות רחוקים מימי הדפוס של פעם. הזיכרון הראשון הוא מגירות אותיות הבלט בהן היו מסודרות האותיות לפי סדר הא״ב: ה-א׳ ואחריה ה-ב׳ וה-ג׳ ובסוף האותיות הסופיות. לכל אות הייתה כמות שונה של יחידות עשויות עופרת יצוקה. ולפעמים היה קורה שלא נשארו מספיק אותיות צ׳ כי בימים ההם עוד לא ידעו מהי ״בלשנות חישובית״ (תמונת מגירת האותיות המופיעה למטה לקוחה מהפייסבוק של "הסדריה", מקום שמשמר ומציג את עולם הדפוס הישן).
דבר דומה קרה בדפי הלטרסט מתקופה קצת יותר מאוחרת. היצרנים העריכו – אולי ללא בסיס מדעי מספיק – לכמה ממים ושינים יידרש הגרפיקאי, ולפעמים קרה שנותרת עם דף מלא יוּדים ומחסור חמור באות ה׳ והיית צריך לאלתר ולהשתמש באות ר׳ עם תוספות מ-ק' קצוץ, או להפוך ק׳ ל-ס׳ באמצעות אילתורים וחיתוכים. ימים לא פשוטים.

מגירת אותיות  אורון לטרסט

את הערך המלא בנושא שכיחוּת האותיות תוכלו  לקרוא בויקיפדיה, וכאן רק אנסה להדגים את הכיוונים הגרפיים שמעניינים אותי. ראשית מוצגות כאן הטבלאות המקוריות של ויקיפדיה. המעקב אחרי שכיחוּת האותיות מתחלק כנהוג אצלנו לשלושה מחנות: מצד אחד – טבלת השכיחוּת בנאומים בכנסת (נכון ל-2004), מצד שני – סיכום האותיות בעיתון הארץ (על פי מאגר כתבות מהשנים 1990-1991). ולהשוואה מוצגים גם הנתונים מהטקסט בויקיפדיה עצמה (מעודכן למאי 2016).
למטה מוצגות טבלאות דירוג האותיות. הוספתי כאן כמה סימנים גרפיים: צהוב – לאותיות שמיקומן שווה בכל המדגמים, ואדום, כחול וירוק עבור אותיות עם ההבדלים הגדולים ביותר. אולי תנסו אתם למצוא הסבר למה ה-א׳ ממוקמת גבוה כל-כך בהארץ וה-מ׳ נמוכה יחסית, ולמה אותיות י׳,ו׳,ה׳ נמצאות בראש הדירוג בכל הרשימות ואילו אותיות ך׳,ף׳,ץ׳ סוגרות את המצעד.

שכיחות אותיות בעברית

כשמציגים את טבלאות השכיחוּת בלוחות של אופטומטריסטים מתקבלת תוצאה הממחישה את הפערים בשכיחוּת האותיות בצורה יותר ויזואלית. גם צירופי האותיות המתקבלים לפי סדר הדירוג יש בהם כדי ללמד על המשותף לשלושת מאגרי הטקסט וגם על השוני ביניהן. הצירוף ״תמבא״ (הכנסת) ו״תבמא״ (ויקיפדיה) שונה מאוד מהצירוף ״תרבש״ בהארץ. מצד שני הצירוף ״דעם״ משותף להארץ ו-ויקיפדיה והסיומת עם שלוש האותיות הסופיות משותפת לכל המגזרים. מחקרים בלשניים-סוציולוגיים ודאי ימצאו את הסיבה לצירופים השונים, אבל מההדגמה למטה ברור שלכולנו יש התחלה זהה (יוה) וסיום דומה (ךףץ) ורק נותר לנו לריב על כל מה שבאמצע.

שכיחות אותיות_כנסתשכיחות אותיות_הארץשכיחות אותיות_ויקיפדיה

שכיחות אותיות_פייסבוקלוח נוסף מעודכן יותר היה חסר בין כל הטבלאות של ויקיפדיה. אני מתכוון למחקר של האותיות ברשת השימושית ביותר בימינו – פייסבוק. עוד לא נערך מחקר בנושא, לכן ההדמייה שאציג כאן היא משוערת בלבד, ותקנו אותי אם אני טועה. "חחח" לכולכם ו"ךףץ" שלום!

 

____
אגב, בפוסט זה יש 476 מילים (מתוכן 378 ״ייחודיות״), 2442 תווים (2932 כולל רווחים!). 266 אותיות י׳, 121 אותיות א׳ ו-8 ץ׳. מי היה מאמין?

_______
לנוחיות הקוראים: ניתן למצוא את רשימת כל הפוסטים הקודמים בתפריטים למעלה, בדפי הארכיון, הכוללים כל אחד 200 רשומות.
 קישור לדף הפייסבוק של הבלוג – המעוניינים יכולים להיכנס כאן.

פוסט זה פורסם בקטגוריה גרפים, טיפוגרפיה, עם התגים , , , . אפשר להגיע ישירות לפוסט זה עם קישור ישיר.

4 תגובות על שכיחות האותיות ||| כמה רישים יש בכנסת? כמה ממים יש בהארץ?

  1. נ׳ הגיב:

    כמממממה טוב שחזרת לכתוב

  2. סמדר הגיב:

    חחח, אתה מה זה לא טועה… אבל גם האות ח' אינה מוגנת מסכנת כיליון. בקרוב היא תהיה נדירה ממש כמו ךףץ, כשנישאר עם אמוג'יז בלבד.
    צחקתי ממש בקטע על הלטרסט. זר לא יבין זאת, את הימים הלא פשוטים ההירואיים ההם. וזה עוד בלי שהזכרת את העובדה המצערת ש-99% מהאותיות שכן נשארו על הדף (בגלל בלשנות חישובית שגויה של היצרן) – בכלל לא הצליחו לרדת לנייר, בשל חוק ההתיישנות שחל עליהן.
    מזל שהזיכרונות שלך לא מתיישנים.

    • igalz הגיב:

      זר (או צעיר) באמת לא יבין את הגבורה של ימי הלטרסט. איך עמדנו מעטים מול גיליונות רבים ותכולים. ויכולנו להם. בקושי.

כתיבת תגובה

אתר זו עושה שימוש ב-Akismet כדי לסנן תגובות זבל. פרטים נוספים אודות איך המידע מהתגובה שלך יעובד.