huji logo

THE WORD-FREQUENCY DATABASE FOR PRINTED HEBREW

 Dave Plaut Ram Frost   
Carnegie-Melon University The Hebrew University
 


בסיס הנתונים נאסף בשנת 2001 מתוך כ 914 מהדורות של עיתוני ישראל "מעריב" , "ידיעות אחרונות", ו"הארץ". לאחר סינון של ראשי תיבות, קיצורים, טעויות דפוס, ואותיות בודדות, נבנה בסיס הנתונים על 619,835,788 מופעים (tokens) של 554,270 צורות בסיס (types).

מבסיס זה חושבו המופעים האפשריים של מילים או קבצי אותיות, כשהקובץ מספק את שכיחות ההופעה האורטוגרפית למיליון מופעים.

לרשותך אפשרות עבודה במערכת תומכת עיברית או במערכת תומכת אנגלית. עליך להקיש את המילה או קובץ האותיות אותם ברצונך לחפש, ותקבל את כל המילים בעיברית אשר מכילות את התבנית האורטוגרפית שהקשת. לצד כל מילה יופיעו מיספר מופעיה למיליון מילים בממוצע.

לחיפוש - דפדפן תומך עברית

The corpus was assembled throughout the year 2001, and consists of text downloaded from 914 editions of the three major daily online Hebrew newspapers (Haaretz, Maariv, and Yediot Acharonot). After removing abbreviations, single characters, forms with counts that are less than 3 (mostly typos), and splitting hyphenated forms (vast majority were two words), the corpus totals 554,270 types and 619,835,788 tokens. The WORD-FREQUENCY DATABASE supplies the frequency of occurrence of any Hebrew letter cluster (mean occurrence per million). Two interface systems, one Hebrew-based, the other English-based, are offered. For Hebrew systems type the word on the keyboard. For English systems click on the appropriate letter sequence to retrieve its frequency of occurrence in all Hebrew words as well as its cumulative frequency.

Search DB - Non Hebrew enabled browsers


עדכון אחרון 3.2.2005
כל הזכויות שמורות