Tonight we're rewatching The Good, The Bad and The Ugly in honor of Ennio Morricone, the composer of its iconic score, who died today. Deediedeedledee nwah nwah nwaaaaahhh
And I've just had a thought about the title that turns on the quite different interpretations of the-Adj constructions in English and Italian, which I mainly know about from this paper by Hagit Borer and Isabelle Roy .
In English, "the Adj" generally only allows a generic reading, and often refers to the class of humans characterized by the adjective, as in the poor, the rich, etc. In Italian (and French, Spanish, etc.) this isn't the case; the construction, although based on the same syntax, can also receive a particular referential singular interpretation. Borer and Roy ascribe this to the presence of identifying number and gender features on the determiner in those languages.
In the original Italian title of the movie, Il buono, il brutto, il cattivo ('The good.masc.sg, The ugly.masc.sg, the bad.masc.sg.) these 'The-Adj' sequences are referential; they refer to the three main characters Blondie, Angel Eyes and Tuco. The Italian title is more or less equivalent to English "The good guy, the bad guy and the ugly guy".
In English, though, the grammatical structure of the title can only get the generic reading. The use of these forms in the film to refer to three protagonists, then, bestows an archetypal quality on those characters; they're metonymically interpreted as instantiating the whole classes of good people, bad people and ugly people respectively. And the kind of mythic force it imparts somehow fits so perfectly with the grandiose yet tongue-in-cheek quality of the whole film, to me it's really a fundamental part of its impact, humor and appeal.
My question is, do you think Leone and the scriptwriters understood this property of the English translation? Or did they read their English calque of the Italian grammatical structure just as they would have read the Italian? The Italian title, in fact, with its masculine singular marking, cannot be understood in the same way as the English is. To represent the English interpretation in Italian, apparently, the plural would be needed: i belli, i brutti, i cattivi. My guess is that neither the writers nor the director realized that the title read so differently in English.
According to Wikipedia, the Italian title was a last-minute suggestion of screenwriter Luciano Vincenzoni, and the title for the English version was determined by the studio after some alternatives were bandied about and rejected. I wonder if someone at United Artists recognized the different reading, and the epic quality it imparted, when they were discussing the choice!
Thanks to Roberta d'Alessandro and other Facebook linguists for Italian judgments and discussion!
In Jabotinsky’s Пятеро (The Five), our narrator has gone to an all-night shindig where students of various nationalities congregate, get drunk, and make speeches; he notices that Marko, the older brother in the family he’s been describing, has been hanging out with the group from the Caucasus and acting as though he were completely at home with them, waving his hands, shouting, and supporting the orators, even though they appeared to be talking in their native languages. Finally the gathering breaks up:
Marko accompanied me home; like me, he hadn’t done much drinking, but he was drunk on spiritual wine, specifically that of Kakheti. He hummed the tune and words of “Mraval zhamier” [მრავალჟამიერი, ‘Many Years’]; for two blocks, never having seen the Caucasus, he painted a vivid picture of the Georgian Military Road to Tiflis; he tried to prove something about Queen Tamar and the poet Rustaveli… Lermontov wrote “The timid Georgians ran away” — what a slander on that knightly tribe! Marko already knew all about the Georgian movement, he knew the differences between Kartvelian, Imeretian, Svan, and Laz, he had even mastered the language — he lured a stray dog with “modi ak [მოდი აქ, ‘come here’]” and then drove it away with “tsadi! [წადი, ‘go away’]” (I don’t vouch for the accuracy, but that’s how I remembered it); and he finished by sighing from the depths of his soul:
“It’s so stupid: why can’t a person just up and say ‘I’m a Georgian’?”
Марко проводил меня домой; он тоже мало выпил, но был пьян
от вина духовного, и именно кахетинского. Он мурлыкал напев и слова «мравал джамиэр»; два квартала подряд, никогда не видавши Кавказа, живописал Военно-грузинскую дорогу и Тифлис; что-то доказывал про царицу Тамару и поэта Руставели… Лермонтов пишет: «бежали робкие грузины» — что за клевета на рыцарственное племя! Марко все уже знал о грузинском движении, знал уже разницу между понятиями картвелы, имеретины, сванеты, лазы, даже и языком уже овладел — бездомную собачонку на углу поманил: «моди ак», потом отогнал прочь: «цади!» (за точность не ручаюсь, так запомнилось); и закончил вздохом из самой глубины души:
— Глупо это: почему нельзя человеку взять, да объявить себя грузином?
(In Mraval zhamier, ჟამიzhami is an archaic Georgian word for ‘time,’ borrowed from Armenian žam, which itself borrowed the word from Iranian, which borrowed it from Akkadian zimān, from Proto-Semitic *zaman-.) This is both touching and funny, and it reminded me of another example of immersion in a foreign culture, from Aksyonov’s 1968 novella Затоваренная бочкотара (translated as Surplused Barrelware), in which travelers on a truck get to know each other. One of them is the “refined intellectual” Vadim Drozhzhinin; he has achieved a modest success in life, but what he prides himself on is being a unique expert in the small Latin American country of Haligalia (Халигалия, based on the Russian form of the dance name hully gully):
He knew all the country’s dialects (there were twenty-eight), all its folklore, its history, its economy, all the streets and alleys of its capital, Polis, as well as three other cities, all the shops and stores on those streets, the names of their owners and the members of their families, and the names and dispositions of the domestic animals, even though he had never been in the country. The junta that ran Haligalia wouldn’t give Vadim an entry visa, but the simple Haligalians all knew and loved him, he corresponded with at least half of them, gave advice on their family lives, and settled all sorts of disputes.
Он знал все диалекты этой страны, а их было двадцать восемь, весь фольклор, всю историю, всю экономику, все улицы и закоулки столицы этой страны города Полис и трех остальных городов, все магазины и лавки на этих улицах, имена их хозяев и членов их семей, клички и нрав домашних животных, хотя никогда в этой стране не был. Хунта, правившая в Халигални, не давала Вадиму Афанасьевичу въездной визы, но простые халигалийцы все его знали и любили, по меньшей мере с половиной из них он был в переписке, давал советы по части семейной жизни, урегулировал всякого рода противоречия.
The passage goes on for much longer, and Haligalia becomes a memorable theme of the novella (which is very much worth reading). I’m sure there are other literary examples of this kind of immersion, but I can’t think of any at the moment.
I knew that epidemic was from Greek ἐπιδήμιος (ἐπί- + δῆμος ‘people’), but I wasn’t aware of the details of its development in Greek, well laid out by Marcel Detienne in Dionysos at Large (tr. Arthur Goldhammer), via Michael Gilleland at Laudator Temporis Acti:
In Greek, however, the word “epidemic” belonged to the vocabulary of theophany. Emile Littré, the nineteenth-century French lexicographer, was aware of this when he introduced the word into the French language.⁶ It was a technical term used in talking about the gods. “Epidemics” were sacrifices offered to the divine powers when they came to visit a region or a temple or attended a feast or were present at a sacrifice.⁷ Symmetrically, “apodemics” were sacrifices offered upon the gods’ departure. For there was a traffic of the gods, a traffic that became particularly heavy during Theoxenia, occasions when a city, individual, or god offered hospitality to some or all of the deities.⁸ The gods came to the place and lived there for a time; they were actually present,⁹ or “epidemized.” Being resident but not sedentary, they resembled the Hippocratic physicians, itinerant practitioners who composed what were called Epidemics: sheafs of notes, brief protocols or, rather, minutes relating the course of the disease—a careful record of the symptoms, the crisis, the care administered, and the patient’s reactions.¹⁰ The technique was that of a reporter, practiced by Ion of Chios, an intellectual of the fifth century B.C., in his work entitled Epidemics: a series of sketches, portraits, interviews with artists like Sophocles and politicians like Pericles and Kimon of Athens.¹¹
The footnotes are at the link, along with relevant entries from Liddell-Scott-Jones and a correction from Robert Renehan’s Greek Lexicographical Notes. (The relevant OED entries haven’t been updated since 1891.)
I haven't seen an English version, or a transcription/translation of the French one, but the alternative textual versions that are circulating may be helpful:
Previously, we demonstrated a strong correlation between the amplitude of human speech and the emission rate of micron-scale expiratory aerosol particles, which are believed to play a role in respiratory disease transmission. To further those findings, here we systematically investigate the effect of different 'phones' (the basic sound units of speech) on the emission of particles from the human respiratory tract during speech. We measured the respiratory particle emission rates of 56 healthy human volunteers voicing specific phones, both in isolation and in the context of a standard spoken text. We found that certain phones are associated with significantly higher particle production; for example, the vowel /i/ ("need," "sea") produces more particles than /ɑ/ ("saw," "hot") or /u/ ("blue," "mood"), while disyllabic words including voiced plosive consonants (e.g., /d/, /b/, /g/) yield more particles than words with voiceless fricatives (e.g., /s/, /h/, /f/). These trends for discrete phones and words were corroborated by the time-resolved particle emission rates as volunteers read aloud from a standard text passage that incorporates a broad range of the phones present in spoken English. Our measurements showed that particle emission rates were positively correlated with the vowel content of a phrase; conversely, particle emission decreased during phrases with a high fraction of voiceless fricatives. Our particle emission data is broadly consistent with prior measurements of the egressive airflow rate associated with the vocalization of various phones that differ in voicing and articulation. These results suggest that airborne transmission of respiratory pathogens via speech aerosol particles could be modulated by specific phonetic characteristics of the language spoken by a given human population, along with other, more frequently considered epidemiological variables.
Although the publication date was 1/27/2020, when everyone but the White House knew that a respiratory-virus pandemic was coming, the article's date of submission was July 17, 2019, three or four months before the first cases in China.
not scope though, more bracketing or attachment imo
A recent NYT headline seems like the premise for a particularly dark dystopian movie: Emily Oster, "Only Children Are Not Doomed", NYT 4/27/2020. A sort of cross between 12 Monkeys and Lord of the Flies? No:
The coronavirus pandemic has created a lot of confusion, but it also may bring into focus a question many parents (or expectant parents) ask: What is the right number of kids for my family? Quarantine or not, having siblings shapes one's experiences and development. On balance, is this for good or for ill? […]
Overall, when it comes to what economists call success, having siblings simply does not seem to matter.
But what about the awkward only child? The data has largely rejected that idea for decades. One 1987 review article, which summaries 140 studies, found some evidence of more "academic motivation" among only children, but no differences on personality traits like extroversion. In other words, although you might expect a built-in playmate makes a kid more social, the data doesn't bear that out.
A.Z. Foreman (to quote his blog profile) “is a translator and poet who has been obsessed with languages and literature since childhood”; you should check out his translation blog, with lots of poems accompanied by his translations (and sometimes audio files of him reading the original) in languages from Arabic to Yiddish. But right now I want to feature a post from his other blog, The bLogicarian (“essays, translations of prose, original poems and so forth”) — Six Degrees of Deuteronomy: the phonological journey of Biblical Hebrew. He takes Deuteronomy 32:1-6 and gives versions of it in six stages of Hebrew: Pre-Exilic, Roman Empire, Late Amoraic, Late Ge’onic, Babylonian, and Medieval Andalusi (ancestral to “every modern Hebrew liturgical dialect in current use outside of Yemen”). For each he gives a phonetic transcription and an audio file, along with a paragraph of explanation. As an example, for Popular Reading of Jews in the Roman Empire he writes:
Fast forward through the Exile and the Second Temple period to the 3rd century. Hebrew has ceased being anybody’s native language, though pretty recently. There are many people who can remember remember hearing Hebrew spoken by their grandparents. What you have here is the pronunciation recorded in Origen’s Hexapla except with even more reduction. The lingering nasal-weakening of /m/ after long vowels seemed like a proper touch, and supported by the transcriptions. Like a residual trace of Hebrew’s last stage as a native vernacular. Aramaic influence is pervasive, from phonology to morphology. Begedkefath spirantization has long ago kicked in. There is heavy vowel reduction, and the native speakers of Palestinian Aramaic using this pronunciation use a dorsal /r/. I went out on a limb to posit that the tetragrammaton in this type of reading gets realized with the Aramaicism /jahoː(h)/. Note that spirantization is a completely synchronic rule. The resyllabification caused by proclitic ו in ופתלתל ends up despirantizing the first ת.
I absolutely love this kind of thing, and listened to all the stages.
Ankhtuya reports on the latest linguistic developments in Mongolia:
Mongolia has announced plans to restore the use of its traditional alphabet by 2025, replacing the Cyrillic script adopted under the Soviet period as it moves away from Russian influence. It will take transitional measures to prepare for the “comprehensive restoration” of the traditional alphabet, which is written in vertical lines, said a representative of the ministry of education, culture, science and sports.
The ministry has ordered the department of information and communication technology to adopt traditional Mongolian to the “electronic environment”. Scientific, literary and state registry offices have been asked to establish a system for Mongolian names. Media are required to publish in both scripts until 2024, and schools must increase learning time to study the traditional vertical script. Cultural centres must study and promote the Mongolian written heritage, according to an official statement.
Mongolia, which is between Russia and China, adopted the Cyrillic alphabet in the 1940s as Moscow sought to control it as a buffer against Beijing. For many years Mongolia was seen as the “16th Soviet republic”. The difference in alphabets has split the Mongolian people, with three million living in Mongolia and writing in Cyrillic, and nearly six million in Inner Mongolia, a Chinese region who use the traditional script is used.
Since the Soviet Union collapsed Mongolia has been returning to its linguistic roots. A generation has grown up without learning Russian, and in 2003 it was replaced by English as the mandatory foreign language in schools.
מה הטלפונים החכמים, וואטאספ, פייסבוק, טוויטר, אינסטגרם, אמוג'ים־פרצופונים ועוד – כל הטכנולוגיה הזו – עושה, עשתה ותעשה לעברית? האם היא משנה אותה, ואם כן, כיצד?
פעם מבוגר היה מי שלא הכיר את הסלנג של הצעירים, אבל היום מבוגר הוא מי שאינו משתמש בפרצופונים (אמוג'ים) בהודעות שלו – כך ראיתי שכתבה העיתונאית אמילי עמרוסי, והיא צודקת.
היום יש יותר משלושת אלפים פרצופונים, ועוד היד נטויה; יש מילון אמוג'י, יש יום האמוגי הבין-לאומי, בית משפט בישראל הכיר בפרצופונים כמחייבים חוקית (פרטים פה למטה ב"מטיבי לכת"), ורק לפני ארבע שנים בחרה אוניברסיטת אוקספורד באמוג'י שבוכה מרוב צחוק למילת השנה כי הוא היה – ועודנו – הפרצופון הנפוץ ביותר בשימוש בעולם (וגם בישראל), ובכך שפת הפרצופונים קיבלה מעין הכרה בין לאומית.
רגע, האם הפרצופונים הם שפה בכלל? האם השימוש בפרצופונים הוא התפתחות מבורכת בשפה, או נסיגה לימי האדם הקדמון שרק ידע לצייר על קירות המערות? האם יום יבוא ונפסיק לכתוב בכתב ידינו אלא רק נלחץ על מקשים ונשלח אותיות או פרצופונים? הייתכן שבעתיד לא ילמדו בבתי הספר כיצד לכתוב?
שוחחתי עם יובל פינטר – גם איש לשון וגם חיית רשת – על השפעת הטכנולוגיה על השפה העברית ועל השינויים שהטכנולוגיה מביאה עימה לשפות בכלל. דיברנו על גמני, מישו, רוצים.ות, חושביםן, מה אחוז השימוש בפרצופונים בישראל ומה הפרצופון שמשתמשים בו הכי הרבה ישראלים.
יובל פינטר – דוקטורנט למדעי המחשב במכון הטכנולוגי של ג'ורג'יה (ג'ורג'יה-טק) העוסק בעיבוד שפה; בעל תואר שני בבלשנות מאוניברסיטת תל אביב.
סייע בכתיבת הספר "עברית אינטרנטית" מאת כרמל וייסמן ואילן גונן.
Natural language processing (NLP) is the study of how computers learn to represent and make decisions about human communication in the form of written text. This encompasses many tasks, including automatically classifying documents, using machines to translate between languages, or designing algorithms for writing creative stories. Many state-of-the-art systems for NLP rely on neural networks – complex machine learning models that achieve incredible performance but are difficult for humans to interpret and understand [1].
In the real world, many NLP systems can have a large impact on humans. Consider, for example, a system designed to read a prisoner’s court documents and arrest record and recommend whether or not they should be released on bail. If the system was found to be making a decision based on the words “white” or “black” (which are strongly indicative of race), this would be immensely problematic and unfair [2]. Another example is computer programs that assist doctors in making diagnoses by reading the text of a patient’s clinical record. The physicians using this clinical decision support system need to understand the underlying characteristics of the patient upon which the machine learning algorithm is basing its prediction [3].
This human understanding often requires “model explainability”: models that can explain their decisions. There are two important and distinct concepts under this umbrella. One is about how humans perceive a model’s decisions, and the other is about understanding the model’s reasoning process. We call the first plausible, and the second faithful.
Plausible explanations are nice for building user trust, such as building rapport between a human and an AI system [4]. However, they don’t tell us much about the underlying algorithmic decision-making process, which is desperately needed as seen in the examples above. Faithful explainability, on the other hand, is centered on explaining a model’s decisions in a way that reflects what actually occurred as the model was making them [5]. This topic has become so important that NLP conferences now have a track and workshop dedicated to it [6,7,8].
Here’s an example of the distinction: an AI system could predict that it’s going to rain today. If we inquire how it knew this, its explanation might involve ocean streams, atmospheric pressure, or cloud formations. Alternatively, it could explain to us that the god of thunder is angry. This is significantly less plausible than the other answers, and thus less satisfying. However, if the AI system was truly basing its predictions on this belief, it would be crucial for the system designer to know that. We could work to correct its faulty representation of the world, to teach it not to rely on mythology for predictions in the future. The “god of thunder” explanation is the faithful explanation of the model, despite not being the plausible one.
In our paper [9], we present an argument that faithful and plausible explanations are different things that prior work has declined to delineate, and we encourage machine learning researchers to be explicit about which type they are investigating.
We also investigate one popular method for faithfully explaining neural NLP models: attention weights. Attention is a highly successful model architecture component used in machine learning. It produces an intermediate set of values called weights, which correspond to locations of individual words in a given input: a higher attention weight means that (a vector artifact corresponding to the location of) that word was more important for the model’s prediction. For example, if the goal is to predict the label “five stars” for a movie review, the model might learn to place larger attention weights on the vectors representing words “loved” and “good” rather than “the”, “and”, or “movie”, which don’t really indicate much about the author’s feelings towards the film. See Figure 1 for an example of attention weights on a movie review.
Figure 1
Oftentimes, as in Figure 1, attention scores are presented to the user as a type of heatmap over the original input. However, this can be misleading. Particularly, as can be seen schematically in Figure 2, there is a lot of contextualization happening (denoted by the arrows). Thus, the model may learn vectors that are combinations of many different words before the attention scores are even applied!
For example, the vector aligned with the word “movie” may in fact be only 80% constructed from “movie”, with 20% coming from “the” and “good”. In this case, it would be misleading to say that a high attention weight on this vector means that the word “movie” (and only the word “movie”) is important. In our paper, we show this.
Figure 2
Also, there may be cases in which multiple, very different, attention weights exist that still allow the model to make the same prediction. When this happens, our notion of what the attention weights such as Figure 1 are telling us about the model’s prediction is questioned. In our paper, we show that while these different attention weights can be found, they’re not necessarily as prevalent as others have claimed.
We ultimately define 4 criteria (and 4 tests) that researchers can use to discern whether attention is a good way for explaining their model’s decisions. We find interesting results that contradict some of the findings of prior work, namely that attention weights work better (or worse) for faithful explanation depending on the specific task or dataset. Thus, we really can’t say with certainty what attention weights are telling us about models in general, and caution against a one-size-fits-all stance. We encourage researchers to use our methods to reach individual conclusions about whether attention can provide faithful explanation for a given-task setting and open-source our code for this purpose.
My first thought was 'Surely the humans deserve the ventilators more than the cats do', my second was 'How are they going to use dogs in hospitals' and my third was 'Oh, wait …'
מזה מספר חודשים שאחת הפרשות הבולטות בתקשורת הישראלית היא פרשת האונס (או החשד לאונס) בעיר איה נאפה שבקפריסין. מה שכמעט ולא היה חלק מהשיח הציבורי סביב הפרשה הוא עדות בלשנית שהוגשה לאחרונה במסגרת המשפט שהתנהל נגד הצעירה, משפט שזה עתה הסתיים עם הרשעה ועונש מאסר על תנאי. אם לקצר את עיקרי הפרשה, מדובר באירוע מהקיץ האחרון בו צעירה מבריטניה קיימה יחסי מין עם קבוצה של צעירים ישראלים במהלך חופשת קיץ בקפריסין. השאלה הקריטית היא האם יחסי המין היו בהסכמה או לא. הצעירה טענה שמדובר באונס אך אחר כך הואשמה שטפלה על הצעירים האשמת שווא. היא הגישה כתב הודאה והפכה לנאשמת. השופט הקפריסאי פסק לפני ימים ספורים כי אכן מדובר בהאשמת שווא והרשיע את המתלוננת. עוד פרטים ניתן למצוא למשל בערך בוויקיפדיה ובמראי המקום הרבים שם.
ברשומה הזו אני רוצה לסכם את הדו"ח הבלשני שהגיש עד מומחה מטעם ההגנה (על הצעירה), ד"ר אנדראה ניני מאוניברסיטת מנצ'סטר. סלע המחלוקת בהודאתה לכאורה של הנאשמת נמצא בשאלה האם היא הודתה בהגשת תלונת שווא מרצונה החופשי או שנוסח ההודאה הוכתב לה על ידי המשטרה הקפריסאית, כפי שהנאשמת טוענת כעת. ד"ר ניני, מומחה לבלשנות משפטית (פורנזית), קיבל לידיו את כתב ההודאה והתבקש לקבוע האם סביר שהוא נכתב על ידי מישהי עם פרופיל כמו זה של הנאשמת: בריטית בת 19 שעומדת להתחיל את לימודיה באוניברסיטה. השורה התחתונה של הדו"ח היא לא: לא סביר שהנאשמת ניסחה את ההודאה בעצמה.
עם כל הסיקור הנרחב בתקשורת הישראלית, אני לא זוכר שראיתי אזכור של העדות הזו באף כתבה בעברית מלבד בכתבה הזו בוואלה!, ונכון לזמן עליית הרשומה הזו גם אין אזכור לעדות בערך על הפרשה בוויקיפדיה. לכן ביקשתי מניני את הדו"ח וקיבלתי את רשותו לסכם את הממצאים כאן בעברית (מיותר לציין כי ניני עצמו לא נושא באחריות לרשומה הזו). כמה כתבות באנגלית המכילות את עיקרי הניתוח הבלשני ניתן למצוא כאן, כאן וכאן, וקטע מראיון טלוויזיוני כאן.
שיטה
נתחיל עם הטקסט עצמו. מדובר בפסקה העיקרית מכתב הודאה קצר מאוד, שזה נוסחה:
The report I did on the 17th of July 2019 that I was raped at ayia napa was not the truth. The truth is that I wasnt raped and everything that happened in that appartment was with my consent. The reason I made the statement with the fake report is because I did not know they were recording & humiliating me that night I discovered them recording me doing sexual intercourse and I felt embarrassed so I want to appologise, say I made a mistake.
ישנם לא מעט חלקים בפסקה הזו שצורמים לעין או לאוזן, למשל אי-השימוש בסימני פיסוק או שגיאות כתיב דוגמת appartment או appologise. עושה רושם שכתבתו של יואב איתיאל בוואלה! ניסתה לתרגם את כתב ההודאה מאנגלית מסורבלת לעברית מסורבלת:
"הדוח שעשיתי ב -17 ביולי 2019 שנאנסתי באיה נאפה לא היה האמת. האמת היא שלא נאנסתי וכל מה שקרה בדירה הזו היה בהסכמתי", נכתב בהצהרה שחתמה הצעירה בתחנת המשטרה. "הסיבה שנתתי הצהרה עם דיווח פייק נובע מכיוון שלא ידעתי שהם מקליטים ומשפילים אותי באותו הלילה גיליתי שהם מקליטים אותי עושה משגל מיני והרגשתי נבוכה כפי שאני רוצה להתנצל, ואני אומרת שעשיתי טעות".
הרשומה הזו מתמקדת במחקר של ד"ר ניני כפי שהוגש לבית המשפט. ניני נתבקש לחוות דעתו ולקבוע – במידת הניתן – האם הנאשמת חיברה את כתב ההודאה בעצמה או שהנוסח הוכתב לה על ידי מישהו שאינו דובר ילידי. בשביל לענות על השאלה הזו הוא זיהה חמישה מבנים תחביריים או צירופים יוצאי דופן וניסה לשער מהי הסבירות שדובר ילידי ישתמש בהם. על מנת לאמוד את הסבירות הזו הוא נקט בשיטה נפוצה למדי והיא בדיקת שכיחויות באוספי טקסט גדולים מאוד (קורפוסים) שמאפשרים חיפושים כלליים מאוד. כך למשל, אפשר לספור ולמצוא שהמילה כלב מופיעה הרבה יותר באוסף טקסט בעברית מאשר המילה קאק. עובדה זו מרשה לנו להניח שאם מישהו השתמש במילה קאק הרבה, הם כנראה מומחים לתחום או עוסקים בזואולוגיה. בימינו אפשר גם לבדוק מבנים תחביריים מורכבים יותר. למשל, אפשר לבדוק באמצעות פקודה אחת את כל הטיות הפועל כתב בצירוף כמו כתבתי/כתבת/כתבנו/אכתוב/… את המספר ולהשוות אותן להטיות הפועל רשם – רשמתי/רשמת/רשמנו/ארשום… את המספר. כך אפשר לראות האם אנשים משתמשים בשורש כ.ת.ב או בשורש ר.ש.מ יותר, והאם חל שינוי לאורך זמן.
בחזרה למקרה שלפנינו, בכל אחד מהקורפוסים שבהם השתמש ניני היו 8.5 מיליארד מילים בממוצע, והם כיסו סוגות ספרותיות שונות (עיתונות, פרוזה, טקסטים משפטיים) כמו גם מקורות גיאוגרפיים שונים (דוברים אמריקאים או בריטים).
אלה חמשת המבנים התחביריים שניני בדק, עם תרגום חופשי שלי. אותיות גדולות מורות על כך שכל ההטיות השונות של המילה נבדקו, כך ש-REPORT מכיל גם את צורת היחיד report וגם את צורת הרבים reports.
DO REPORT – לעשות דו"ח
BE not the truth – לא האמת
apartment – דירה
DISCOVER NOUN VERB-ing – לגלות שם-עצם עושה פועל מסוים
DO sexual intercourse – לעשות יחסי מין
בואו נראה מה היו הממצאים עבור כל צירוף ברשימה. בכל אחד מהמקרים הגיע ניני לאותה המסקנה: הסבירות גבוהה יותר שמדובר בניסוח של דובר לא-ילידי מאשר של הנאשמת עצמה.
ממצאים
לעשות דו"ח
באנגלית טבעית אומרים write a report או make a report, ולא do a report כמו בכתב ההודאה. כשמשווים בין הגירסה עם do והגירסה עם make, עולה כי הגירסה עם make נפוצה פי 3. במילים אחרות, אם דובר צריך לבחור אחת מהשתיים, הוא יבחר בגירסה עם make בערך 75% מהזמן.
בנוסף, בקורפוס המשפטי הגירסה עם do לא מופיעה בכלל. ניני מציין גם שבגלל טבע החיפוש הטקסטואלי, מחרוזת החיפוש עבור DO REPORT מצאה גם צירופים שאינם קשורים כמו בשאלה does the report say, כך שהשכיחות האמיתית של הגירסה עם do נמוכה עוד פחות ממה שהעלה החיפוש הראשוני.
לא האמת
באנגלית טבעית אומרים not true, ולא not the truth כמו בכתב ההודאה. כשמשווים בין שתי הגירסאות ניתן למצוא העדפה גורפת לגירסה לה קראתי "טבעית": בערך 98% מהזמן. זוהי גם הגירסה היחידה שמופיעה בקורפוס המשפטי.
דירה
המילה apartment אופיינית יותר לאנגלית אמריקאית, ואילו באנגלית בריטית נהוג לומר flat. כאן ההבדל בין הקורפוסים השונים מכיל את התימוכין: בקורפוסים הבריטים המילה flat שכיחה מעט יותר (בערך 60% מהזמן), ואילו בקורפוסים האמריקאים כמעט ולא משתמשים בה (רק 15% מהזמן אל מול 85% עבור apartment).
שאלתי את ד"ר ניני האם הסיפור כאן לא יותר מסובך, משום שבקפריסין נהוג ללמד אנגלית בריטית. הוא מסכים עם הקביעה שהמאפיין הזה פחות חד-משמעי מאשר האחרים שהוא בדק, אבל הסביר שלמען העקביות הוא רצה לבחון את כל המאפיינים שאינם טיפוסיים לכותב עם רקע לשוני כמו זה של הנאשמת. אני חושב שהשימוש הנרחב יחסית בצירוף apartment hotel (מלון דירות) בעיר נופש כמו איה נאפה עשוי להשפיע יותר על מי שגר שם מאשר על מי שרגילה לומר flat כל חייה, אבל כאמור, כאן ההבדלים בולטים מעט פחות.
לגלות
הצירוף הזה מסובך מעט יותר. הנה שוב החלק הרלוונטי מכתב ההודאה (עם הדגשה שלי):
The reason I made the statement with the fake report is because I did not know they were recording & humiliating me that night I discovered them recording me doing sexual intercourse and I felt embarrassed
אני מוכרח להודות שהתקשיתי להבין מה הייתה הכוונה עד שקראתי את הדו"ח של ניני. אם לנסח מחדש, כתב ההודאה היה אמור להגיד משהו כמו "גיליתי שהם הקליטו אותי", או בתרגום שלי בחזרה לאנגלית:
The reason I made the statement with the fake report is because I did not know they were recording & humiliating me that night. I discovered that they recorded me doing sexual intercourse and I felt embarrassed.
הקריאה הזו אופיינית לצירוף discover that ולא לצירוף הראשון. את הצירוף הראשון, שהופיע בכתב ההודאה, ניתן אולי לתרגם "גיליתי אותם מקליטים אותי". אך לא זו הייתה אמורה להיות הכוונה. אי ההבחנה בין שתי הצורות אינו אופייני לדובר ילידי של אנגלית.
לעשות יחסי מין
באנגלית טבעית אומרים have sexual intercourse, ולא do sexual intercourse כמו בכתב ההודאה. כשמשווים בין שתי הגירסאות ניתן למצוא העדפה גורפת לגירסה לה קראתי "טבעית": זוהי הגירסה שמופיעה מעל 99% מהזמן. זוהי גם הגירסה היחידה שמופיעה בקורפוס המשפטי.
סיכום
בכל אחד מחמשת המבנים התחביריים ניתן להראות שהנוסח לא מתאים לדוברת ילידית של אנגלית בריטית. הממצאים האלה עולים בקנה אחד עם הטענה לפיה נוסח ההודאה הוכתב לנאשמת ולא הגיע מיוזמתה. ניני המליץ בסוף הדו"ח לאסוף תכתובות נוספות באנגלית, הן של הנאשמת והן של השוטר שחקר אותה, על מנת לערוך השוואות מובהקות יותר בין כתב ההודאה לבין סגנון הכתיבה של השניים. המלצה זו לא אומצה. איזה משקל יש לתת לדו"ח כזה – זו כבר שאלה עבור מערכת המשפט, לא עבור בלשנים. השופט בתיק לא השתכנע מהדו"ח (וגם לא מהדו"ח הפסיכולוגי שהוגש), לא ציטט הסברים אלטרנטיביים לממצאים ופסק נגד הצעירה.