Shared posts

02 May 03:48

i have maybe lost count on how many universes we have gone through thus far

archive - contact - sexy exciting merchandise - search - about
← previous May 1st, 2017 next

May 1st, 2017: I am no longer in Alaska :(

– Ryan

26 Apr 00:14

#סליחה



#סליחה

22 Apr 02:54

מירב ארלוזורוב לא מושחתת

by שוקי טאוסיג
Yuval Pinter

מעולה

אבל במה שקשור לזיהום אוויר היא בהחלט מטעה, מחפפת, מתנשאת ומשרתת את ההון והשלטון במקום את הציבור
22 Apr 00:21

Saturday Morning Breakfast Cereal - The Interpretation of Hats

by tech@thehiveworks.com


Click here to go see the bonus panel!

Hovertext:
Now to spray sweet white flowers out of this big long wand.

New comic!
Today's News:

Hey geeks! I'll be signing this Sunday at the MIT Press Bookstore from 3-430, and then again after BAHFest. Come say hi!

21 Apr 14:29

is this what it's like to hang out with me? why didn't anyone SAY anything??

archive - contact - sexy exciting merchandise - search - about
← previous April 21st, 2017 next

April 21st, 2017: Are the uses of "oh no" a stealth shout out to Webcomic Name? I DECLARE IT SO, I LOVE THAT COMIC

– Ryan

19 Apr 17:26

מחולל צבע שיער לביבי

18 Apr 19:53

📑 פינטר תרגם את דבריו על האלגוריתם החדש של גוגל תרגום באמצעות האלגוריתם החדש של גוגל תרגום

by עידו קינן

השיפור באלגוריתם של שירות התרגום “גוגל טרנסלייט” היה נושאו של ראיון ב”רבע לדיגיטל”, וראיון מורחב בחדר 404, עם יובל פינטר, דוקטורנט למדעי המחשב בתחום עיבוד שפה באוניברסיטת ג’ורג’יה טק. בהתאם לסוג ההומור המאוד מסויים שלו, פינטר תרגם את הראיון לאנגלית באמצעות גוגל טרנסלייט.

חתול גוגל. תמונה: Serena (cc-by-sa); עיבוד: חדר 404

חתול גוגל. תמונה: Serena (cc-by-sa); עיבוד: חדר 404

17 Apr 17:24

Google's Translation Overhaul – Interview on IDF Radio

by יובל פינטר

This February, I gave an interview to Ido Kenan on Galei Tzahal (IDF Radio) about Google's upgraded Machine Translation system, including its claims that it learns an intermediary abstract language representation, an "Interlingua".

You can listen to the interview here, or read my writeup here on Kenan's blog. Problem is, it's all in Hebrew! Well, what better than to use the fancy new Google Translate to render the thing into English?

Here it is, untouched. See how much you understand. (Retrieved March 16, 2017)

Abstract language behind Google Translation

Following a report by Google , technology sites reported excitedly AI behind Google Trnsliit invented language. Reality only a little less Krief: AI discovered a more efficient way to translate between languages, using interlingua – abstract language that links between the two languages.

Yuval Pinter, a doctoral student in computer science language processing at Georgia Tech, explained the significance of the innovation program. He told us in an interview ahead: "Google Translate recently deployed a new translation engine that replaced the old, gradually starting in September. The system implements research ideas out there for decades and has only recently become feasible. In November the team published a paper in which he explained how the system actually succeeds in presenting a trained human language in the abstract, that made possible to translate directly between languages that the system had never met them examples. The performance showed not perfect, but certainly there is a conceptual leap forward.

"For most of the history of machine translation, the prevailing attitude was' based-phrases. According to this view, Big arthritis source sentence into parts (phrases) that seem reasonable to translate, translate them separately and then build the sentence in the target language as much as possible try to score its syntax and logic. The knowledge of each of these stages can be built automatically: show in a lot of examples of translated sentences and grammatical sentences from one language, and it 'learns' how to break a sentence, how to translate each phrase, and how to catch up. But still there are a lot of human intervention at every stage and the aisles between them. For example, if we take the phrase 'the Prime Minister yesterday visited the power station, and ask for translation, the system will need to know, among other things: Primary government, one that translates this phrase The Prime Minister and head the Government; S'bikr, this physical sense (visited) and rhetorical (criticized); Verb translated phrase should follow the topic; That yesterday will have a comma after it; Q-Jeb, not in it at; And more. The first two rules will be studied at a reasonable level automatically, but the last three probably require human hand encode specific knowledge about Hebrew and English. These systems were common until today.

"In the new system there is a massive application of technology, which until a few years ago was largely theoretical amusement, and was made possible thanks to advances in computing power and configuration process, and aggregation of data volumes magnitudes above what was acceptable. The new algorithm, there are many rules that people have written, or at least directed on the basis of knowledge of any language, computer builds his own rules. The main difference is obtained directly translating a whole sentence complete sentence, and therefore do not need to know in advance the language as long as there is enough data.

, The last article that Google released showed not only the translation process is the same between pairs of languages, but Sctotzr effects of learning, the system builds a kind of general representation, not language-dependent, the court. We said that today a translation between two languages hung in the mere existence of millions of sentences that we know their translation. Make it easier for couples languages like English-French, for example, when the Canadian Parliament's protocol or mechanism in the EU goes multilingual uniform. But what happens when you try to build a system of translation from Korean to Swahili, Hebrew or Spanish? What they did today this translation through an intermediate language (in practice, always English), from Korean to English and Swahili. It is also much more logical application – let's say there are 100 languages, so have about 200 interfaces, where about 10,000 if you want a direct translation from any language to any language, it is not applicable. One drawback of this approach is the effect of "broken telephone" as the translations are not perfect, but there are also a matter of lost data. For example, Hebrew and Spanish – the phrase 'the cat eats the cheese' will be translated into English through the cat is eating the cheese, and losing here that the cat is female, a distinction that both Hebrew and Spanish, but no English. 'Intermediate language, abstract Google found her testimony, however, is rich enough to contain the information of grammatical gender, and that preservation GATA transition to Spanish.

"" Intermediate language "itself is, as mentioned, abstract. She lives in mathematically impossible to pronounce the words and phrases in it. Google showed how it exists? Took sentences translated from Japanese to English and Korean to English, and only a trained them. Then he said to translate sentences from Japanese to Korean, things she had not seen during training. Translations were reasonable and beautiful competed last through the English translation. Then a little 'Help' system with a relatively small amount of samples translation from Japanese to Korean, then the translations were as good as the direct model, trained many examples of Japanese-Korean.

"According to the notification of Google, the system has been deployed, this means that the system is now active as we are using Google Trnsliit. English translations for all languages and vice versa should be better than before. It seems we have not deployed the common model, but if it happens, also from Hebrew into other languages quality improves. The Hebrew they did not publish the results, I do not know if you speak Hebrew enjoying significant improvement. "

17 Apr 14:17

ryan i always add "butiwouldratherbereading=somethingmorehistoricallyaccurate" to your urls so I have slightly fewer complaints than most

archive - contact - sexy exciting merchandise - search - about
← previous April 14th, 2017 next

April 14th, 2017: Is this the first time I've address T-Rex's leg position in the last panel? Listen, it's been fourteen years, I finally decided it was time!!

– Ryan

16 Apr 01:43

Saturday Morning Breakfast Cereal - Context

by tech@thehiveworks.com
Yuval Pinter

Tru dat



Click here to go see the bonus panel!

Hovertext:
I HAVE SINNED WITHIN MY HEART AND BETWEEN MY TEETH!

New comic!
Today's News:

About 2/3s of BAHFest tickets are now gone! Buy before they sell out!

13 Apr 14:30

"If the author is comfortable having his/her name on this paper, then I won’t stand in the way..."

“If the author is comfortable having his/her name on this paper, then I won’t stand in the way of its publication.”
07 Apr 15:41

Laurence J. Peter

"Originality is the fine art of remembering what you hear but forgetting where you heard it."
05 Apr 14:39

Saving Jewish Iraqi.

by languagehat

Almost a decade ago I posted about “Jewish Arabic” and “Muslim Arabic” in Iraq; now Jacky Hugi (translated by Aviva Arad) reports on an effort to preserve the former:

On Friday mornings in a class on the heritage of Babylonian Jewry, Oded Amit has taught a small group of Israelis to speak Jewish Iraqi, the language of his ancestors. Amit, 70, was born and raised in Baghdad, and Jewish Iraqi was the language in which his mother raised him.

“It’s a beautiful language, rich, full of wisdom and wit, but it is disappearing,” Amit told Al-Monitor. “What I’m doing is an attempt, perhaps desperate, to save something of it — to keep it alive a little longer. The younger generation doesn’t speak it anymore. They heard their aunt or grandma speaking it, but for them it’s not a mother tongue, it’s a curiosity.” […] Before Amit began teaching, he spent long hours extracting the rules of grammar from his mother’s language.

“I conjugated the verb ‘to write’ and derived the rules from that,” he said. “The problem is that there are many exceptions.” His work is important for historical documentation, because literature on the Babylonian dialect is relatively scant. It includes a dictionary published by Gila Yona and Rahamim Rajouan in 1995, a dictionary by Yitzhak Avishur published in 2008 and the updatable online collection of researcher Yehuda Katz from Herzliya. The Center for Babylonian Jewish Heritage has a collection of many items, including vocal and visual documentation of the language. It is clear to all that, within a decade at the most, the living language will no longer be heard. […]

One of the well-known aspects of the dialect of Babylonian Jewry is its juicy curses. Yona and Rajouan included an appendix dedicated to curses in their dictionary. Especially entertaining are those that wish death by certain means on others. Someone you wish to see hanged is called “maqtua al-raqba,” that is, “decapitated neck.” For someone you wish would die in agony, you say, “Nfaqsit eino,” that is, “May his eye burst.” For wishing a simple death, there’s the moniker “zawaj a-almana,” meaning “the widow’s husband.” If the death wish applies to several people, you say “wahad thakal lakh,” meaning “that each would mourn the other.” Many curses are surprisingly also forms of praise. For instance, the word “naghl,” meaning “bastard,” is a curse that suggests spitting at a father’s crotch, since thanks to it, the child came into the world. It is usually meant as an expression of admiration.

Thanks, Trevor!

30 Mar 19:21

Saturday Morning Breakfast Cereal - Blech

by tech@thehiveworks.com


Click here to go see the bonus panel!

Hovertext:
Some days it's butt joke day.

New comic!
Today's News:

HEY BOSTON! It's your turn...

16 Mar 23:55

כשהטיעון של גדעון לוי קורס אל תוך עצמו

by גדעון שביב

דבר משעשע מתגלה כשבודקים את ה"הוכחה" של גדעון לוי לתקפות הטענה של עצמו

 

אחד מהאירועים האנטישמיים המוזכרים במאמר הדעה

מישהו פה לא קרא עד הסוף את הנתונים? אנטישמית באמריקה

 

גדעון לוי כועס על העיסוק הציבורי במופעי אנטישמיות נגד יהודים באמריקה. במאמר ב'הארץ' ("לקנא ביהודים", 15.03) הוא טוען ש"צריך לקנא ביהודים, הם המיעוט הפריווילגי ביותר בעולם החופשי."

 ומי המיעוט הנרדף באמת? המוסלמים כמובן:

אין פרופורציה בין הרעש שהיא (האנטישמיות נגד יהודים, ג"ש) מעוררת לבין המציאות; בין חיי היהודים לבין חיי מיעוטים אחרים, בעיקר המוסלמים

וללוי יש אפילו הוכחה:

5,818 פשעי שנאה נגד מוסלמים התרחשו בארה"ב ב–2015, עלייה של 67% מהשנה הקודמת — לפני עידן ההסתה של דונלד טראמפ העתיד להצמיח הרבה פשעי שנאה נגד מוסלמים.

בדקנו את ה"הוכחה" של גדעון לוי.

religious

 

לפי נתוני ה-FBI, אכן ארעו 5,818 תקריות, כפי שטוען לוי, אולם אלו היו סך כל פשעי השנאה בארה"ב באותה שנה.

יותר מעניינת החלוקה הפנימית בדו"ח, ממנה עולה כי מתוך 1,402 פשעי השנאה שבבסיסם שנאה לדת, 52.1% התרחשו בשל השנאה ליהודים, ו- 29.1% בשל שנאה למוסלמים. יוצא שבניגוד לטענת לוי "אמריקה ואירופה שטופות בשנאה כלפי מיעוטים. היהודים הם קורבנותיה הקטנים ביותר"', היהודים הינם הקבוצה המותקפת ביותר בפשעי שנאה בארה"ב.

סיכום: גדעון לוי בא לטעון שהמוסלמים נרדפים יותר מהיהודים וכראייה הפנה לדו"ח המראה בדיוק את ההיפך.

גדעון לוי בתגובה: התכוונתי להדגיש את העלייה הדרמטית במתקפות נגד מוסלמים (67%) עוד לפני עליית טראמפ. אבל אתקן את הטעות במאמר באתר

 

עדכון: בעקבות פניית 'פרספקטיבה', תוקנה הטענה השגויה של לוי במאמר באתר 'הארץ'

15 Mar 23:54

יש שקרים, יש שקרים גסים, ויש סטטיסטיקה

by חנן עמיאור
Yuval Pinter

ד'יזרעאלי

האמירה בכותרת מיוחסת לבנג'מין ד'יזרעאלי. עיתון 'הארץ' ועידו סני ארזי הדגימו אותה השבוע באופן מושלם

 

%d7%9c%d7%9b%d7%99%d7%93%d7%94

חשבתם שהם הפסידו? טעיתם! אלו בעצם המנצחים (צילום: פלאש 90)

 

אם תשאלו את עידו סני ארזי, מנהל פרויקט "ששים ואחת" של ארגון השמאל 'מולד', התודעה הפוליטית של כולכם שטופה בספין מתוחכם.

במאמר שפרסם ב'הארץ', (העם זז ימינה? עוד ספין של הימין, 13.3) הוא טוען שהמוסכמה לפיה הימין הפוליטי בישראל חזק מהשמאל הפוליטי, היא מצג שווא. תעתוע מכוון שיוצר הימין, בעוד שבפועל, המצב הפוך.

אבל הספין, (לא מי יודע מה מתוחכם אגב), הוא דווקא של ארזי עצמו, הפוסל במומו. הוא אינו בודה נתונים, רק מגיש אותם בסלקטיביות המעוותת את המסקנות העולות מהם. הנה שרשרת המניפולציות שערך במאמרו כדי לבסס את קביעתו המהפכנית:

ארזי מביא "מתמטיקת בחירות מרתקת", לפיה הליכוד קיבל בבחירות האחרונות רק 16.7% מהקולות, לעומת המחנה הציוני ומרצ, שקיבלו ביחד 22.6% מהקולות.

איך יתכן? הרי לפי תוצאות הבחירות האחרונות לכנסת, לליכוד הצביעו 23.4% מהקולות, בעוד שלמחנה הציוני ולמרצ גם יחד, הצביעו 22.6% מהקולות.

התשובה: כדי להקטין את ההצבעה לליכוד, כך שיראה חלש מול ההצבעה לשמאל, חישב ארזי את ההצבעה לליכוד מתוך בסיס רחב – כלל המצביעים. את ההצבעה לשמאל, לעומת זאת, חישב מתוך בסיס צר – סך הקולות הכשרים בלבד. כך יצר בקלות מצג שווא לפיו יותר ישראלים הצביעו למחנ"צ ולמרצ, מאשר לליכוד.

החלוקה לגושים פוליטיים מעודדת את ארזי אף יותר. כך הוא כותב:

אם נוסיף לספירה גם את הרשימה המשותפת, שקיבלה יותר מ-10% מהקולות – מצבו של השמאל בבחירות האחרונות משתפר עוד יותר

ארזי נמנע כמובן מלהוסיף לתמונת הגושים גם את מפלגות הימין, כיוון שלו היה עושה כן, תמונת הגושים האמתית היתה זו:

למפלגות הימין ישראל ביתנו והבית היהודי הצביעו 11.84% מהקולות. למפלגות החרדיות, (כזכור בנות ברית טבעיות שאף הצהירו מראש לפני הבחירות שיחברו לימין ולא לשמאל), הצביעו עוד 10.73% מהקולות. צירוף כולם יחד מעלה את כוחו של גוש הימין והדתיים ל 45.97%.

כשמוסיפים לגוש השמאל את מצביעי הרשימה הערבית המשותפת, (10.61% מהקולות) משיג גוש השמאל והערבים 33.21% מהקולות.

נעשה לארזי הנחה ונתעלם מכ 3% מסך הקולות שאיבד הימין בהצבעה לאלי ישי שלא עבר את אחוז החסימה, נקזז אותם עם כאחוז אחד מקולות השמאל שהצביעו לעלה ירוק שגם לא עברה,

עדיין הביס בבחירות האחרונות גוש הימין-דתיים את גוש השמאל-ערבים, בפער עצום: 46-33.

יתכן שהמפתח להבנת "מתמטיקת הבחירות המרתקת" של ארזי הוא בהכללת מפלגות המרכז 'כולנו' ו'יש עתיד' בגוש השמאל, שליבתו המחנ"צ, מרצ והרשימה הערבית המשותפת?

לספור את קולות 'כולנו' ו'יש עתיד' בגוש שמאל-ערבים יחשב ללהטוט מוגזם. שני ראשי המפלגות הללו אמרו אמירות ברורות בנושא עוד טרם הבחירות. כחלון באמירה מפורשת על היותו "ליכודניק" הנוטה לימין, ולפיד בגידוף מי ש"העז" לשייכו לשמאל,

לכך יש להוסיף גם פסילה גורפת מצד שניהם של אפשרות ישיבה בקואליציה הנתמכת ברשימה המשותפת, המהווה כאמור נדבך יסוד ב"התחזקותו" של השמאל בישראל לשיטת ארזי.

למה למדוד את ההצבעה לליכוד לפי מפתח מחמיר ואת ההצבעה לשמאל לפי מפתח מקל ולהשוות ביניהן?

ואיך משקלול ההצבעה לגושים מסיק ארזי ש"הציבור חצוי בקלפי" וש"מחנה השמאל דווקא התחזק"?

תגובתו של ארזי תובא כאן כשתתקבל.

אבל ארזי לא מסתפק בניתוח דפוסי הצבעה. לטענתו, "הסיפור הגדול" בכלל נמצא באימוץ העמדות האידאולוגיות של השמאל. כראייה הוא מצטט סקר ישראלי-פלסטיני, ממנו עולה לכאורה שרוב הישראלים (55%) תומכים בפתרון שתי המדינות. והנה ההוכחה שהשמאל מביס את הימין לא רק בהצבעה אלא גם אידאולוגית.

למה בכל זאת אין לכך ביטוי תודעתי? ארזי מתפוצץ מעצבים נוכח ה"ספין" של הימין:

הרי לכם דוגמה לאופן בו קבוצה קטנה, קולנית, קיצונית, ביריונית ואלימה, שמאורגנת וממומנת היטב, מייצרת שינוי תודעתי

אבל מי שקורא את האותיות הקטנות באותו סקר ממנו תלש ארזי את נתון ה 55% שלו, בהחלט מתפוצץ, אבל לא מעצבים אלא מצחוק. שם כתוב כך:

התמיכה בחבילה מפורטת של הסדר הקבע, המבוססת על סבבים קודמים של המשא ומתן, נמוכה מהתמיכה העקרונית בפתרון שתי המדינות

כמה נמוכה? 55% תומכים בססמה "שתי מדינות". רעיון אבסטרקטי לגמרי, שלא רלוונטי לדיון. אבל בפתרון קונקרטי, המבוסס על סבבי המו"מ הקודמים מתברר שתומכים רק 41.5% מהיהודים ומהפלסטינים.

(שגם הוא כזכור – פתרון היפותטי שמעולם לא התקרב למימוש. אותיות שהפריחו המתווכים באוויר ונדחו על הסף על ידי שני הצדדים בעודן מעופפות).

איך בנתונים האלו מוצא ארזי "סיפור גדול" ולפיו רוב הציבור הישראלי תומך בפתרון שתי המדינות?

כאמור, כל השאלות הללו הופנו אל ארזי ותגובתו טרם הועברה. היא תתווסף כאן לכשתתקבל.

אבל יש כאן שאלה חשובה יותר מארזי עצמו ומהתעלולים הסטטיסטיים שארז למאמר ב'הארץ', והיא זו:

איך נותנים עורכי עמוד הדעות של 'הארץ' במה לטענה כה רעועה ותלושה מהמציאות? האין הם רואים שהמציאות המבצבצת מהנתונים הסלקטיביים של ארזי, הפוכה בתכלית לטענתו? אין עורכים ב'הארץ'?

אין עורכים ב'הארץ'.

 

עדכון: עידו סני ארזי העביר את תגובתו:

אני מודה שמעולם לא שמעתי על הארגון שלכם, אבל אני תמיד שמח לגלות עוד ארגון ימין שעומד על המשמר לבל ייחשף הציבור הישראלי לעובדות. כפי שעמיתיך לימדו אותנו לעשות, עם גילוי דבר קיומו של ארגון ימין חדש ניגשתי חיש מהר לעיין בדו"חות הכספיים, על מנת להעמיק את היכרותי עם הארגון ופועלו. אצלכם גיליתי, למרבה העניין, ש-100% מהכנסותיכם מגיעים מ"עמותת האם" שלכם, ארגון אמריקאי בשם CAMERA, שהתורמים שלו חסויים. מכאן שאני מתבקש לענות על שאלות על-ידי ארגון לא שקוף, שמייצג אינטרסים של גורמים עלומי שם, וכל זאת תוך כדי שהוא מתיימר לפעול בשם זכות הציבור לדעת. הבנתי נכון?

לעצם העניין, אני שמח על התהודה שאתם מעניקים למאמר שלי, שמתבסס על קונספט שישמע לכם מוזר – בדיקת עובדות. אני ממליץ לכם ולכולם לקרוא את המאמר (ניכר שלא עשיתם את זה), לעיין בנתוני ועדת הבחירות המרכזית ולהיווכח מי צודק. בהצלחה בספין הבא.

09 Mar 15:23

טעויות בשירים ישראליםתודה לאלעד חסיד, רוני זעירא, משיח קד, בן...

Yuval Pinter

אני מקווה שהם יודעים שאצל מאיר אריאל זה מודע לעצמו





















טעויות בשירים ישראלים

תודה לאלעד חסיד, רוני זעירא, משיח קד, בן מאירי, נריה אביישר, איל פרי, ניתאי אלכסנדר ורון ענבר

05 Mar 23:42

Comic for 2017.03.05

New Cyanide and Happiness Comic
03 Mar 19:05

Neil deGrasse Tyson on linguists and Arrival

by Geoffrey K. Pullum

This is a guest post submitted by Nathan Sanders and colleagues. It's the text of an open letter to Neil deGrasse Tyson, who made a comment about linguists on Twitter not long ago.


Dr. Neil deGrasse Tyson,

As fellow scientists, we linguists appreciate the work you do as a spokesperson for science. However, your recent tweet about the film Arrival perpetuates a common misunderstanding about what linguistics is and what linguists do:

In the @ArrivalMovie I'd chose a Cryptographer & Astrobiologist to talk to the aliens, not a Linguist & Theoretical Physicist

Neil deGrasse Tyson (@neiltyson), 1:40 PM – 26 Feb 2017

Though the term linguist is often used by the public to refer generally to anyone whose occupation is related to language (especially translators and interpreters), the type depicted in Arrival is a special kind of linguist who engages in the scientific study of human language: its structures, its uses, its underlying similarities, and its surprising diversity. A cryptographer simply cannot replicate the specialized training that a linguist like Louise Banks has, which takes years to learn and decades to master.

Most importantly, a cryptanalyst would likely be much less suited to the task of communicating with aliens than a linguist would (a cryptographer even less so, since they work on encryption, not decryption). Cryptanalysis relies on decrypting coded messages from a known language. If the source language and the encryption method are both unknown, ordinary cryptanalytic methods will fail. This is why the Native American code talkers of the 20th century were so invaluable to the US in both world wars: their languages were not understood by enemy cryptanalysts, so their encrypted versions could not be cracked, unlike with well-known languages like English.

A linguist's interactive methodology is more likely to result in successful communication with aliens. Whereas cryptanalysts generally work with a static corpus of encrypted messages and cannot obtain new ones of a particular type on demand, linguists are trained in a variety of techniques to elicit targeted utterances from speakers, as broadly demonstrated by the elicitation sessions in Arrival. These elicitation sessions are designed to bring to light subtle information about the atomic units of a language, how they are combined into longer units, what those units mean, and how they are used. These methods are used for analyzing the structure of well-known languages as well as for documenting and analyzing endangered languages that the linguist may not speak with any fluency and may be typologically quite different from widely spoken languages of the world.

Perhaps instead of true cryptanalysis, you were thinking more along the lines of machine translation, with the idea that languages can be treated as codes of each other or of some universal interlingua. This idea was popular among 17th-century philosophers and has been explored by computational linguists since the mid-20th century, but with limited success, because human languages simply are not structured as codes of one another. They can differ not only in how they express information (sometimes by word order, sometimes by extra words or pieces of words), but also in what information they express (such as grammatical gender, levels of politeness, and verb tense), and these differences are often difficult to adequately translate from one language to another. Any methodology relying on the assumption that all languages are merely variant realizations of the same underlying concepts is doomed to fail. An alien language, with its associated alien thoughts and alien culture, would be even less amenable to such methods.

Linguists have specialized fieldwork techniques and an understanding of what kinds of information a language is likely to express and how that information may be realized, which are necessary tools for understanding any new language, human or alien. Linguists are thus exactly the kind of researchers you would want on hand in an alien encounter.

We thank you for your time and attention, and we hope that your commitment to educating the public about the sciences will include and celebrate the important contributions of linguistics.

Sincerely,

Kevin Schluter
Postdoctoral Researcher, New York University Abu Dhabi

Nathan Sanders
Visiting Assistant Professor, Haverford College

Stephen Politzer-Ahles
Assistant Professor, The Hong Kong Polytechnic University

Carrie Gillon
Research Associate, University of Manitoba



The above is a guest post submitted by Nathan Sanders and colleagues.
02 Mar 16:43

Sci-Fi Action Horror

by Doug
28 Feb 14:40

Thomas Jones

"Friends may come and go, but enemies accumulate."
27 Feb 04:02

השפה המופשטת מאחורי תרגום המכונה • גוגל לא נותנת לנו פקודות • מתרגמים נ’ בינות מלאכותיות » רבע לדיגיטל

by עידו קינן
Yuval Pinter

היי, זה אני!

רבע לדיגיטל. קליק לארכיון המדור

השפה המופשטת מאחורי גוגל תרגום

בעקבות דיווח של גוגל, אתרי טכנולוגיה דיווחו בהתרגשות שהבינה המלאכותית שמאחורי גוגל טרנסלייט המציאה שפה. המציאות רק קצת פחות מקריפה: הבינה המלאכותית גילתה דרך יעילה יותר לתרגם בין שפות, באמצעות interlingua – שפה אבסטרקטית שמקשרת בין שתי השפות.

יובל פינטר, דוקטורנט למדעי המחשב בתחום עיבוד שפה באוניברסיטת ג’ורג’יה טק, הסביר בתוכנית את משמעות החידוש. כך סיפר לנו בראיון מקדים: “גוגל תרגום פרסה לאחרונה מנוע תרגום חדש שהחליף את הישן, בהדרגה החל בספטמבר. המערכת מיישמת רעיונות שמסתובבים בעולם המחקר כבר כמה עשורים ורק לאחרונה הפכו ישימים. בנובמבר חברי הצוות פרסמו מאמר ובו הסבירו איך המערכת שאימנו למעשה מצליחה לייצג שפה אנושית באופן מופשט, כך שמתאפשר לתרגם ישירות בין שפות שהמערכת מעולם לא פגשה דוגמאות עבורן. הביצועים שהציגו לא מושלמים, אבל בהחלט יש כאן קפיצת מדרגה קונספטואלית.

“במשך רוב ההיסטוריה של תרגום ממוחשב, הגישה השלטת היתה ‘מבוססת-ביטויים’. לפי גישה זו, בגדול מפרקים את משפט המקור לחלקים (ביטויים) שנראים סבירים לתרגום, מתרגמים אותם בנפרד ואז בונים את המשפט בשפת היעד כשמנסים כמה שיותר לקלוע לתחביר ולהגיון שלה. את הידע של כל אחד מהשלבים האלה אפשר לבנות באופן אוטומטי: מראים למערכת המון דוגמאות של משפטים מתורגמים ושל משפטים דקדוקיים מכל אחת מהשפות, והיא ‘לומדת’ איך לפרק משפט, איך לתרגם כל ביטוי, ואיך להדביק. אבל עדיין יש הרבה התערבות אנושית בכל אחד מהשלבים ובמעברים ביניהם. למשל, אם ניקח את המשפט ‘אתמול ביקר ראש הממשלה בתחנת כוח’ ונבקש תרגום לאנגלית, המערכת תצטרך לדעת, בין היתר: ש’ראש הממשלה’ זה ביטוי אחד שתרגומו The Prime Minister ולא head the government; ש’ביקר’ זה במובן הפיזי (visited) ולא הרטורי (criticized); שהפועל במשפט המתורגם צריך לבוא אחרי הנושא; ש’אתמול’ יצטרך פסיק אחריו; ש-‘ב’ זה at ולא in; ועוד. שני הכללים הראשונים יילמדו ברמה סבירה באופן אוטומטי, אבל שלושת האחרונים כנראה ידרשו יד אנושית שתקודד ידע ספציפי על עברית ואנגלית. אלו המערכות שהיו נפוצות עד היום.

חתול גוגל. תמונה: Serena (cc-by-sa)

חתול גוגל. תמונה: Serena (cc-by-sa)

“במערכת החדשה ישנו יישום מאסיבי של טכנולוגיה, שעד לפני כמה שנים היתה בעיקר שעשוע תיאורטי, ועכשיו התאפשר בזכות התקדמויות בכוח חישוב ובתצורת מעבדים, וצבירה של כמויות מידע בסדרי גודל מעל מה שהיה מקובל. באלגוריתם החדש, במקום הרבה חוקים שבני אדם כתבו, או לפחות הכווינו על סמך ידע על כל שפה, המחשב בונה לעצמו את החוקים. ההבדל העיקרי הוא שמתקבל ישירות תרגום ממשפט שלם למשפט שלם, ולכן לא צריך להכיר מראש את השפות כל עוד יש מספיק נתונים.

,המאמר האחרון שגוגל הוציאו הראה שלא רק תהליך התרגום זהה בין זוגות של שפות, אלא שכתוצר לוואי של הלמידה, המערכת בונה מין ייצוג כללי, לא תלוי-שפה, של המשפט. אמרנו שעד היום מערכת לתרגום בין שתי שפות היתה תלויה בהימצאותם של מליונים של משפטים שאנחנו יודעים את התרגום שלהם. קל לעשות את זה לזוגות שפות כמו אנגלית-צרפתית, למשל, כשכל פרוטוקול של הפרלמנט הקנדי או מנגנוני האיחוד האירופי יוצא בפורמט רב-לשוני אחיד. אבל מה קורה כשמנסים לבנות מערכת של תרגום מקוריאנית לסוואהילי, או עברית לספרדית? מה שעשו עד היום זה תרגום דרך שפת ביניים (בפועל, תמיד אנגלית), מקוריאנית לאנגלית ומשם לסוואהילי. זה הרבה יותר הגיוני גם ביישום – נניח יש 100 שפות, אז צריכים בערך 200 ממשקים, במקום בערך 10,000 אם רוצים תרגום ישיר בין כל שפה לכל שפה, שזה לא ישים. חסרון אחד של הגישה הזו הוא אפקט של ‘טלפון שבור’ כשהתרגומים לא מושלמים, אבל יש גם עניין של אובדן מידע. למשל מעברית לספרדית – המשפט ‘החתולה אוכלת את הגבינה’ תתורגם דרך האנגלית the cat is eating the cheese, ומאבדים פה את העובדה שהחתולה היא נקבה, הבחנה שיש גם בעברית וגם בספרדית אבל אין באנגלית. ‘שפת הביניים’ המופשטת שגוגל מצאה עדות לה, לעומת זאת, מספיק עשירה כדי להכיל גם את המידע של המין הדקדוקי, וזה ישתמר במעבר ל-gata הספרדית.

“‘שפת הביניים’ עצמה היא, כאמור, מופשטת. היא חיה במרחב מתמטי ואי אפשר להגות את המילים והמשפטים בה. איך גוגל הראו שהיא קיימת? לקחו משפטים מתורגמים בין יפנית לאנגלית ובין קוריאנית לאנגלית, ואימנו מערכת רק עליהם. אחר כך אמרו למערכת לתרגם משפטים מיפנית לקוריאנית, דברים שהיא לא ראתה בזמן האימון. התרגומים היו סבירים, והתחרו יפה בתרגום שעבר דרך אנגלית. אחר-כך קצת ‘עזרו’ למערכת עם כמות קטנה יחסית של דוגמאות תרגום מיפנית לקוריאנית, ואז התרגומים היו טובים כמו מודל ישיר, שאומן על הרבה דוגמאות של יפנית-קוריאנית.

“לפי ההודעות של גוגל, המערכת כבר נפרסה, כלומר זו המערכת שעכשיו נמצאת ופעילה כשאנחנו משתמשים בגוגל טרנסלייט. התרגומים מאנגלית לכל השפות ולהפך אמורים להיות טובים יותר מאשר מקודם. נראה שעוד לא פרסו את המודל המשותף, אבל אם זה יקרה, גם האיכות מעברית לשפות אחרות תשתפר. על עברית הם לא פרסמו תוצאות, אני לא יודע אם דוברי עברית נהנים משיפור משמעותי”.

גוגל לא נותנת לישראלים אפשרויות או פקודות

יעל סלע, ראש צוות הלוקליזציה של גוגל לעברית, הרצתה בכנס אגודת המתרגמים על אתגרי תרגום ממשקים במדינות שונות. בשיחה מקדימה עם עורכת רבע לדיגיטל, אחינעם קפון, סיפרה סלע: “להרצאה שלי קראתי באנגלית ‘הו דה פאק איז ג’ים’, ובעברית מיננתי את הגסויות וקראתי לה ‘גוגל ב-70 לשון’ – איך עושים גוגל ברחבי העולם. אני המנהלת שעוסקת בתרגום לעברית של גוגל, בשיתוף פעולה עם צוותי השיווק, היח”ץ והצוות המשפטי. הרעיון בתרגום גוגל הוא לא לתרגם אלא ליצור את אותו אפקט שקורה בשפות שונות. במדינות שהומור יותר מקובל – בישראל, במדינות הנורדיות, במדינות דוברות אנגלית – אנחנו יחסית נתרגם קרוב למקור. אם הומור נחשב מאוד לא רציני מוציאים אותו לחלוטין – כמו למשל ביפן, שם חברה מקצועית לא יכולה לצחוק איתך, אפילו כשמדובר בחברה עם המעמד המאוד מכובד ומרשים של גוגל – ביפנית לא עושים את זה. אז, למשל, כשיש תקלה וגוגל אומר “אופס, סאמת’ינג וונט רונג” – ביפנית משלשים את ההתנצלות. בסינית למשל, היינו חושבים שאין הומור אבל עושים הומור. בתאילנדית מוסיפים תואר כבוד – היי ג’ון, היי ג’ון קון. בנוסף, יש עניין סביב מה מילת פנייה – באנגלית זה ‘יו’, אבל בשפות אחרות יש כמה יו. ‘זי’ המכבד ו’דו’ היומיומי בגרמנית, למשל. בגרמנית, לקהל של לקוחות ארגוניים, משתמשים בזי, אבל למשתמש הרחב – ג’מייל, דרייב, יוטיוב, משתמשים בדו”.

מה אפשר ללמוד על האופי הישראלי, או על האופי הישראלי כפי שגוגל רואה אותו, בתרגום לעברית?
“אנחנו למשל יכולים לראות שגוגל בישראל, כמו כל מי שמנסה להתקשר עם הקהל הישראלי, צריך להיות ישיר. כשאומרים לו ‘יו מיי וונט טו קונסידר’, והתרגום המדויק לעברית הוא ‘אולי תרצה לשקול א’/ב’/ג”, הישראלי הממוצע שוקל, שוקל את השקילה, ובסוף מחליט שלא. זו הדרך לומר ‘מומלץ לעשות’. כשמתרגמים לעברית, מורידים את האובר נימוס. המשתמש הישראלי אומר ‘מה אתה רוצה שאני אעשה? תגיד לי’. אין פליז באנגלית אף פעם, אבל בחלק מהטקסטים שלנו אנחנו כן כותבים ‘נא ללחוץ על הכפתור’, כי זה מרכך. כשאומרים לישראלי ‘פתח חשבון, לחץ כאן’ – מסתכלים על ההוראה הזו ואומרים ‘למה מי אתה שתיתן הוראות’. אז במקום אנחנו כותבים ‘לפתיחת חשבון’. זה גם חלק מהניסיון לא לפנות רק לגברים. באנגלית אין ג’נדר בשפה, וגם בעברית משתדלים להתנסח באופן נייטרלי מבחינה מגדרית. אבל כשהיה, למשל, טקסט שהיה מיועד למורים בבית ספר יסודי, בחרנו דווקא לפנות לנשים כי זה 90 ומשהו אחוז”.

גוגל הגלובלית. תמונה: Jeroen Frans (cc-by-nc-sa)

גוגל הגלובלית. תמונה: Jeroen Frans (cc-by-nc-sa)

איך יודעים לקלוע לאופי? האם מדובר בתהליך של ניסוי וטעייה?
“זה יותר ניסוי ופידבק – הרבה לדבר עם הקהל שלנו ומשתמשים, יש קהילה של משתמשים שיש לנו מגע איתם. אנשי שיווק מסוגלים להביא לנו פידבק מהמשתמשים האמיתיים. יש לנו קהילה של יוצרי יוטיוב שעוזרים לנו להבין איך יוטיוב צריך להשמע בעברית. בתאילנדית, למשל, הרבה מונחים לא מתרגמים אלא מתעתקים – הרבה מהתעתיק הוא לא מדויק. למשל ‘אינבוקס’ הפך ל’אינבלוקס’, וכשגוגל נכנסה עם גוגל אינבוקס, היתה התלבטות אם להשתמש בתעתיק לא נכון או תעתיק נכון, והחליטו ללכת על התעתיק הנכון – אינבוקס. שנתיים אחר כך, התעתיק המדויק שגוגל התעקשה עליו מתפשט. אימייל בעברית היה מתורגם כדוא”ל – אף אחד לא משתמש, ואחד הדברים הראשונים שעשיתי בתפקיד זה להחליף את התרגום ל’אימייל'”.

איך הגעת לתפקיד?
“תרגמתי הרבה ספרים, הרבה מדע בדיוני ופנטזיה, כולל משחקי הכס גם, ואתה ממציא הרבה דברים במדע בדיוני ופנטזיה. לפני כמה שנים נפתח תפקיד בגוגל והגעתי אליו”.

ריקוד הנצחון של המכונה

לפני שנה פרסמתי טיפ למי שצריכים לתרגם טקסט – במקום לתרגם מאפס, להשתמש בגוגל טרנסלייט לתרגם את הטקסט המלא, ולהשתמש בתרגום המכונה כטיוטה שעל גביה עורכים ומתקנים את השגיאות. מישהו שיתף את הפוסט בקבוצת פייסבוק של מתרגמים, שקטלו את העצה שלי והסבירו שאני לא מבין כלום בתרגום.

הקוריאה טיימז מדווח כעת על תחרות תרגום שמתקיימת היום באוניברסיטת הסייבר סג’ונג שבסיאול, דרום קוריאה. כל מתחרה מקבל שני מאמרים באנגלית לתרגם לקוריאנית, ושניים בקוריאנית לאנגלית, עם 30 דקות לתרגום כל מאמר. בצד אחד של הזירה: מתרגמים אנושיים. בצד השני: הבינות המלאכותיות גוגל טרנסלייט ונאבר פפגו, שני שירותי תרגום-המכונה הפופולריים ביותר שתומכים באנגלית וקוריאנית.

שלט עברי הפוך בעיר ניס. צילום: שמוליק ליברמן

שלט עברי הפוך בוילה דה בעיר ניס. צילום: שמוליק ליברמן

“בקרב מתרגמים ומתורגמנים, ואלו ששואפים לעבוד בתחומים אלו בעתיד, מתגבר החשש שהם עלולים לאבד את מקומם לטכנולוגיות תרגום אוטומטיות מבוססות בינה מלאכותית, אשר השתפרו משמעותית”, אמר קאנג דאה-יונג, מזכ”ל IITA (ארגון דרום קוריאני ממשלתי לקידום טכנולוגיות מידע). “אף שהאירוע עשוי לא להפיג לגמרי חששות אלו, אנחנו מקווים להראות שלבני אדם ולמכונות יש חוזקות וחולשות שונים, ולהדגיש שיש צורך באנשי מקצוע בתרגום ובמתורגמנות של העתיד”.

זה הציטוט במקור באנגלית:

Human translators and interpreters and those who seek to do these jobs in the future are increasingly facing concerns that they may lose their presence as AI-based automatic translating technologies have rapidly been improved,” IITA Secretary-General Kang Dae-young said. “Though the event may not completely dispel such worries, we hope to confirm that humans and machines have different strengths and weaknesses and highlight that human professionals will still have their roles in translation and interpretation of the future.

וזה תרגומו לעברית על ידי גוגל טרנסלייט:

האדם מתרגמים ומתורגמנים לבין מי שמבקשים לעשות עבודות אלה בעתיד יותר ויותר מול חששות כי הם עלולים לאבד את נוכחותם טכנולוגיות תרגום אוטומטי מבוססי AI במהירות שופרו,” אמר IITA מזכ”ל קאנג דיי-צעירים. “למרות שהאירוע לא לגמרי להפיג דאגות כאלה, אנחנו מקווים לאשר כי בני אדם ומכונה יש עוצמות וחולשות שונות ולהאיר כי מקצוע אנושי עדיין יהיה התפקידים שלהם בתרגום ופרשנות של העתיד.

אני מאחל הצלחה לשני הצדדים.


עורכת: אחינעם קפון; טכנאי: דור אבידן; מגיש: עידו קינן; תוכנית זו שודרה ב21/2/2017. רבע לדיגיטל משודרת מדי שלישי ב-18:45 בגלצ. ארכיון רבע לדיגיטל; רסס רבע לדיגיטל; פניות לתוכנית: reva@room404.net
27 Feb 02:45

Snow White has changed...

by Lydia Grant

25 Feb 18:48

Saturday Morning Breakfast Cereal - The Last Potion

by tech@thehiveworks.com


Click here to go see the bonus panel!

Hovertext:
Zach Weinersmith was known for his brilliant combinations of deep science, philosophy, mathematics, and literature.

New comic!
Today's News:

Big announcement Monday. Maybe the biggest of my life. Hope you geeks like it!

24 Feb 15:28

housekeeping tips for bachelors!! bachelors, pick a path through the debris on your living room floor to this comic and read it, it's really important!!

archive - contact - sexy exciting merchandise - search - about
← previous February 24th, 2017 next

February 24th, 2017: EXCITING JURY DUTY UPDATE: the trial was cancelled so even though I put on a cool shirt and cleaned up nice, I didn't get to hold even a single person's fate in my all-too-fallible hands!!

– Ryan

24 Feb 15:21

The Problem of the Lebanese Army

by Elliott Abrams

Should the United States be giving military assistance to the Lebanese Armed Forces (LAF)? According to the U.S. ambassador to Lebanon (speaking last summer),  “In this year alone we provided over $221 million in equipment and training to the Lebanese security forces.” That number presumably includes aid to Lebanon’s police and Internal Security Forces, but given the small size of the country it is a hefty sum.

Lebanon is a friendly country, an ally against jihadi groups like Al Qaeda and ISIS, and a sort of democracy. But it is also the home of the terrorist group Hezbollah, which largely dominates its politics and makes its democracy a sometime thing. It’s fair to say that nothing happens in Lebanon without Hezbollah’s approval, no matter how elections turn out.

Lebanon’s new president is legitimizing Hezbollah’s military role–which is independent from control by the Lebanese state (despite repeated UN Security Council resolutions demanding that there be no militias in Lebanon outside state control). The collaboration between Hezbollah and the LAF may be growing: a Times of Israel article on February 12 about the Lebanon/Israel border area said “On the Israeli side, officials are following, almost in astonishment, the deepening cooperation between the Lebanese army and Hezbollah.” Lebanese President Michel Aoun responded by saying of Hezbollah “As long as the Lebanese army is not strong enough to battle Israel … we feel the need for its existence.” When Israel’s UN envoy wrote to the UN Security Council about Hezbollah violations of resolutions concerning Lebanon, the response from Aoun’s office was “Any attempt to hurt Lebanese sovereignty or expose the Lebanese to danger will find the appropriate response.”

So, Aoun appears to be defining Hezbollah’s interests as Lebanon’s interests, and defining Hezbollah not as a militia whose existence clearly violates UN Security Council resolutions but rather as a necessary defense against Israel. In fact he said more: that Hezbollah is needed to “battle” Israel.

Such rhetoric may be dismissed as a price the Christian president must pay, if it is only rhetoric. More dangerous is the news that cooperation between Hezbollah and the Lebanese Army may be increasing. In this context, should U.S. aid to the LAF continue? I find it a difficult question. Stopping the aid might only further weaken the LAF, which is not under Hezbollah command–though it certainly refuses to confront the terrorist group. The commander of the LAF is always a Christian and the chief of staff is always a Druze, and the Global Security web site suggests that Shia Lebanese “comprise 25% of the enlisted ranks. At the same time, the Army was able to bring the Christians to 25% and the Sunni/Druze component to 50% of the enlisted ranks.”  It can be argued that weakening the LAF could further weaken non-Hezbollah influence in Lebanon.

If it is true that LAF-Hezbollah cooperation is increasing, the United States should demand that that trend be halted and reversed. It is one thing for the LAF to refuse to confront Hezbollah, and quite another to assist it in any way. Our aid should give us the leverage to achieve that much. My own bottom line for now is that we should not end aid to the LAF, but should make it very clear that this aid is in danger. Lebanese officials must come to realize that even if the withholding of aid weakens the LAF, that’s the inevitable outcome unless they keep farther away from Hezbollah than current trends appear to suggest.

22 Feb 17:49

Comic for 2017.02.22

New Cyanide and Happiness Comic
21 Feb 19:29

I’m Batman

by Doug
17 Feb 16:47

peer-reviewed fairy tales: jack and the beanstalk!

archive - contact - sexy exciting merchandise - search - about
← previous February 15th, 2017 next

February 15th, 2017: Thanks to everyone who came out to say hi on the West Coast! It was great doing events in cities I'd never done them in before, and so many people came by to say they'd been reading Dinosaur Comics for 10+ years. CRAZY. So I wanted to say "thank you, you are awesome" and also "wow I can't believe you've let me in your brain for so long, wait putting it that way sounds creepy, sorry".

– Ryan

14 Feb 14:56

Good for you Jeremy.

by Lydia Grant