← Computers & Automation

Natural Human Languages Automatically Translated by Computer the SYSTRAN II Syst

B
Bilinmeyen Yazar
1981 · Computers and Automation

David Burden
Kıdemli Başkan Yardımcısı
World Translation Co. of Canada, Ltd.
220 Laurier Ave. West, Suite 740
Ottawa, Ontario, Kanada K1P 5Z9

Doğal insan dillerinin çevirisi için bilgisayarların kullanımı uzun zamandır bir olasılık olarak görülmektedir. Erken dönemdeki coşkuya rağmen, etkili bilgisayar çevirisinin geliştirilmesi başlangıçta beklenenden çok daha uzun sürmüştür.

Bilgisayar Destekli Çeviri Artık Çalışıyor ...

En az bir böyle sistem artık mevcuttur ve dünyanın en büyük kuruluşlarından bazıları tarafından kullanılmaktadır. Ancak teknoloji hâlâ ilk aşamalarındadır ve yapılması gereken çok şey vardır. Bununla birlikte, ilk ticari kullanıcılar, ilk birkaç yıllık operasyonel kullanım ve işlenen ilk on milyonlarca kelime, bilgisayar destekli çevirinin çalıştığını göstermiş ve yapılması gereken çalışmaları açıkça tanımlamaya hizmet etmiştir.

Burada tanımlanan sistem olan SYSTRAN II, öncelikle büyük hacimli teknik metinlerin, genellikle İngilizce konuşulmayan ülkelere ihraç edilen ekipmanlara ait dokümantasyonun çevirisi için kullanılmaktadır. Başlıca kullanıcılar arasında Xerox Corporation, United States Air Force, General Motors Canada ve Commission of the European Communities yer almaktadır.

... Ancak Henüz Mükemmel Değil

SYSTRAN II’nin kusursuz bir çeviri üretmediği hemen belirtilmelidir; aslında, en azından yakın gelecekte, "kusursuz" makine çevirisinin mümkün olması pek olası değildir. Bununla birlikte sistem, hızla son biçimine revize edilebilen bir metin üretir. Bu metnin, bir insan çevirmenin hızının kat kat üzerinde bir hızda revize edilebilmesi; terminoloji tutarlılığı ve teknik verilerin doğruluğu gibi nitel avantajlarla birleştiğinde, SYSTRAN II kullanımının temel ekonomik avantajlarını ortaya koyar.

"Anlama"nın Karmaşıklığı

Bilgisayar çevirisinin temel güçlüğü, çeviri işlevinin son derece karmaşık olmasıyla ilişkilidir. Herhangi bir çeviri mekanizmasının başarımı, kaynak metnin mekanizma tarafından ne ölçüde "anlaşıldığı" ile doğrudan ilişkilidir. Yüksek derecede teknik metinler, uzman olmayan çevirmen için sıklıkla bu tür zorluklar oluştururken, bilgisayar çeviri sistemleri çoğu zaman herhangi bir tür metnin yetersiz bir "anlaşılması" nedeniyle engellenmiştir. Bunun nedeni, doğal dillerin büyük çeşitliliği ve bunları başarıyla "anlamak" için gereken bilginin çok büyük olmasıdır.

1975’teki Apollo-Soyuz ortak Rus ve Amerikan uzay görevi, İngilizce çözümleme mantığını geliştirmek için gerekli itici gücü (ve finansmanı) sağlamıştır.

SYSTRAN II’de benimsenen çözüm, büyük sözlükler ile dilbilgisel yapıları çözümlemek için son derece büyük ve karmaşık yazılım programları kullanılmasıdır. Sözlüklerin, yeterli sayıda kelime ve ifadeyi barındırabilmesi ve ayrıca her bir kelime ve ifade hakkında yeterli bilgiyi saklayabilmesi için büyük olması gerekir. Ne yazık ki, yaklaşık 1970’e kadar, gerekli bilgiyi depolayabilen ve gerekli mantığı yürütebilen bilgisayar sistemleri yaygın olarak mevcut değildi. Bu kısıt artık fiilen ortadan kalkmıştır ve önümüzdeki üç yıl içinde SYSTRAN II’nin küçük ofis ortamı birimlerinde ve hatta belki taşınabilir donanım üzerinde uygulanacağı kesin görünmektedir.

Günümüzde Mevcut Diğer Teknolojilere Olan Gereksinim

İkinci sorun, çevreleyici teknolojiyle ilgiliydi. Teknik yazım ve yayıncılık esas olarak manuel bir süreç olduğu ve elektrikli daktilo temel araç olduğu sürece, bilgisayar çevirisinin olanakları son derece sınırlıydı. Jet motoru modern hava taşımacılığı için vazgeçilmezdir; ancak gövde tasarımı, metalurji, haberleşme, seyrüsefer teknikleri vb. alanlarda paralel gelişmeler olmadan, uygulama alanları son derece sınırlı olurdu. Metnin yalnızca makine çevirisi için bir veri giriş sisteminde yeniden yazılması ve bilgisayardan alınan basılı çıktının düzenleme için tekrar yazılması gerektiği sürece, makine çevirisinin ekonomisi anlamlı değildi. Kelime işlem sistemlerinin ve bilgisayar destekli dizgi ile fotodizginin yaygın kullanımı bu güçlükleri ortadan kaldırmış ve hatta ek ekonomik avantajlar meydana getirmiştir.

Sıklıkla görüldüğü üzere, temel teknoloji (hesaplamalı dilbilim), onu işler hâle getirmek için gerekli olan teknolojiyle (kelime işlem ve bilgisayarlı yayıncılık) bağımsız ve paralel olarak gelişmiştir.

SYSTRAN II’nin Tarihçesi

SYSTRAN, Dr. Peter Toma’nın fikri ürünü ve yaşam boyu çalışmasıdır. Kendisinin bir düzine dili konuştuğu Dr. Toma, 1950’lerde hesaplamalı dilbilime ilgi duymaya başlamış ve Georgetown Üniversitesi’nde SERNA sisteminin geliştirilmesinde önemli rol oynamıştır. Bu sistem, 6 Haziran 1959’da Pentagon’da gösterilmiş ve daha önce görülmemiş 100.000’den fazla kelimelik Rusça metnin İngilizceye çevrilmesinde uygulanmıştır.

SERNA sistemi, çok daha ayrıntılı ve gelişmiş bir dilbilimsel çözümlemeye duyulan gereksinimi göstermiştir ve SYSTRAN II sisteminin, kendi başarımını iyileştirmede kullanılan temel araç olduğu gerçeği hâlen geçerlidir. Yalnızca büyük sözlükler, gelişmiş dilbilimsel çözümleme programları ve büyük hacimli metinlerle hesaplamalı dilbilimci kayda değer ilerleme sağlayabilir.

1965’te Dr. J. R. Pierce başkanlığındaki Otomatik Dil İşleme Danışma Komitesi’nin raporu, Amerika Birleşik Devletleri’nde makine çevirisi araştırmalarını önemli ölçüde azaltmıştır. Ancak Dr. Toma çalışmalarını Batı Almanya’da sürdürmüştür. Bununla birlikte bilgisayar çevirisine olan gereksinim artıyordu ve 1969’da SYSTRAN sisteminin ilk sürümü Amerika Birleşik Devletleri Hava Kuvvetleri için kurulmuştur. 1979’da Wright-Patterson Hava Kuvvetleri Üssü’ndeki bu kurulum, tek bir yılda 25 milyondan fazla kelimelik Rusçadan İngilizceye çeviri işlemiştir.

İngilizcenin Karmaşıklığı

Rusçadan İngilizceye çeviri elbette geniş bir ticari potansiyele sahip değildir; buna karşılık, İngilizcenin çözümlemesi — İngilizceden diğer dillere çevirinin temel bileşeni — son derece zordur. Kesin bir yapının olmaması ve özellikle çekimlerin (kelime sonları ve uyum) bulunmaması, İngilizceyi SYSTRAN için geliştirilen kaynak dil sistemleri (Rusça, İngilizce, Fransızca, Almanca ve Japonca) arasında açık ara en zor olanı yapmaktadır.

1975’teki Apollo-Soyuz ortak Rus ve Amerikan uzay görevi, İngilizce çözümleme mantığını geliştirmek için gerekli itici gücü (ve finansmanı) sağlamıştır. Bu proje için geliştirilen İngilizceden Rusçaya sistemin başarılı kullanımından sonra, diğer SYSTRAN hedef dil sistemleri hızla geliştirilmiştir. Daha sonra Kanada, Avrupa ve Japonya’ya yayılma ile birlikte yeni kaynak dil sistemleri kurulmuştur.

SYSTRAN II: Güncel Durum

SYSTRAN II’nin gelişim düzeyini "operasyonel" ve "geliştirilmiş" dil çiftleri açısından ifade ederiz. Operasyonel bir dil çifti, en az altı ay boyunca bir müşteri kuruluşta kurulmuş ve kullanımda olan bir çifttir. Geliştirilmiş bir dil çifti ise, temel sözlüklerle birlikte dilbilimsel çözümleme sistemlerinin geliştirilmiş olduğu bir çifttir.

Uygulama

SYSTRAN II sistemi, MVT veya MVS altında çalışan IBM 360/370 uyumlu bilgisayar sistemleri üzerinde uygulanmaktadır. Son gelişmeler, işletim sistemleri arasında ve IBM tak-uyumlu olmayan donanımlara taşınabilirliğe olanak tanımaktadır. Örneğin SYSTRAN sistemi, Münih’te küçük bir Siemens bilgisayarı üzerinde çalışmaktadır.

Programlar son derece büyük ve karmaşık olmasına rağmen (yaklaşık 500.000 makine komutuna yaklaşmaktadır), gerekli bilgisayar kaynakları görece sınırlıdır. Bir CPU saati (IBM 370/168), bir milyon kelimelik çeviri işlemesi için yeterlidir ve tüm sistem (yükleme kütüphaneleri, sözlükler, metin dosyaları) tek bir 3330 sürücüye (100 milyon karakter) rahatlıkla sığar.

Tablo 1 — SYSTRAN II’nin Gelişimi

A. Operasyonel Dil Çiftleri

  • Rusçadan İngilizceye
  • İngilizceden Fransızcaya
  • İngilizceden Portekizceye
  • Fransızcadan İngilizceye

B. Geliştirilmiş Dil Çiftleri

  • İngilizceden Almancaya
  • Almancadan İspanyolcaya
  • İngilizceden Rusçaya
  • İngilizceden İspanyolcaya
  • İngilizceden İtalyancaya
  • Almancadan İngilizceye
  • Almancadan Fransızcaya
  • İngilizceden Arapçaya

C. Geliştirilmekte Olan Dil Çiftleri

  • Japoncadan İngilizceye
  • İngilizceden Japoncaya

SYSTRAN Bileşenleri

Kaynak dilden hedef dile çeviri olan temel dilbilimsel işleme, üç ana bileşenden oluşan bir alt sistem tarafından gerçekleştirilir:

  • Kaynak dil ve hedef dil terimlerini, dilbilgisel ve anlamsal bilgilerle birlikte içeren bir sözlük. Sözlük, hem tekil kelimeleri hem de çok sözcüklü ifadeleri içerir;
  • Kaynak dil metnini çözümleyen ve kaynak dil cümle yapısının matematiksel bir gösterimini oluşturan bir sistem;
  • Çözümleme tarafından oluşturulan matematiksel gösterimi ve sözlükteki bilgileri kullanarak hedef dil metnini sentezleyen bir sistem.

Sözlük

Sözlük sürekli olarak genişletilmektedir ve bu işlem büyük ölçüde SYSTRAN II kullanıcılarının kendileri tarafından yapılmaktadır. Bir bilgisayar çeviri sistemi tasarlanırken, bilgi ile maliyet arasındaki ödünleşim dikkate alınmalıdır. İdeal olarak, sözlüğün güncellenmesinin kolay olması istenir. Ancak kaynak dili "anlama" (yani başarıyla çözümleme) süreci, dildeki her kelime hakkında büyük miktarda yapılandırılmış bilgiye sahip olmayı gerektirir. Yalnızca sözcük türü (isim, fiil, sıfat vb.) gibi temel olgular değil, aynı zamanda canlı/cansız, edat yönetimi, sayılabilir/sayılamaz gibi sözdizimsel ve anlamsal bilgiler de belirtilmelidir. Henüz, insan beyninin konuşmayı anlama sırasında sahip olduğu ve kullandığı kadar bilgiyi her kelime için depolamak mümkün değildir. Sözlükteki bilginin kapsamı, dilbilimsel çözümleme ve sentezin sınırlarını belirler.

Sözlük, kök kelimeleri, deyimleri ve çeşitli türlerde çok sözcüklü ifadeleri içerir.

Ortalama olarak, SYSTRAN sözlükleri her kelime için 150 bayt içerir; birçok farklı kullanım ve anlama sahip karmaşık kelimeler için ise 1.000 bayttan fazla bilgi depolanır.

Sözlük oluşturma sürecini desteklemek için eksiksiz bir bakım ve erişim programları takımı geliştirilmiştir. İngilizce–Fransızca sözlük artık 120.000’den fazla girişe sahipken, Rusça–İngilizce sözlük 500.000’den fazla giriş içermektedir.

Çözümleme

Kaynak dil çözümleme programları, özellikle İngilizce için, sistemin açık ara en zor ve en karmaşık bölümüdür. Bu programlar sezgiseldir ve doğal bir dilin saf karmaşıklığını ve çeşitliliğini yansıtır.

Çözümleme programları, cümle yapısının bir gösterimini yönlendirilmiş bir grafik biçiminde kurar (bilgisayarda, Çözümleme Alanı olarak bilinen bir matris şeklinde uygulanır). Eşsesli kelimeler ayırt edilir ve cümlenin anlamını tanımlayan ilişkiler kurulur. Yan cümle yapısı, özne ve yüklemler, sıfat ve zarf niteleyicileri, fiil zamanı, fiil kipi ve diğer temel öğeler tanımlanır ve Çözümleme Alanı’nda saklanır.

Sentez

Çözümleme Alanı tamamlandıktan sonra, çeviri süreci (hedef dilin sentezi) başlayabilir. Doğru anlamlar seçilir, kelimeler doğru sıraya yerleştirilir ve fiiller ile özneler, isimler ile sıfatlar vb. arasındaki uygun uyumu yansıtacak şekilde kelime sonları belirlenir.

Bazı durumlarda sistem, edilgenden dönüşlü yapıya geçiş gibi gelişmiş dönüşümler gerçekleştirir:

Örneğin:
This word is translated differently
Ce mot se traduit autrement

Dilbilimsel Programlama Dili

SYSTRAN’daki önemli erken gelişmelerden biri, Linguistic Programming Language olarak bilinen, dilbilimsel programlama için özel bir dilin tanımlanmasıdır; bu, programlama deneyimi az olan hesaplamalı dilbilimcilerin, aracı programcılar olmaksızın sistemin geliştirilmesine katkıda bulunmasına olanak sağlamıştır.

Bir diğer önemli gelişme ise, dilbilimsel kuralların iki genel gruba ayrılabileceğinin fark edilmesidir:

  • Belirli bir dil için genel olarak geçerli olan temel dilbilgisi kuralları; bunlar Dilbilimsel Programlar içine yerleştirilmiştir.
  • Belirli kelime ve ifadelerin kullanımına uygulanan özgül kurallar.

Özgül Kelimelerin Kullanımı

Bu ikinci kategori son derece fazladır ve dilbilimsel programların kendisinde uygulanması aşırı derecede maliyetli olurdu. Bu nedenle, bu tür kuralların sözlükte — "yorumlanan" bir mantık dili biçiminde — uygulanmasına olanak tanıyan bir mekanizma geliştirilmiştir. Bu tür bir kurala iyi bir örnek, "to go out" fiilinin ele alınışıdır.

İngilizce Fransızca
The man goes out (sortir)
The light goes out (s'éteindre)
The brake system goes out (tomber en panne)

Burada ayrımın, kaynak dilde fiilin farklı kullanımlarında yattığını görebiliriz. Fiilin öznesinin anlamsal kategorisine göre doğru anlamı seçmek üzere sözlüğe bir kural yerleştirilmiştir.

Gerçek Dünya Bilgisi

Bu tür bir kuralın, kaynak dilin dilbilimsel çözümlemesine bağlı olduğu unutulmamalıdır. Sistem fiilin öznesini doğru şekilde tanımlayamazsa (ki bu, fiilden hemen önce gelen isim öbeği olmak zorunda değildir), kural çalışamaz.

Dilbilimsel işleme sistemi, dilbilgisel yapıların çoğunun çözümlemesine ve belirsizliklerin ve kullanım sorularının büyük kısmının giderilmesine olanak tanır. SYSTRAN II’nin sınırları, bir cümleyi çözümlemek için gerçek dünyaya ilişkin kapsamlı yapısal bilginin gerekli olduğu noktalarda ortaya çıkar.

Örneğin, şu cümleler:

  • The man paddles down the river in the canoe.
  • The man paddles down the river in the West of Canada.

ancak nehirlerin, kanoların ve ülkelerin göreli büyüklükleri hakkında bir miktar kavrayışla başarıyla çözümlenebilir.

Bu nedenle SYSTRAN II, ne kaynak dilin kusursuz bir çözümlemesi ne de hedef dilin kusursuz bir üslup kullanımı açısından mükemmel bir çeviri yapmayı amaçlamaz. Bununla birlikte, çoğu durumda doğru ve iyi biçimlendirilmiş cümleler ve aynı özgün metin üzerinde tek başına çalışan bir insan çevirmenin hızından üç ila altı kat daha hızlı bir hızda revize edilebilen bir metin üretir.

SYSTRAN II’nin Davranışına İlişkin Örnekler

SYSTRAN II çıktısının, revize edilmemiş bir örneği Tablo 2 ve 3’te gösterilmektedir.

Tablo 2: SYSTRAN – Örnek Çeviriler

14 İngilizce İfade

  • The cat sits on the mat.
  • The black cat sat on the green mat.
  • The engine sits on the mounting brackets.
  • This will make a delay necessary.
  • Ship sinks today.
  • This makes many changes necessary.
  • The lamp goes out.
  • The lamp will go out.
  • The lamp went out.
  • The mechanic goes out.
  • The brake system goes out.
  • The brake system should go out.
  • The sound was heard immediately.
  • The word is translated differently.

14 Karşılık Gelen Fransızca İfade

  • Le chat s'assied sur le tapis.
  • Le chat noir s'est assis sur le tapis vert.
  • Le moteur repose sur les supports de montage.
  • Ceci imposera un retard.
  • Le vaisseau coule aujourd'hui.
  • Ceci impose plusieurs changements.
  • La lampe s'éteint.
  • La lampe s'éteindra.
  • La lampe s'est éteinte.
  • Le mécanicien sort.
  • Le système de freins tombe en panne.
  • Le système de freins devrait tomber en panne.
  • On a entendu immédiatement le bruit.
  • Le mot se traduit autrement.

Tablo 3

SYSTRAN İngilizce Metni

Yönlendirme

Makine eklemlidir ve yönlendirme, ana çerçeveleri orta menteşede döndüren hidrolik güçle sağlanır. İstenen dönüş açısına ulaşılana kadar direksiyon simidini çevirin. Hidrolik güç, direksiyon simidi tekrar çevrilene kadar dönüş açısını tutar.

Yerden Tahrikli Yönlendirme (Destekleniyorsa)

Hidrolik basınçta bir düşüş olursa, gösterge panelindeki yerden tahrikli yönlendirme uyarı lambası yanıp sönmeye başlar. Lamba yanıp sönerken, yerden tahrikli pompalar yönlendirme için hidrolik basıncı sağlamaktadır.

Karşılık Gelen Fransızca Metin

Direction

Makine mafsallıdır ve yönlendirme, merkezi menteşedeki merkezi üniteleri döndüren hidrolik güç ile sağlanır. Dönüşün istenen açısına ulaşıncaya kadar direksiyonu çevirin. Hidrolik güç, direksiyon yeniden çevrilinceye kadar dönüş açısını sabitler.

Araç hareketiyle tahrik edilen servo-direksiyon (destekleniyorsa)

Hidrolik basınçta bir düşüş olması halinde, gösterge panelindeki araç hareketiyle tahrik edilen servo-direksiyon uyarı lambası aralıklı olarak yanıp söner. Gösterge yanıp sönerken, araç hareketiyle tahrik edilen pompalar direksiyon için gerekli hidrolik basıncı sağlar.

SYSTRAN II Dışındaki Bilgisayar Çeviri Sistemleri

Bu makale, hesaplamalı dilbilim alanındaki en ileri durumun kapsamlı bir raporu olmayı amaçlamamaktadır. Bununla birlikte, okuyucunun dikkatini l'Université de Montréal, Brigham Young University ve l'Université de Grenoble'de yürütülen mükemmel kuramsal çalışmalara çekmek mümkündür. Ticari alanda ise, Weidner Communications Inc. tarafından kelime işlem teknikleri, mini-bilgisayar teknolojisi ve hesaplamalı dilbilimin başarılı biçimde birleştirilmesine ve aslen İngilizceden Vietnamcaya yönelik olarak geliştirilen LOGOS sistemine dikkat edilmelidir.

Makine çevirisi alanına sokulan talihsiz kavramlardan biri "Nesiller" kavramıdır. Bu terim, bazı yazarlar tarafından bilgisayar donanımı endüstrisinden ödünç alınmıştır. Kullanılan yaklaşıma göre çeşitli sistemleri sınıflandırmaya çalışır. Yazılımın temel esnekliğini ve bir sistemin yalnızca pratik deneyim, sorunların ortadan kaldırılması ve yeni çözümlerin aranması yoluyla geliştirilebildiği temel gerçeğini göz ardı eder. Sözde birinci nesil sistemler, birçoğu birkaç kez yeniden tasarlanıp yeniden yazılmış olmasına rağmen, salt deneyim sayesinde gelişmiş ve son derece karmaşık hale gelmiş, çoğu zaman her sürümde yeni dilbilimsel ilerlemeleri bünyesine katmıştır.

Bilgisayar çevirisi sorununa yönelik bir sihirli çözüm var gibi görünmemektedir — problemi tek hamlede çözecek yeni bir kuram ya da algoritma yoktur. Çözüm, zorlu ve titiz bir çalışmadır; doğal insan dillerinin esnekliğini, çeşitliliğini ve mantık dışılığını dikkate alan sistemlerin kademeli olarak oluşturulmasıdır.

Gelecekteki Gelişmeler

Mevcut dil çiftlerinin çeşitliliği, SYSTRAN II tasarımının çoğu dil için etkili olmasını muhtemel kılmaktadır. Yeni hedef diller nispeten hızlı biçimde eklenecek, büyük ölçekli finansman sağlandığında ise yeni kaynak diller geliştirilecektir. İşletimde olan dil çiftleri için sözlükler büyüyecek ve giderek daha kapsamlı hale gelecektir.

Çevrilen her bir sözcük için ortalama 3000 makine komutu yürütülmektedir — dolayısıyla gerçek zamanlı makine çevirisi küçük donanımlar üzerinde açıkça uygulanabilirdir ve belki de daha da önemlisi, SYSTRAN II; kelime işlem, optik karakter tarama ve yüksek kaliteli baskıyı içeren küçük bir ofis sistemi üzerinde uygulanabilir.

Yakın vadede ticari değeri görmek zor olsa da, SYSTRAN II çıktısı mevcut ses sentezi donanımlarına beslenebilir; böylece basılı girdi metninin otomatik, sözlü bir çevirisi elde edilir.


Geleceğin Bell Telefon Sistemi'nin Birinci Yılı: 1980

Burden — Sayfa 15’ten Devam

Ancak bir uyarı sözü. Bu makalenin başında belirtildiği gibi, teknolojinin sınırlarını yineliyoruz: SYSTRAN II "mükemmel" bir makine çevirisi üretmeyecektir. %100 güvenilir, olgusal bir çeviri elde edebilmek için bile konuşma ve zekâ anlayışımızda çok önemli ilerlemeler gerekecektir. Üslubun ince noktaları ve kültürler arası aktarım ise, anlaşılan, her zaman insan çevirmenin alanı olarak kalacaktır.

Buna rağmen mevcut sistem, büyük hacimli teknik dokümantasyonun çevirisini ekonomik olarak uygulanabilir kılmaktadır. Yabancı dilde (yani İngilizce) dokümantasyonun kabulünün azaldığı ve özellikle Japonya başta olmak üzere bazı ülkelerin teknik bilgiyi müşterinin dilinde sunmaya hazır olduğu bir dünyada, SYSTRAN II ihracat endüstrileri için önemli bir ilgi konusudur.