← Computers & Automation

Machine Translation and General Purpose Computers

B
Bilinmeyen Yazar
1960 · Computers and Automation

Makine Çevirisi ve Genel Amaçlı Bilgisayarlar

B. D. Blickstein
C-E-I-R, Inc.
Arlington, Va.

(2–5 Şubat 1960 tarihlerinde Los Angeles, Calif.’te düzenlenen Ulusal Makine Çevirisi Sempozyumu’nda sunulan bir rapora dayanmaktadır)

C-E-I-R olarak, Mayıs 1958’den bu yana makine çevirisi alanına aktif ilgi göstermekteyiz. Bu süre boyunca IBM 704 üzerinde bir çeviri sistemi programladık ve hâlihazırda 7090 için bir sistemin tasarımıyla uğraşmaktayız. (1) üzerinde çalışılmış metin, (2) Rand Corporation tarafından hazırlanmış bilinmeyen rastgele metin ve (3) Pravda siyasi metni dâhil olmak üzere, çeşitli türlerde Rusça metinlerin Rusçadan İngilizceye çevirilerini yaptık. Bu raporda, makine çevirisi alanı, bilgisayar seçimine ilişkin tartışmalar, özel çeviri makinelerinin tasarımı ve ideal sözlük aygıtı için gereksinimler hakkında bazı gözlemler sunuyoruz.

Bazı argümanları özetleyecek ve çeviri çalışmaları için mevcut donanım hakkında bazı sonuçlara ulaşmaya çalışacağız.

Dil Çevirisi Sürecinin Doğası

Makine çevirisi sürecinin dayattığı donanım sınırlamalarını tartışabilmek için, bir dilden diğerine çeviri sürecinin doğasını dikkatle ele almak gerekir. Bilgi akışının kendisi seri yapıdadır; yani metin, doğal sırasıyla bilgisayardan geçer ve dolayısıyla bu sırayla işlenir. Çeviri yönteminin bir işlevi, metin üzerinden kaç toplam geçiş yapılması gerektiğini belirlemektir ve bu sayı, kullanılacak donanım türünün seçiminde önemli bir parametredir.

Metnin her geçişinde ele alınan bilgi farklıdır; ilk geçiş, giriş metninin makine tarafından tanınabilir bir biçime dönüştürülmesinden oluşur ve son geçiş, bilgisayardan bir yazdırma aygıtına hedef dilde (ya da nesne dilde) metin çıkışı sağlar. Ara geçişler; metni sözlüklerle ilişkilendirmeye, temel sözcük ve ifade anlamlarını işlemeye ve sözdizimsel yeniden düzenleme yapmaya hizmet eder. İşlemcinin dilbilimsel görevleri birbirinden ayrılabilir ve bağımsız olarak yerine getirilebilir olduğundan, tüm sistemin programını, her biri metin üzerinden bir geçiş gerektiren alt programlara bölmek mümkündür.

Bu tür seri, çok geçişli bir örgütlenme sistemi, belirsiz uzunluktaki metinlerin sürekli olarak işlenmesine olanak tanır. Aynı tür bir yöntem bordro ya da muhasebe işlerinde de izlenir. Muhasebe ve çeviri prosedürleri arasında belirgin farklar vardır, ancak veri akışı benzerdir ve genel olarak dil çevirisi, veri işleme alanına, daha önce büyük ölçüde başarıyla ele alınmış birçok probleme benzer sorunlar sunar.

Bir Bordro Programı ile Karşılaştırma

Bir bordro programı durumunda, giriş verileri bir çalışanın kimliğini ve çalıştığı saat sayısını belirten bilgileri içerir. İsim anahtar olarak kullanılarak bir ana dosya sorgulanır ve saatlik ücret ya da soyut bir ücret sınıflandırması elde edilir. Bu ana dosya bilgisinden hareketle program, çeşitli aritmetik ve mantıksal adımlarla çalışana ödenecek maaşı belirlemeli, çeşitli kesintileri düşmeli ve sonunda bir çek yazdırmalıdır. Ana dosya sorgulanıp bilgi çıkarıldıktan sonra, çalışanın adının sonraki işlem prosedürü üzerinde hiçbir etkisi olmadığı görülecektir.

Benzer biçimde, çeviri amacıyla kaynak dildeki sözcük, sözlük referansı yapıldıktan sonra tamamen göz ardı edilebilir; eğer çeviri, hedef dilin biçimine yönelik mantıksal bir aktarım olarak çözümlenebiliyorsa.

Georgetown Üniversitesi’nden eski Miss Ariadne Lukjanow

Rusça Metin

Научная реакция между этиловыми эфирами пирокатехин-фосфористой кислоты и триарилбромметанами.

При взаимодействии указанных соединений образуются пирокатехиновые эфиры триарилметилфосфиновых кислот.

При омылении последних слабой соляной кислотой получены пирокатехин и триарилметилфосфиновая кислота.

В настоящем исследовании нами изучались реакции между смешанными эфирами фосфористой кислоты типа АВ … и триарилбромметанами.

Реакция между этилпирокатехиновым эфиром фосфористой кислоты и триарилбромметанами по аналогии с алкилфосфористыми эфирами должна идти по реакции: …

Экспериментальные данные показали, что реакция действительно протекает по указанному уравнению.

Так, например, при нагревании смеси триарилбромметана и этилпирокатехинового эфира фосфористой кислоты происходит выделение бромистого этила и образование кристаллического вещества.

Для установления строения полученного соединения была проведена реакция омыления разбавленной соляной кислотой при нагревании от 180 до 200° в запаянных трубках.

Продуктами омыления являются пирокатехин и триарилметилфосфиновая кислота.

Полученные нами эфиры типа … весьма устойчивы к влаге воздуха.

Şekil 1 — Genel Kimya Dergisi’nden, cilt XXII, no. 9, 1952, çevrilecek bir Rusça metin sayfası.

Computers and Automation, Nisan 1960

Şekil 1’de Gösterilen Rusça Metnin Makine Çevirisi Sonucu

Triarilbromometanların fosforöz asidin alkilpirokatekol esterleri üzerindeki etkisine ilişkin.

Pirokatekol-fosforöz asidin etil esteri ile triarilbromometanlar arasındaki reaksiyonlar incelenmiştir.

Yukarıda belirtilen bileşiklerin etkileşimi sonucunda, triarilmetilfosfinik asitlerin pirokatekol esterleri oluşmaktadır.

Bunların seyreltik hidroklorik asitle hidrolizi sonucunda pirokatekol ve triarilmetilfosfinik asit elde edilmiştir.

Bu çalışmada, fosforöz asidin … tipindeki karışık esterleri ile triarilbromometanlar arasındaki reaksiyonlar tarafımızdan incelenmiştir.

Fosforöz asidin etilpirokatekol esteri ile triarilbromometanlar arasındaki reaksiyon, alkilfosforöz esterlerle benzerlik kurularak, şu reaksiyona göre ilerlemelidir: …

Deneysel veriler, reaksiyonun gerçekten de yukarıda belirtilen denkleme göre gerçekleştiğini göstermiştir.

Örneğin, triarilbromometan ile fosforöz asidin etilpirokatekol esterinden oluşan bir karışım ısıtıldığında, etil bromürün açığa çıkması ve triarilmetilfosfinik asidin pirokatekol esteri olan kristal bir maddenin oluşumu gözlenir.

Elde edilen bileşiğin yapısını belirlemek amacıyla, seyreltik hidroklorik asitle 180 ile 200° arasında ısıtılarak, kapatılmış tüplerde bir hidroliz reaksiyonu gerçekleştirilmiştir.

Hidroliz ürünleri pirokatekol ve triarilmetilfosfinik asittir.

Tarafımızdan elde edilen … tipindeki esterler, havanın nemine karşı son derece dayanıklıdır.

Şu anda C-E-I-R’de Makine Çevirisi Bölümü başkanı olan Miss Ariadne Lukjanow, Birleşik Aktarım Sistemi adı verilen bir çeviri yöntemine ilişkin raporunda, böyle bir sürecin belirli bir hedef dile bile bağımlı olmaktan çıkarılabileceğini göstermiştir. Ortaya çıkan çeviri algoritması; kararlar, dallanmalar, seçimler ve sayısal kodların Boolean türü eşleştirmelerini içeren mantıksal bir süreçtir.

Böylesine soyut bir sistem, kuşkusuz makineden bağımsızdır. Algoritmayı uygulayan makineye ya da kişiye tamamen kayıtsızdır.

Donanım Seçimi

Bununla birlikte, ilgili işlemlerin doğası, işletme ekonomisi ve programlama kolaylığı açısından donanım seçimine belirli kısıtlar getirdiğini göstermektedir. Bu değerlendirmelerin muhtemelen en büyüğü, kesinlikle vazgeçilmez bir görev olan sözlük arama sürecinin dayattığı kısıttır. Birçok üretici ve araştırma grubu bu konu üzerinde yoğun biçimde düşünmüş ve çok sayıda farklı olası sonuca ulaşılmıştır. Biz, tartışmayı iki temel seçeneğe indirerek sorunu çözmeye çalışacağız.

Computers and Automation, Nisan 1960

Çeviri, bilgisayara çok geçişli seri bir veri işleme işi olarak göründüğünden, işi verimli biçimde yapacak bir makinenin yüksek hızlı seri türde giriş/çıkış olanaklarını işlemesi gerekir. Şu ana kadar bilgisayar teknolojisi bize bu türden yalnızca tek bir olanak sunmuştur: yüksek hızlı manyetik bant. Bilgisayar donanımı ailesinin denenmiş ve güvenilir bir üyesi olan manyetik bant; hızlı, güvenilir, görece ucuz ve yeniden kullanılabilirdir. Giriş/çıkış ortamı olarak hizmet etmenin yanı sıra, bilgisayar için yardımcı depolama olarak da iyi bir iş görür ve özellikle seri işlemeye uygundur. Başlıca dezavantajı, rastgele erişimli bir depolama türü olmamasıdır; ancak bu dezavantaj, bilgi dosyalarına yapılacak başvuruların önceden sıralanmasıyla, hızlı seri erişimin mümkün kılınması yoluyla kısmen aşılabilir.

Bant İşlemlerinin Hızının Artırılması

Son zamanlarda hem bant birimlerinin hızının artırılmasında hem de bant-bilgisayar işlemlerinin gerçek eşzamanlılığının sağlanmasında büyük ilerlemeler kaydedilmiştir. Ticari olarak temin edilebilen bazı donanımlarda, bilgisayarın bağımsız mantıksal işlemler yapmasına izin verirken aynı anda sekiz bandın kullanılması artık mümkündür. Bu tür ilerlemelerin değeri öncelikle işletme hızında kendini gösterir. Örneğin, 704 üzerinde saatte yaklaşık 5.000 sözcük çeviren bir süreç, 709 üzerinde aynı sürede 15.000 sözcük üretebilmektedir.

Bir Sözlükte Arama Sorunu

Bant işlemlerindeki bu iyileşme, en büyük etkisini sözlük arama probleminde gösterir. Manyetik bant doğası gereği seri olduğundan, sözlük araması verimlilik adına aşağıdaki şekilde gerçekleştirilmelidir:

  1. Bant sözlüğü sıralanmalıdır.
  2. Metin, sözlükle aynı sıralamaya tabi tutulmalıdır.
  3. İki bant birbiriyle eşleştirilmeli, metne karşılık gelen girdiler çıkarılmalı ve kaynak dili içermeyen üçüncü bir bant oluşturulmalıdır.
  4. Bu üçüncü bant, metin sırası düzenine geri dönecek şekilde yeniden sıralanmalıdır.

Bant işlemlerindeki eşzamanlılık özelliği, bu sırala–eşleştir–sırala sürecinin önemli ölçüde hızlandırılmasına olanak tanımaktadır. Hatta bu durum, büyük bant sözlüklerinin ekonomik olarak uygulanabilir olmasını sağlayacaktır. Ayrıca bu özellik, işletme süresinde artış olmaksızın birden çok teknik sözlüğün taranmasına izin verir.

Rastgele Erişimli Bellek

Bu tür bir sözlük arama prosedürüne yönelik tek pratik alternatif, yüksek rastgele erişim hızına sahip ve tüm bir sözlüğü aynı anda depolayabilen, herhangi bir girdiye eşit erişim sunan bir bellek aygıtıdır. Miss Lukjanow tarafından önerilen bir sistemde, her bir toplam sözlük girdisinin ortalama 20 makine sözcüğü depolama gerektirmesi öngörülmektedir; dolayısıyla 50.000 girdilik bir sözlük, 1 milyon sözcük depolama gerektirecektir.

Bantlı bir 7090 üzerinden saatte en az 100.000 sözcüğün çevrilebileceği tahmin edilmektedir; buna karşılık gelen bir rastgele erişimli belleğin, işlem süresi hariç tutulmak üzere, tüm bir girdi için ortalama 36 milisaniyelik bir erişim süresine sahip olması gerekir. Buna göre, depolamadan iletim hızının sözcük başına yaklaşık 1,8 mikrosaniye mertebesinde olması gerekir. Bu, geçmişte manyetik disk türü birimler için mevcut olandan oldukça daha hızlı bir erişimdir. Sonuç olarak, günümüzde mevcut en iyi sözlük ortamı olarak manyetik bandı seçmeye yöneliyoruz.

Bununla birlikte, yakın gelecekte bu süreyi karşılayan ve hatta aşan disk dosyalarının ortaya çıkması beklenmektedir. STRETCH disk dosyası, sözcük başına yaklaşık 4 mikrosaniyelik bir erişim süresine sahip olacaktır; ancak bu, diskte uygun iz yolunun bulunmuş olduğunu varsayar; bu işlem 87 milisaniyeye kadar sürebilir. Gerçekte, bu kayıp konumlandırma süresinin büyük bir bölümü, uygun tamponlama ve işlemenin arama ile iç içe yürütülmesi yoluyla geri kazanılabilir.

Mevcut Bilgisayarların Dil Çevirisine Uygunluğu

Yanıtlamaya çalıştığımız sorulardan biri, mevcut makinelerin sayısal materyal üzerindeki işlemlerden ziyade dilsel materyalin gereksinimlerini karşılayacak biçimde tasarlanıp tasarlanmadığıdır. Örnek olarak IBM 700/7000 serisinin gelişim zincirini kullanmak istiyorum. Bu grubun ilki 701’di. Bu makine temel aritmetik komutları içeriyor ve bunun dışında çok az şey sunuyordu. Kısa süre sonra, indeksleme özellikleri ve bazı mantıksal işlemler ekleyen 704 geldi. 709, altı kanallı giriş/çıkış, dolaylı adresleme ve 20’den fazla mantık işlemini kapsayan bir aile sağladı. 7090 ise 709’un iç hızını beş kat, bant hızını dört buçuk kat artırdı ve kanal kapasitesini sekize çıkardı.

701’den 7090’a kadar olan sürecin net etkisi, aritmetik olanakların iyileştirilmesinden ziyade mantıksal ve bilgi işleme yeteneklerinin uygulanması olmuştur; sonuç, veri işleme uygulamalarını ele almada sayısal manipülasyonda olduğu kadar becerikli bilgisayarlardan oluşmaktadır. Bilgisayar kullanıcıları arasında, genel amaçlı makinenin kapsam olarak da adı kadar genel amaçlı hâle geldiğine dair bol miktarda kanıt bulunmaktadır. Ayrıca, birçok uygulamadaki bilginin alfabetik ya da ondalık olmasına karşın, ikili makinenin daha yüksek iç hızları sayesinde ondalık karşılığına göre daha verimli olduğunu kanıtladığı da açıkça görülmüştür. Aslında “bilgisayar” terimi, daha uygun olan “elektronik veri işleme makinesi” terimiyle hızla yer değiştirmektedir.

Dil Çevirisi İçin İşlemler

Çeviri yapmak için gereken işlemler temelde mantıksaldır; mantıksal “ve”, “veya”, eşitlik testleri ve karar dallanmasından oluşur. Son zamanlarda manyetik disk dosya belleklerini kullanabilecek bazı ikili makineler duyurulmuştur. 7090 hâlihazırda sınırlı bir disk dosyasıyla sunulmaktadır ve daha önce belirttiğimiz gibi yakında çıkacak olan STRETCH, son derece yüksek kapasite ve erişim hızına sahip bir disk dosyasıyla donatılacaktır.

Mevcut Hızlı Genel Amaçlı Bilgisayarlar

Daha önce birkaç genel amaçlı bilgisayardan söz ettik; tamlık sağlamak adına, bu genel amaçlı makinelerin bir kısmının kısa bir özetini vermek istiyoruz.

İkili tip makinelere olan tercihe rağmen, günümüzde piyasada dikkate değer bazı görece yeni ve büyük ölçekli ondalık modeller bulunmaktadır. Univac LARC, Datatron 220 ve IBM 7070, sınıfları için son derece yüksek hızlara sahip makinelerdir ve hepsi mantıksal türde komutlardan oluşan bir küme ile donatılmıştır. 7070 için disk dosyaları mevcuttur ve her üçü de yüksek hızlı bant üniteleriyle donatılmıştır.

İkili makineler arasında iki temel grup vardır: vakum tüplü devreye sahip olanlar ve transistör mantığı kullananlar. İlk grupta IBM 704 ve 709 yer alır; ikincisinde ise vakum tüplü hızların yaklaşık 5 katı çalışma hızları sergileyen Honeywell 800, CDC 1604, IBM 7090 ve Transac S-2000 bulunmaktadır. Transistörlü grubun, çeviri için en iyi ekonomik seçeneği sunduğuna inanıyorum; çünkü bu hızlar, vakum tüplü türlere kıyasla yalnızca yaklaşık %50’lik bir maliyet artışıyla elde edilmekte ve çeviri başına her bir sözcük için toplam maliyette yaklaşık %70’lik bir azalma sağlamaktadır.

Saatte Üç Milyon Sözcük Çevrildi

STRETCH adı verilen makine, IBM tarafından Los Alamos Laboratory için tasarlanmakta olan bir bilgisayardır; elektronik ve mantıksal açıdan kelimenin tam anlamıyla geleceğe doğru bir “uzanma”dır. İç çalışma hızları 704’tekilerin yaklaşık 100 katıdır ve mantıksal tasarım ile eşzamansız komut yapısında yapılan ilerlemeler, gereken komut adımı sayısında %20’lik bir azalmaya olanak tanıyacaktır.

Makine, her biri 4 milyondan fazla sözcük kapasitesine sahip en fazla 32 disk dosyasını işleyebilecektir; bu da toplamda 130 milyondan fazla sözcüklük bir disk dosyası kapasitesi anlamına gelir. Saniyede 10.000’den fazla sözcük aktarım hızına sahip yüksek hızlı manyetik bantlar, makineyle ve birbirleriyle paralel olarak çalışacak ve 262.000 adet 64 bitlik sözcüğe kadar ana manyetik çekirdek bellek kullanılabilir olacaktır.

Yaklaşık %50’lik bir çeviri hızı artışı sağlayan bant sözlük aramasının ortadan kaldırılması ve buna eşlik eden iç hız artışı sayesinde, Miss Lukjanow tarafından önerilen çeviri sisteminin saatte yaklaşık 3 milyon sözcük civarında bir çeviri hızıyla uygulanabileceği görülmektedir.

Özel Amaçlı Çeviri Makineleri

Özel amaçlı çeviri makineleri üzerine çok sayıda tartışma yapılmıştır. Son birkaç yıl içinde çeşitli tasarımlar ortaya atılmış ve bazıları gerçekten üretilmiştir. Bilgisayar teknolojisinin ve dil yöntemlerindeki ilerlemelerin her ikisine de özgü olan hızlı eskime dikkate alındığında, bunun tehlikeleri açıktır.

Buna karşılık, genel amaçlı makine kullanıcısı donanımını üreticiden kiralayabilir; böylece yüksek maliyetli bir başlangıç yatırımından kaçınır. Ayrıca her zaman en yeni ve en verimli ekipmandan yararlanma olanağına sahiptir. Bu nedenle, yalnızca genel amaçlı makineler için sistemler geliştirmeye karar verdik.

C-E-I-R’in politikası, her zaman mevcut olan en yeni ve en hızlı makineyi kullanarak ilerlemektir; şu an için bu 7090’dır; gelecekteki çalışmalarımız STRETCH sınıfı makineler için planlanacaktır. Yalnızca bu yolla makine çevirisinin ekonomik olarak uygulanabilir ve teknik olarak çalışabilir hâle getirilebileceğine inanıyoruz.


COMPUTERS and AUTOMATION, Nisan 1960