← Computers & Automation

Machine Translation in the Soviet Union

B
Bilinmeyen Yazar
1959 · Computers and Automation

I. A. Melchuk
Moskova, SSCB.

(Vestnik Akademii Nauk U.S.S.R., No. 2, 1959’dan yapılan bir çeviriye dayanmaktadır)

Ülkemizde makine çevirisi üzerindeki çalışmalar 1955 yılında, Hassas Mekanik ve Hesaplama Teknikleri Enstitüsü ile SSCB Bilimler Akademisi V. A. Steklov Matematik Enstitüsü’nde başladı. Daha sonra SSCB Bilimler Akademisi Dilbilim Enstitüsü; makine çevirisi laboratuvarı kuran Leningrad Üniversitesi; Ermenistan Sovyet Sosyalist Cumhuriyeti Bilimler Akademisi Hesaplama Merkezi; Gürcistan Sovyet Sosyalist Cumhuriyeti Bilimler Akademisi Elektronik, Otomasyon ve Telemetri Enstitüsü ve diğer kurumlar bu çalışmalara katıldı.

“Algoritmalar”ın Derlenmesi

İlk aşamada çalışmalar, esas olarak makine çevirisinin sözde algoritmalarının derlenmesinden oluşuyordu.

Bir makinenin bir metni bir dilden diğerine çevirebilmesi için, gerekli tüm işlemlerin özel bir kural kümesi olarak verilmesi gerekir. Bu kurallar kesin biçimde formüle edilmiş ve tamamen açık olmalı; mekanik olarak uygulanabilir olmalı; ve tüm olası durumları kapsayan, mantıksal olarak tutarlı bir sistem oluşturmalıdır.

1955–1957 yıllarında bir dizi algoritma derlendi: bir Fransızca–Rusça, iki İngilizce–Rusça, bir Çince–Rusça, bir Almanca–Rusça, bir Japonca–Rusça ve bir Macarca–Rusça. Fransızca–Rusça ve İngilizce–Rusça algoritmalardan biri programlandı ve bilgisayarlarda denendi; yani Fransızca ve İngilizce bilimsel (matematiksel) metinlerden Rusçaya çeviriler yapıldı. Diğer algoritmalar programlama aşamasındadır.

Günümüzde makine çevirisi üzerindeki çalışmalar aşağıdaki üç ana doğrultuda sürdürülmektedir:

  1. En iyisini seçmek amacıyla makine çevirisinin olası yollarının araştırılması.
  2. Matematikçiler ile dilbilimcilerin yakın işbirliği içinde, dil betimlemesine yönelik kesin (öncelikle matematiksel) yöntemlerin geliştirilmesi.
  3. Makine çevirisi ile dilbilimin diğer pratik uygulamaları arasındaki bağlantının incelenmesi; böylece ilgili alanlarda elde edilen sonuçların genelleştirilmesi ve en kapsamlı biçimde uygulanması.

Sorun: Genel Bir Kuramın Geliştirilmesi

Bu çalışmanın temel sorunları nelerdir?

Üç yıl önce esas görev algoritmaların hazırlanması ve uygulanması iken, artık algoritmalar derlenmiş ve uygulanmış olduğundan, başlıca dikkat elde edilen sonuçların genelleştirilmesine yönelmiştir.

Şu andaki temel görev, çeviri algoritmalarının derlenmesine ilişkin genel bir kuram geliştirmektir (özellikle, çeviri algoritmasının evrensel bir biçimini ve bu biçimin somut dillere uygulanma kurallarını geliştirmek).

Bu görev başarıyla yerine getirildiğinde, makinenin kendisinin, önceden hazırlanmış sözlükler ve paralel metinler temelinde çeviri algoritmalarını derleyebilmesi mümkün olacaktır.

Bir Operatörler Sistemi

Çeviri algoritmalarının genel kuramı açısından, Matematik Enstitüsü’nde geliştirilen bir operatörler sistemi büyük önem taşımaktadır. Bu sistem kapsamında çeviri süreci, herhangi bir dilden başka bir dile çeviri yapılırken gerçekleşen bir dizi standart eyleme ayrılır. Böyle bir temel eylem, ona karşılık gelen standart bilgisayar programı ile birlikte bir operatör olarak adlandırılır.

Herhangi bir algoritma, bir operatörler dizisi olarak temsil edilebilir. Algoritmaların operatörler cinsinden kaydedilmesi, çeviri algoritmalarının programlanmasına ilişkin son derece zahmetli sürecin mekanikleştirilmesini mümkün kılar. Böylece, Macarca–Rusça algoritmanın bir bölümünün programlanmasında, normal yöntemle yapılsaydı 20 ila 30 insan-günü gerektirecek olan beş program beş dakika içinde derlenmiştir.

Operatör kaydı kuramsal bakımdan da çok önemlidir; çünkü algoritmaların birleştirilmesini ve tek bir evrensel çeviri algoritması biçiminin geliştirilmesini kolaylaştırır.

Sonraki Adım: Elektronik Bir Editör

Günümüzde makine çevirisi, daha genel ve daha önemli bir sorunun çözümüne yönelik yalnızca ilk aşama olarak görülmektedir: elektronik makinelerin insan düşüncesinin yardımcı araçları olarak en kapsamlı biçimde kullanılması yoluyla, makinenin farklı dillerde yazılmış metinlerle mümkün olan en geniş işlemleri yapabilmesini sağlamak; onu yalnızca çeviri yapabilir değil, aynı zamanda düzenleme yapabilir, özet çıkarabilir, bibliyografik ve diğer türde başvurular sağlayabilir hale getirmek vb.

Tüm bu işlemler, metinden gerekli bilginin çıkarılmasına ve bu bilginin başka bir biçimde kaydedilmesine indirgenir. Bu işlemleri gerçekleştirmek için, metinden elde edilen bilginin kaydedileceği özel bir “dil” gereklidir.

Böyle bir dil:

  1. Çıkarılan bilginin basit ve doğru biçimde kaydedilmesini sağlamalıdır.
  2. Doğal dillerde yazılmış metinlerin bu dile çevrilmesi için elverişli olmalıdır.

Bu dil hem makinede bilginin kaydedilmesi ve saklanması için (makinede saklanmak üzere bilginin kaydedildiği dile bilgi dili denir) hem de makine çevirisi için bir aracı olarak kullanılabilir.

Birçok dilden birçok başka dile, herhangi bir yönde çeviri yapılırken, kaynak dilden aracı dile ve oradan da hedef dile çeviri yapmak mümkündür. Bu, doğrudan dilden dile çeviri için gerekli algoritma sayısını azaltmakla kalmaz, aynı zamanda bunların birleştirilmesini de kolaylaştırır.

Ülkemizde makine çevirisi üzerindeki çalışmaların çoğunun temel sorunu, bir aracı dilin geliştirilmesidir.

Bir aracı dil geliştirmenin birçok olası yolundan ikisi aktif olarak araştırılmaktadır ve bunlardan biri üzerinde duracağız.

Yeni Bir Dil mi?

Bunlardan biri, kendine özgü sözcük dağarcığına, biçimbilimine ve sözdizimine sahip bir tür yapay dil olarak bir aracı dil üretmektir (yani doğal dillere ya da Esperanto gibi yapay dillere benzer). Aracı dilin bileşenleri, söz konusu dillerin istatistiksel incelemesiyle belirlenir: yalnızca bu somut dillerin tümünde ya da çoğunda yaygın olan olgular aracı dile aktarılır ve her birine, onu konuşan kişi sayısıyla orantılı bir pay tanınır.

Böyle bir aracı dil, bir bakıma, kendisi için bir simgeler sistemi geliştirilmiş olan bir dizi (doğal) dilin bir “kesişimi” ürünü olacaktır. Gelecekte bu biçimsel-mantıksal sistemin bir bilgi dili olarak kullanılması beklenmektedir.

Diğer yol ise, aracı dili yalnızca doğal diller arasındaki karşılıklar sistemi olarak kurmaktır. Bu karşılıklar üç düzeyde oluşturulur:

  • Sözcük dağarcığı (farklı dillerin sözcükleri ve deyimleri arasında)
  • Biçimbilimsel ve sözcük yapımı
  • Sözdizimsel (temel sözdizimsel yapılar arasında)

Farklı dillerin çeviri açısından eşdeğer sözcükleri (sözcüksel karşılık demetleri) kümeler oluşturur ve bu kümeler aracı dilin sözcüklerini meydana getirir; onun sözdizimsel ilişkileri ise sözdizimsel karşılık demetleridir.

Bütün mesele şuna indirgenir: aracı dilin, incelenen tüm dillerin bir “bileşkesi” olduğu varsayılır; bu, bu dillerin tümünde ortaya çıkan her türlü farkın aracı dilde ifade edilebileceği anlamına gelir. Bunlar ifade edilebilir, ancak zorunlu değildir; kaynak dilde ortaya çıktıkları durumda, duruma bağlı olarak ifade edilirler.

Biçimbilimsel karşılık demetleri (sözcüksel karşılık demetleri gibi) aracı dilin sözcükleri olarak kabul edilir. Bu sözcükler ortaya çıkabilir ya da çıkmayabilir. Dolayısıyla, isimlerde sayı kategorisi, bu kategorinin bulunduğu dillerden (Rusça, İngilizce, Ermenice, Macarca vb.) çeviri yapılırken aracı dilde ifade edilecektir; bu kategorinin bulunmadığı Çince’den çeviri yapılırken ise ifade edilmeyecektir.

Bu yaklaşım, çeviride hangi dil çifti söz konusu olursa olsun, ilgili bilginin kaybını önlemek ve gereksiz bilginin üretilmesini engellemek amacıyla benimsenmiştir.

Aracı dil zorunlu olarak yalnızca iki tür farkı ifade eder: sözcüksel ve sözdizimsel (sözcükler ve aralarındaki ilişkiler), yani tüm insan dillerinde bulunan ve bunlar olmaksızın herhangi bir dilin düşünülemeyeceği farklar.

Genel olarak önerilen aracı dil, bir yandan karşılaştırmalı dilbilimin sözde Uhrsprachen’ine (bunlar da diller arasında bir karşılıklar sistemi oluşturur), diğer yandan matematiksel mantık hesaplarına benzerlik gösterir (aracı dilin “sözcükleri” ve “sözdizimsel ilişkileri”, biçimsel-mantıksal dillerin alfabesi ve oluşum kurallarına karşılık gelir).

Tablolarla Çeviri

Bir karşılıklar sistemi olarak aracı dil, düşey sütunlar ve yatay satırlardan oluşan tablolar halinde kurulabilir. Sütunlar farklı dillere, her bir satır ise farklı dillerin çeviri açısından eşdeğer birimlerine ayrılır.

Sözcüksel ve biçimbilimsel eşdeğerleri içeren satırların numaraları aracı dilin sözcüklerini; sözdizimsel karşılıkları içeren satırların numaraları ise onun sözdizimsel ilişkilerini temsil eder.

Aracı dil aracılığıyla çeviri süreci iki aşamaya ayrılır:

  • Çözümleme (analiz) ya da kaynak dilden aracı dile çeviri; yani tabloların ilgili satır numaraları, özel yordamlar aracılığıyla kaynak dilin çeşitli birimlerine atanır.
  • Sentez ya da aracı dilden hedef dile çeviri; yani karşılık demetlerinden seçilen hedef dil birimlerine uygun biçimbilimsel biçimler verilir ve hedef dilin kurallarına uygun olarak sıralanır.

Şu anda matematiksel metinlerden kısa pasajlar için bir aracı dil modeli geliştirilmektedir. Bir dizi dil için bağımsız analiz ve sentez algoritmaları tasarlanmaktadır; başlıca Avrupa dilleri arasında sözcük karşılıklarının kurulmasına yönelik çalışmalar başlamıştır.

Çeviri metnindeki tüm sözcükler arasındaki sözdizimsel bağlantıların belirlendiği sözdizimsel çözümleme, makine çevirisi algoritmasının merkezi bölümüdür. Bu, verilen türdeki metinlerde ortaya çıkan temel sözdizimsel yapıların (konfigürasyonların) bir listesi ve bunların metin içinde saptanmasına yönelik kurallar aracılığıyla yapılır. Dolayısıyla, bir algoritma geliştirmek için, kullanılan tüm diller için yeterince kapsamlı konfigürasyon listelerine sahip olmak gerekir.

Dil Özellikleri Sorunlara Yol Açar

Bir algoritma kurmak için çözülmesi gereken ve bağımsız araştırma gerektiren, bütünüyle dilbilimsel nitelikte başka sorunlar da vardır. Bunlar arasında, bir dildeki fazlalıkların bulunması sorunu yer alır; yani modern bir dilin sisteminde anlamlı bir işlev görmeyen, tarihsel olarak oluşmuş kategoriler.

Örneğin, Rusça fiillerdeki cinsiyet kategorisi neredeyse bütünüyle fazlalık haline gelmiştir; Rusça ve Fransızca sıfat çekimleri büyük ölçüde fazlalıktır; Rusçada yönelme ve bulunma durumlarının biçim farkları her zaman fazlalıktır, yalın ve belirtme durumlarının farkları ise neredeyse her zaman fazlalıktır vb.

Bir dildeki fazlalık sorunu, haberleşme mühendisliği açısından da büyük önem taşır; çünkü metinsel fazlalıkların ortadan kaldırılması, iletim ve alım aygıtlarının etkinliğini kat kat artırmayı mümkün kılar. Bu nedenle, makine çevirisi uzmanlarının ve haberleşme mühendislerinin çabaları bu sorunun çözümü için birleştirilmektedir.

İstatistiksel Yaklaşım Gerekli

Makine çevirisine yönelik dilbilimsel araştırmalar, metnin çok yönlü istatistiksel incelemesine dayanmalıdır. İstatistikler, incelenecek malzemeyi sınırlamak, betimlenecek ve sistematik hale getirilecek olguların alanını ayırmak için gereklidir.

Nicel özellikler, çeşitli dil olgularının göreli ağırlığını değerlendirmeyi mümkün kılarak dikkatin esas noktalara yoğunlaştırılmasını, ikincil yönlerin ise bir kenara bırakılmasını sağlar; ayrıca, bir çözümün ya da başka bir çözümün etkinliğini değerlendirmek için de gereklidir. Son olarak, bir dilbilimsel soruna bütünüyle kesin çözümler her zaman mümkün olmadığından, istatistikler yaklaşık ve daha makul çözümler bulmaya yardımcı olur.

Konuşmanın istatistiksel betimi yalnızca makine çevirisi için değil, aynı zamanda haberleşme mühendisliği, basım, dil öğretim yöntemleri vb. için de büyük ilgi taşır. Bu nedenle, özellikle Rusça başta olmak üzere, farklı dillerde uygun ölçekte istatistiksel araştırmalar yürütmek birincil bir görevdir.

Bu araştırmaların etkili olabilmesi için, analitik ve elektronik hesaplama makinelerinden geniş ölçüde yararlanmak gerekir; bu da dilbilimcilerin ilgili diğer alanlardaki uzmanlarla yakın temas kurmasını zorunlu kılar.

Özel Amaçlı “Dil” Bilgisayarı

Sonuç olarak, dilbilimcilerin, matematikçilerin ve elektronik mühendislerinin işbirliği yapması gereken bir alanı daha anmak isteriz: dille bağlantılı her türlü çalışma için özel çeviri ve bilgi makinelerinin tasarlanması. (Bugüne kadar ülkemizde ve yurtdışında deneysel çeviriler, bu amaca uyarlanmış olmayan genel amaçlı bilgisayarlarda yapılmaktadır.)

Tüm bu doğrultulardaki araştırmaların eşgüdümü, Mayıs 1958’de Moskova’da düzenlenen Birinci Tüm Birlik Makine Çevirisi Konferansı tarafından önemli ölçüde kolaylaştırılmıştır.

Elektronik Makinelere İnsan Konuşmasının Kazandırılması

Makine çevirisi üzerine yapılan tüm araştırmalar, amacı elektronik makinelere insan konuşmasını kazandırmak olan daha geniş kapsamlı bir çalışmanın başlangıç aşaması olarak değerlendirilmelidir. Bu amaca ulaşılması, bilim ve teknolojide gerçek bir devrim meydana getirecektir. Araştırmacıların şu anda doğrudan karşı karşıya bulunduğu makine çevirisi sorununun çözümü de bu amaca doğru atılmış bir adım olacaktır.