Vestnik Akademii Nauk S.S.C.B., No. 2, 1959’dan yapılan bir çeviriye dayanmaktadır
Sovyetler Birliği’nde Makine Çevirisi
I. A. Melçuk
Moskova, S.S.C.B.
Ülkemizde makine çevirisi üzerine çalışmalar 1955 yılında, SSCB Bilimler Akademisi’ne bağlı Hassas Mekanik ve Hesaplama Teknikleri Enstitüsü ile V.A. Steklov Matematik Enstitüsü’nde başlamıştır.
Daha sonra bu çalışmalara SSCB Bilimler Akademisi Dilbilim Enstitüsü; bir makine çevirisi laboratuvarı kuran Leningrad Üniversitesi; Ermenistan Sovyet Sosyalist Cumhuriyeti Bilimler Akademisi Hesaplama Merkezi; Gürcistan Sovyet Sosyalist Cumhuriyeti Bilimler Akademisi Elektronik, Otomasyon ve Tele-mekanik Enstitüsü ve diğer kurumlar da katılmıştır.
“Algoritmaların” Derlenmesi
İlk aşamada, çalışmalar esas olarak makine çevirisinin sözde algoritmalarını derlemekten oluşuyordu. Bir makinenin bir metni bir dilden diğerine çevirmesi için, gerekli tüm işlemlerin özel bir kurallar dizisi olarak verilmesi gerekir. Bu kurallar kesin olarak formüle edilmiş ve tamamen açık olmalı; mekanik performansa izin vermeli; ve tüm olası durumları öngören mantıksal olarak tutarlı bir sistem oluşturmalıdır.
1955-1957 yıllarında bir dizi algoritma geliştirilmiştir:
- Fransızca-Rusça
- İngilizce-Rusça
- Çince-Rusça
- Almanca-Rusça
- Japonca-Rusça
- Macarca-Rusça
Fransızca-Rusça ve İngilizce-Rusça algoritması programlanmış ve bilgisayarlarda test edilmiştir; yani, Fransızca ve İngilizce bilimsel (matematiksel) metinlerden pasajların Rusçaya çevirileri yapılmıştır. Diğer algoritmalar ise programlama aşamasındadır.
Şu anda makine çevirisi üzerine çalışmalar aşağıdaki üç ana doğrultuda ilerlemektedir:
- En iyisini seçmek için olası makine çevirisi yollarının araştırılması
- Matematikçiler ve dilbilimcilerin yakın işbirliği ile dil tanımının kesin (öncelikle matematiksel) yöntemlerinin geliştirilmesi
- Müttefik alanlarda elde edilen sonuçları genelleştirmek ve tam şekilde uygulamak amacıyla makine çevirisi ile dilbilimin diğer pratik uygulamaları arasındaki bağlantının incelenmesi
Problem: Genel Bir Teori Geliştirmek
Bu çalışmanın temel sorunları nelerdir?
Üç yıl önce asıl görev algoritmalar oluşturmak ve bunları uygulamak iken, şimdi algoritmaları oluşturup uyguladığımıza göre, ana dikkat elde edilen sonuçları genelleştirmeye odaklanmıştır.
Şu anki öncelikli görev, çeviri algoritmaları derlemek için genel bir teori geliştirmektir (özellikle, bir çeviri algoritmasının evrensel bir formunu ve bu formun somut dillere uygulanma kurallarını geliştirmek).
Bu görev başarıyla tamamlandığında, makinenin kendisinin önceden hazırlanmış sözlükler ve paralel metinlere dayanarak çeviri algoritmaları derlemesi mümkün olacaktır.
Bir Operatörler Sistemi
Çeviri algoritmalarının genel teorisi için büyük önem taşıyan bir konu, Matematik Enstitüsü’nde geliştirilen bir operatörler sistemidir.
Bu sistem altında, çeviri süreci, herhangi bir dilden başka bir dile çeviri yapılırken gerçekleşen bir dizi standart eyleme bölünmüştür. İlgili standart bilgisayar programıyla birlikte böyle bir temel eyleme operatör denir.
Herhangi bir algoritma, bir operatörler dizisi olarak temsil edilebilir. Algoritmaların operatörler cinsinden kaydedilmesi, çeviri algoritmalarını programlamanın son derece zahmetli sürecini mekanize etmeyi mümkün kılar.
Örneğin, Macarca-Rusça algoritmasının bir kısmını programlarken, beş dakika içinde beş program derlenmiştir ki bu, normal yolla yapılması durumunda 20 ila 30 adam-gün gerektirirdi.
Operatör kaydı, algoritmaları birleştirmeyi ve tek bir evrensel çeviri algoritması formu geliştirmeyi kolaylaştırdığı için teorik olarak da çok önemlidir.
Kişisel Not: O zamanlarda Master Algoritma meseleleri varmış. Bu aslında hesaplamanın otomatikleştirilmesi fikriyle beraber, uzun zamandır düşünülen ama hala hayata geçirilememiş bir fikir olarak sürüyor.
Sıradaki: Elektronik Bir Editör
Bugün makine çevirisi, daha genel ve daha önemli bir sorunu çözmeye yönelik ilk aşama olarak görülmektedir:
- İnsan düşüncesinin yardımcı araçları olarak elektronik makineleri en tam şekilde kullanarak, makinenin farklı dillerde yazılmış metinlerle mümkün olan en geniş işlemleri gerçekleştirebilmesini sağlamak
- Sadece çeviri yapmasını değil, aynı zamanda düzenleme (editörlük) yapmasını
- Özet çıkarmasını
- Bibliyografik ve diğer referansları sunmasını vb. sağlamak
Tüm bu işlemler, metinden gerekli bilgiyi çıkarmak ve bu bilgiyi başka bir biçimde kaydetmekle özetlenebilir.
Bu işlemleri gerçekleştirmek için, metinden alınan bilginin kaydedileceği özel bir “dil” gereklidir.
Böyle bir dil;
- Çıkarılan bilginin basit ve doğru bir şekilde kaydedilmesini sağlamalı
- Doğal dillerde yazılmış metinleri bu dile çevirmek için uygun olmalıdır
Bu dil hem makinede bilgi kaydetmek ve depolamak için (makinede depolanmak üzere bilginin kaydedildiği dil “bilgi dili” olarak adlandırılır) hem de makine çevirisi için bir aracı olarak kullanılabilir.
Birçok dilden birçok dile herhangi bir yönde çeviri yaparken, kaynak dilden aracı dile ve aracı dilden hedef dile çeviri yapmak mümkündür.
Bu, yalnızca dilden dile doğrudan çeviri için gerekli olan algoritma sayısını azaltmakla kalmaz, aynı zamanda bunları birleştirmeyi de kolaylaştırır.
Ülkemizdeki makine çevirisi üzerine yapılan çoğu çalışmanın temel sorunu şimdi bir aracı dil inşa etmektir.
Yeni Bir Dil mi?
Bir aracı dil inşa etmenin birçok olası yolundan ikisi aktif olarak araştırılmaktadır ve biz bunlardan biri üzerinde duracağız.
Birincisi, kendi kelime dağarcığına, morfolojisine ve sözdizimine sahip yapay bir dil olarak (yani, doğal dillere veya Esperanto gibi yapay dillere benzer) bir aracı dil oluşturmaktan ibarettir.
Aracı dilin bileşenleri, söz konusu dillerin istatistiksel olarak incelenmesiyle belirlenir: aracı dile yalnızca bu somut dillerin tümünde veya çoğunda yaygın olan olgular aktarılır ve her birine, onu konuşan insan sayısıyla orantılı bir pay verilir.
Böyle bir aracı dil, bir dizi belirli (doğal) dilin adeta bir “kesişim” ürünü olacaktır ve bunun için bir semboller sistemi geliştirilmiştir. Gelecekte bu biçimsel mantık sisteminin bir bilgi dili olarak kullanılması beklenmektedir.
Diğer yol ise aracı dili yalnızca doğal diller arasında bir tekabül (karşılıklar) sistemi olarak kurmaktır. Karşılıklar üç düzeyde kurulur: kelime dağarcığı (çeşitli dillerin kelimeleri ve deyimleri arasında), morfolojik ve kelime yapımı ve sözdizimsel (temel sözdizimsel yapılar arasında).
Farklı dillerin çeviri eşdeğeri kelimeleri (sözcüksel karşılıklar demetleri) kümeler oluşturur ve bu kümeler aracı dilin kelimelerini teşkil eder; sözdizimsel ilişkileri ise sözdizimsel karşılıklar demetleridir.
Her şey şuna indirgenir: Aracı dilin, incelenen tüm dillerin bir “bütünü” olduğu varsayılır; bu, tüm bu dillerde meydana gelen herhangi bir farklılığın aracı dilde ifade edilebileceği anlamına gelir.
Edilebilir, ama edilmek zorunda değildir; zorunlu olarak değil, kaynak dilde ortaya çıkmaları durumunda, fırsat düştükçe ifade edilirler.
Tablolarla Çeviri
Bir karşılıklar sistemi olarak aracı dil, dikey sütunlar ve yatay satırlar içeren tablolarda kurulabilir.
Sütunlar farklı dillere atanır:
- Her satır, farklı dillerin çeviri eşdeğeri birimlerine atanır
- Sözcüksel ve morfolojik eşdeğerleri içeren satırların numaraları aracı dilin kelimelerini temsil eder
- Sözdizimsel karşılıkları içeren satırların numaraları ise onun sözdizimsel ilişkilerini temsil eder
Bir aracı dil vasıtasıyla çeviri süreci iki aşamaya ayrılır: analiz veya kaynak dilden aracı dile çeviri, yani tablolardaki ilgili satırların numaraları, özel rutinler aracılığıyla kaynak dilin çeşitli birimlerine yönlendirilir; ve sentez veya aracı dilden hedef dile çeviri, yani karşılıklar demetlerinden seçilen hedef dil birimlerine uygun morfolojik biçimler verilir ve hedef dilin yasalarına uygun olarak sıralanır.
Şu anda matematiksel metinlerden kısa pasajlar için bir aracı dil modeli geliştirilmektedir. Bir dizi dil için bağımsız analiz ve sentez algoritmaları tasarlanmaktadır; başlıca Avrupa dilleri arasında kelime karşılıkları kurma çalışmaları başlamıştır.
Dilsel Özellikler Sorun Oluşturuyor
Çeviri metnindeki tüm kelimeler arasındaki sözdizimsel bağlantıların belirlendiği sözdizimsel analiz, bir makine çevirisi algoritmasının merkezi kısmıdır.
Bu, belirli türdeki metinlerde meydana gelen temel sözdizimsel yapıların (konfigürasyonların) bir listesi ve bunları metinde tespit etme kuralları aracılığıyla yapılır.
Bu nedenle, bir algoritma oluşturmak için, kullanılan tüm diller için yeterince tam konfigürasyon listelerine sahip olmak gerekir.
Algoritma oluşturmak için çözümü gerekli olan ve bağımsız araştırma gerektiren bir dizi başka, tamamen dilsel sorunlar da vardır.
Diğerlerinin yanı sıra, bir dildeki fazlalıkları, yani modern bir dilin sisteminde anlamlı bir işlev görmeyen tarihsel olarak gelişmiş kategorileri bulma sorununu içerir.
Örneğin, Rusça fiilin cinsiyet kategorisi neredeyse tamamen fazlalık haline gelmiştir, Rusça ve Fransızca sıfatların çekimleri büyük ölçüde fazlalıktır, Rusça datif ve lokal durumların biçim farklılıkları her zaman fazlalıktır ve nominatif ve akuzatif durumlarınki neredeyse her zaman fazlalıktır, vb.
İstatistiksel Yaklaşım Gerekli
Makine çevirisi üzerine yapılan dilbilimsel araştırmalar, metnin çok yönlü istatistiksel incelemesine dayanmalıdır.
İstatistikler, incelenen materyali sınırlamak, tanımlanacak ve sistemleştirilecek olguların aralığını izole etmek için gereklidir.
Nicel özellikler, dikkati temel konulara yoğunlaştırmak ve ikincil yönleri bir kenara bırakmak için çeşitli dil olgularının özgül ağırlığını takdir etmeyi mümkün kılar; ayrıca şu ya da bu çözümün etkinliğini değerlendirmek için de gereklidirler.
Son olarak, şu ya da bu dilbilimsel sorunun mutlak kesin çözümleri her zaman mümkün olmadığından, istatistikler yaklaşık, daha makul çözümler bulmaya yardımcı olur.
Konuşmanın istatistiksel tanımı sadece makine çevirisi için değil, aynı zamanda iletişim mühendisliği, basım, dil öğretim yöntemleri vb. için de büyük ilgi çekmektedir.
Bu nedenle, başta Rusça olmak üzere farklı dillerde, uygun büyüklükte istatistiksel araştırmalar yapmak birincil bir görevdir.
Bu araştırmaların etkili olması için, analitik ve elektronik hesaplama makinelerinden yaygın olarak yararlanmak gerekir ki bu da yine dilbilimcilerin diğer ilgili alanlardaki uzmanlarla yakın temasını gerektirir.
Özelleştirilmiş “Dil” Bilgisayarı
Sonuç olarak, dilbilimcilerin, matematikçilerin ve elektronik mühendislerinin işbirliği yapması gereken bir alandan daha bahsetmek isteriz: dille bağlantılı her türlü iş için özel çeviri ve bilgi makinelerinin tasarlanması. (Ülkemizde ve yurtdışında bugüne kadar deneysel çeviriler, bu amaç için uyarlanmamış genel amaçlı bilgisayarlarda yapılmaktadır.)
Tüm bu doğrultulardaki araştırmaların koordinasyonu, Mayıs 1958’de Moskova’da düzenlenen Birinci Tüm-Birlik Makine Çevirisi Konferansı tarafından büyük ölçüde kolaylaştırılmıştır.
Elektronik Makinelere İnsan Konuşmasını Kazandırmak
Makine çevirisi üzerine yapılan tüm araştırmalar, amacı elektronik makinelere insan konuşmasını kazandırmak olan daha geniş bir çalışma yelpazesinin başlangıç aşaması olarak görülmelidir.
Bu hedefe ulaşılması, bilim ve teknolojide gerçek bir devrim üretecektir.
Ve şimdi araştırmacıların doğrudan karşı karşıya olduğu makine çevirisi sorununun çözümü, bu hedefe doğru atılmış bir adım olacaktır.
Kişisel Not
Bu 1959 tarihli makale, makine çevirisi alanındaki en erken akademik çalışmalardan birini temsil etmektedir. Sovyetler Birliği’nin bu alandaki sistematik yaklaşımı ve çok dilli çeviri algoritmalarına odaklanması, günümüzün çeviri teknolojilerinin temellerini oluşturan önemli kavramları önceden görmektedir:
- Aracı dil konsepti: Günümüz pivot translation sistemlerinin öncüsü
- Operatör sistemleri: Modern çeviri pipeline’larının temeli
- İstatistiksel yaklaşım: Statistical Machine Translation’ın öncüsü
- Çok disiplinli işbirliği: Dilbilim, matematik ve mühendislik alanlarının entegrasyonu
Özellikle “elektronik makinelere insan konuşmasını kazandırmak” vizyonu, günümüzün dil modellerinin hedefleriyle şaşırtıcı derecede örtüşmektedir. 1955-1959 arasında altı farklı dil çifti için algoritma geliştirmiş olmaları, o dönem için oldukça iddialı bir başarıdır.
Tags
Uğur Toprakdeviren
Cryptographer, security researcher, and systems engineer with over two decades of experience building secure systems. Currently focused on Apple internals, decentralized messaging protocols, ARM64 architectures, and the philosophical implications of digital privacy.
Learn more about me