Bir Bilgisayar Aracılığıyla Konuşulan Seslerin Tanınması

Andrew D. Booth

Yeni Bilgisayar NORC’un Önemi

W. J. Eckert

The Finan-Seer

E. L. Locke

Bir Kaza Sigortası Şirketinde Otomasyona Yaklaşım

Otomatik Bilgisayarlar Listesi

(kümülatif)

Carlo O. Orkild

Sihirli Beyinler için Sinir Uçları

Bir Bilgisayar Aracılığıyla Konuşma Seslerinin Tanınması

Andrew D. Booth
Birkbeck College, Londra, İngiltere

Geçtiğimiz on yıl boyunca, haberleşme endüstrisinde çalışan mühendisler, telefon konuşması sürecinde insanlar tarafından çıkarılan sesleri “tanıyacak” devreler geliştirme olasılığına büyük ilgi göstermiştir. Bu tür bir çalışmanın nihai amacı, anlaşılır konuşma iletimi için gerekli bant genişliğini sınırlama olasılığında ve ayrıca, daha küçük bir ölçüde, iletimi gürültü almaya karşı daha az duyarlı hale getirmekte yatmaktadır.

Yapılan çalışmaların büyük bir kısmı, yani tipik sözcüklerde üretilen frekans örüntülerinin analizleri olan ses spektrumlarını kullanmıştır. Donanım, yaklaşık yarım düzine frekansın, ortaya çıkışları ve şiddetleriyle konuşulan sözcüğün doğasını belirttiğini zorunlu olarak göstermiştir. Tersine, bu şekilde elde edilen örüntü, daha sonraki bir aşamada konuşmayı yeniden üretmek için kullanılmıştır.

Mekanik bir çeviriciye girdi sorunlarını ele alırken, bu sistemlerden bazılarının uygulanabilirliğini değerlendirmeye yöneldim ve bunun sonucunda, ciddi kullanım için fazla karmaşık ve hataya fazla açık oldukları sonucuna vardım. Bu da, basılı sembol tanımanın standart karakter disk yöntemine benzer bir süreci düşündürdü. Bu süreç şimdi açıklanacaktır.

Öncelikle sürecin iki bölümde ele alınması gerekir: standart bir sesler kümesinin analizi; bilinmeyen bir sesin analiz sonuçlarıyla karşılaştırılması.

Lehçe ve bireysel telaffuz etkilerini ortadan kaldırmak için, belirli bir zamanda donanımı kullanacak kişi önce tanınacak sözcükleri kaydeder ve makinenin bu kayıtları analize tabi tutmasına izin verir. Daha sonraki bir zamanda aynı konuşmacı, kaydedilen sözcüklerin bir kısmını ya da tamamını tekrar edebilir ve makine, özünde aritmetik süreçlerle, bunları tanımaya başlar. Bu sonucun elde edilme yöntemi şimdi açıklanacaktır.

Analiz sürecinin ilk bölümü, bir mikrofonun çıkışından bir gerilim dalga biçimi üretmekten oluşur. Bu, yalnızca standart yükseltme donanımının kullanılmasını gerektirir. Bir gerilim çıkışının tipik bir bölümü Şekil 1’de gösterilmiştir.

Belirli bir sesteki ayrıntıların büyük bir kısmının, H’de gösterilen türden nispeten yüksek frekanslı harmonikler tarafından taşındığı açıktır. Temel frekans FF ise, esas olarak konuşmacının göğüs ve ağız rezonanslarının bir fonksiyonudur.

Yüksek harmoniklere gereken ağırlığı vermek için, gerilim çıkışı türevleyici türde bir filtre devresine uygulanır ve sonuç Şekil 2’de gösterilene benzer olur.

Yüksek harmoniklerin etkisi artık daha güçlü bir biçimde belirgin olsa da, çıkış hâlâ mevcut amaç için tam olarak yeterli değildir. Bu nedenle bir genlik standartlaştırma devresinden geçirilir ve sonunda Şekil 3’te verilen biçimde ortaya çıkar.

Analiz daha sonra şu şekilde yapılır: Önce, genliği standartlaştırılmış çıkış bir ikili sayaca uygulanır. Bu sayacın içeriği, sesin oluşumu sırasında ardışık zaman aralıklarında örneklenir. Şekil 3’teki dalga biçiminin ilgili örnekleme aralıklarındaki eksen kesişimlerinin sayısını temsil eden örnek numaraları, tanıma donanımının kullanılacağı hesaplama makinesinin belleğine gönderilir. Bu örnek numaralarına Sᵢⱼ (i = 1, …, n), (j = 1, …, w) diyelim; burada i, belirli bir konuşulan sözcük j için örnek numarasını temsil eden bir indextir. Böylece, tanınacak tüm sözcükler incelendiğinde, bilgisayarın belleği tüm Sᵢⱼ sayılarını içerecektir.

Uygulamada, sıfır, bir, iki, dokuz’a kadar olan konuşulan sözcükleri karakterize etmek için her biri 4 bit içeren yaklaşık 5 örneğin yeterli olduğu görülmektedir. Bunları standart bir bilgisayar sözcüğünün ilk bölümünde saklamak uygun olmaktadır. Sözcüğün geri kalanı ise, konuşulan sözcüğün ikili ya da başka bir kodlanmış eşdeğerini vermek için gerekli olan rakamları içerebilir.

Makineyi bilinmeyen bir sözcüğün tanınması için kullanmak amacıyla, yalnızca yukarıda tanımlanan analizi bilinmeyen sözcük üzerinde yapmak gerekir. Bu, uᵢ, i = 1, …, n sayılarından oluşan bir kümenin üretilmesiyle sonuçlanır. Makine daha sonra tamamen aritmetik yollarla şunu oluşturur:

Mⱼ = Σᵢ (uᵢ − Sᵢⱼ)², j = 1, …, w

her bir Sⱼ örneği için. Bilinmeyen karakter, Mⱼ’nin en küçük olduğu karakter olarak kabul edilir.

(devamı sayfa 31’de)

Avrupa bilgisayarları genel olarak Amerikan bilgisayarlarına kıyasla daha az iddialıdır: hızları daha düşüktür, depolama kapasiteleri daha sınırlıdır, boyutları daha küçüktür ve maliyetleri çok daha düşüktür. Çalışır durumdaki makineler arasında, bölme süresi bir milisaniyenin altında olan, daha hızlı Amerikan bilgisayarlarıyla karşılaştırılabilir hıza sahip yalnızca İsveç’teki BESK’in bulunduğu görülmektedir.

İngiltere’deki National Physical Laboratory’de bulunan ACE, gerçekleştirdiği işlemler açısından benzer hızlara sahiptir; ancak ne otomatik bölme ne de otomatik çarpma yapabilmektedir. İngiltere’deki EDSAC’ta çarpma vardır fakat bölme yoktur. Oldukça fazla sayıda ucuz röleli makine bulunmaktadır; buna karşılık Harwell (İngiltere) bilgisayarı, neredeyse ihmal edilebilir güç tüketimi ve olağanüstü uzun ömürle soğuk katot tüplerini kullanmaktadır.

Özgün Williams tüplü makine seridir ve bu nedenle Amerikan ardıllarından daha yavaştır. Bununla birlikte, Cambridge ve Amsterdam’da manyetik çekirdekler kullanan makineler yapım aşamasındadır ve bu nedenle yüksek hızlar vaat etmektedir.

Bu sınırlamalar beklenmelidir; çünkü yurtdışındaki hesaplama makinelerinin önemli bir bölümü akademik kurumlarda yer almakta ve burada bunların yapımı, kullanımı ya da her ikisi öncelikle araştırma amaçlıdır.

Pek çok ve çeşitli doğrultuda yürütülen, ağırdan almayan, baskı altında olmayan ve etkili bir araştırma faaliyeti hissi edinilmektedir.

İkisi de İngiltere’de olmak üzere, biri Manchester’da diğeri Harwell’de, iki transistörlü makine üzerinde çalışılmaktadır. Anahtarlama için transistörleri ve depolama için tamburları kullanacak olmaları dışında birbirlerine pek benzemezler. Manchester makinesi, yalnızca transistörlerin incelenmesi için bir mühendislik deneyi olarak yapılmaktadır.

Cambridge ve Amsterdam’daki iki manyetik çekirdekli makineden ilki, çekirdekleri hem anahtarlama hem de depolama için kullanacak ve M. V. Wilkes’in mikroprogramlama düzenini gerçekleştirecektir.

Zürih’te (İsviçre), programlama görevini olabilecek en üst düzeyde basitleştirmeyi amaçlayan bir makine tasarlanmaktadır: kayan ondalık işlemler, tüm işlenenler ve sonuçlar için aynı yazmaç, esasen dokuz adet B-tüpü gibi özellikler bunlardan yalnızca birkaçıdır.