Automatic Speech Recognition System for Voice Operated Typewriters (1961)

Sylvania Electric Products Inc.
Applied Research Laboratory
Waltham, Mass.

Bu laboratuvar, konuşmayı bir sayı kümesine analiz etmek ve ardından bu sayı kümesini yeniden konuşmaya dönüştürmek için bir bilgisayar kullanmaktadır.

Proje, Rome, N.Y.’deki Rome Air Development Center için laboratuvar tarafından geliştirilen bir konuşma sesi analiz yönteminin etkinliğini sınamaya yöneliktir.

“Konuşma analizör-sentezleyici” projesinin amacı, otomatik konuşma tanıma sistemlerinde kullanılmak üzere konuşmanın daha verimli bir biçimde haritalanmasının uygulanabilirliğini belirlemektir.

Konuşma sesi analizi, herhangi bir otomatik konuşma tanımanın geliştirilmesindeki ilk adımdır.

Bu tür sistemler için öngörülen uygulamalar arasında sesle çalışan daktilolar, bilgisayarların sesle programlanması, telefonların sesle aranması ve postanelerde postanın sesle yönlendirilmesi yer almaktadır.

Otomatik konuşma tanıma, özünde insan konuşmasının bir bilgisayar tarafından işlenebilen ya da bir makineyi denetlemek için kullanılabilen mekanik bir dile çevrilmesidir. Bu nedenle, bu sürecin başarıyla tersine çevrilebileceği ve makine dilinin yeniden insan konuşmasına dönüştürülmesine olanak sağlayacağı öngörülmektedir.

Konuşma sesi çözümleme yöntemi, bir insan sesinin bant kaydının bir dijital bilgisayara verilmesinden oluşur. Burada sesler önce matematiksel olarak çözümlenir, ardından elde edilen sayılardan bir ses kaydı üzerinde yeniden sentezlenir.

Sentezlenen kaydın özgün kayda olan doğruluğu, projenin başarısının bir ölçüsü olacaktır.

Yöntem, konuşmayı oluşturan dalga biçimlerini, konuşmada doğal olarak ortaya çıkan ses dalga biçimlerine benzemesi için seçilmiş, sabit bir ortonormal (ilişkisiz) fonksiyon kümesi cinsinden çözümler.

Tüm sesler, yaklaşık 30 adet aynı ortonormal fonksiyonun toplamı olarak temsil edilir; farklı sesler için yalnızca fonksiyonların katsayıları değişir. 30 fonksiyondan oluşan bu kümenin, çoğu amaç için yeterli doğruluğu sağlaması beklenmektedir.