Günümüzde sesli komut sistemi ve sesli asistanlar; cep telefonları, bilgisayarlar ve akıllı hoparlörler gibi günlük olarak kullandığımız birçok cihaza entegre edilmiştir. Bir tarafta çeşitli entegrasyonlarıyla nitelikli özellikler sunan, diğer tarafta hemen hemen her durumda yardımcı olmak için açık uçlu olmayı tercih eden pek çok sesli asistan, sesli komut sistemi sayesinde hayatımızı kolaylaştırıyor.

Bu yazımızda sesli asistan ve diğer sesli komut uygulamaları hakkında detaylı bilgi verirken “Sesli komut sistemi nedir?” ve “Ses tanıma nedir?” gibi soruları da cevaplandırmaya çalışacağız. 

Sesli Komut Sistemi Nedir?

Sesli komut sistemi, uyumlu yazılım ve donanımlar sayesinde yalnızca konuşarak, herhangi bir yere tıklamadan, düğmelere basmadan ya da yazı yazmadan işlerinizi halledebileceğiniz bir sistemi ifade eder. İçine sesli komut sistemi dahil edilmiş modern teknolojik cihazlar sayesinde eller serbest (hands-free) bir şekilde pek çok komutun yerine getirilmesini sağlayabilirsiniz.

Sesli komut sistemi ile mobil cihazlarınızın hemen hemen her fonksiyonunu yönetebilir, arabanızın donanımsal özelliklerini kontrol edebilir, hatta akıllı bir asistan sayesinde kahve makinesinden klimaya evinizdeki akıllı cihazların tamamını çalıştırabilirsiniz. 

Sesli Asistan Nedir?

Sesli asistan, belirli sesli komutları dinlemek ve kullanıcı tarafından talep edildiği şekilde belirli işlevleri gerçekleştirmek için ses tanıma, dil işleme algoritmaları ve ses sentezini kullanan dijital bir yardımcıdır.

Kullanıcı tarafından verilen ve bazen niyet olarak adlandırılan belirli komutlara dayanan sesli asistanlar, ortam gürültüsünü filtreleyerek belirli anahtar kelimeleri seçer ve alakalı bilgileri aktarır.

Sesli asistanlar tamamen yazılım tabanlı olabilir ve çoğu cihaza entegre edilebilirken, Amazon Alexa gibi bazı asistanlar, tek cihaz uygulamaları için tasarlanmıştır.

Sesli Komut Sistemi Nasıl Çalışır?

Sesli komut sistemi teknolojisi kulağa basit gelse de çalışma şekli aslında oldukça karmaşıktır. İlk olarak, konuşma tanıma yazılımı konuştuğunuzda sesleri filtreler ve bunları kendi okuyabileceği bir biçime çevirir. Ardından, bu çeviriyi anlam açısından analiz eder ve ne söylediğinizi tahmin etmek için algoritmayı ve önceki girdileri kullanır.

Sesle etkinleştirilen bir teknolojiyi kullanan yalnızca bir kişi varsa sistemin o kişiyi ve söylediklerini anlama yeteneği zamanla gelişecek ve giderek daha doğru hale gelecektir. Farklı diller, lehçeler ve farklı kullanıcıların sesleri hesaba katıldığında işler ses tanıma sistemi için çok daha karmaşık hale gelir. Arka plan gürültüsü veya ses tonlamaları gibi değişkenler bile sesle etkinleştirilen teknolojinin bir konuşmacıyı nasıl anladığını etkileyebilir.

Sesle etkinleştirilen birçok teknoloji türü, dili çocuklar gibi öğrenir. The Linguistic Society of America, “Çocukların dili hızlı, kolay ve çaba harcamadan veya resmi bir öğretim olmadan öğrendiğini” iddia eder ve “Kendisiyle hiç konuşulmayan çocuklar dil öğrenemezler,” der. Başka bir deyişle çocuklar dili, insanların onu çevrelerinde nasıl kullandıklarını takip ederek öğrenirler. Benzer şekilde ses tanıma sistemleri, insan dilindeki kalıpları tanımayı ve bağlantılar kurmayı öğrenmek için dil girdisi almalı ve etkileşime girmelidir. Bu girdi ve eğitim olmadan birçok ses tanıma sistemi muhtemelen şu anda olduğu kadar iyi veya doğru şekilde çalışamazdı.

Tüm bu zorluklara rağmen sesli komut sistemi teknolojisi, insan konuşmasını anlamak konusunda gelişmeye devam ediyor. Örneğin 2016 yılının sonunda Microsoft, konuşma tanıma teknolojilerinin insanlarınkine benzer bir anlama seviyesine ulaştığını açıkladı. Benzer bir şekilde Google’ın kendi ses tanıma yazılımı ise kısa bir süre sonra %95 tanıma doğruluğu düzeyine ulaştı. 

Sesli Asistanların Arkasındaki Teknoloji

Sesli asistanlar, kullanıcının aradığı sonucu doğru ve verimli bir şekilde sunmak için yapay zeka ve ses tanıma sistemlerini kullanır. Bir bilgisayardan bir zamanlayıcı ayarlamasını istemek basit gibi görünse de arkasındaki teknoloji büyüleyicidir.

Ses Tanıma

Ses tanıma, kullanıcının sesinden bir analog sinyal alıp onu dijital bir sinyale dönüştürerek çalışır. Bunu yaptıktan sonra, bilgisayar dijital sinyali alır ve kullanıcının niyetini anlamak için onu kelimeler ve ifadelerle eşleştirmeye çalışır. Bunun için bilgisayar, belirli bir dilde var olan kelimeler ve hecelerden oluşan bir veri tabanına ihtiyaç duyar. Bu veri tabanı ile giriş sinyalinin kontrol edilmesi, ‘model tanıma’ olarak bilinir. Bu, ses tanıma teknolojisinin arkasındaki birincil güçtür.

Yapay Zeka

Yapay zeka, insan zekasını simüle etmek ve kopyalamak için makineleri kullanır.

Alan Turing 1950’de “Bilgisayar Makineleri ve Zeka” başlıklı makalesini yayımlamıştır ve bu makalede ilk kez “Makineler düşünebilir mi?” sorusunu sormuştur. Alan Turing daha sonra, bir bilgisayarın insan gibi düşünme yeteneğini test etmek için bir değerlendirme yöntemi olan Turing Testi’ni geliştirmiştir. Daha sonra geliştirilen yapay zekanın, insani düşünmeyi ve davranmayı tanımlayan dört yaklaşımı vardır. İlk ikisi akıl yürütme ile, diğer ikisi gerçek davranışlarla ilgilenmiştir. 

Modern yapay zeka, tipik olarak insan etkileşimi gerektiren görevleri gerçekleştirmek için tasarlanmış bir bilgisayar sistemi olarak kabul edilir. Bu sistemler, ‘makine öğrenimi’ olarak bilinen bir süreci kullanarak kendilerini geliştirebilirler.

Makine Öğrenimi

Makine öğrenimi, programı manüel olarak oluşturan kodlayıcılar olmadan programların oluşturulduğu yapay zeka alt kümesini ifade eder. Programcılar, programın tamamını kendi başlarına yazmak yerine, tanıması ve öğrenmesi için yapay zekaya önce bazı kalıplar, ardından gözden geçirmesi ve çalışması için büyük miktarda veri verir. Böylece yapay zeka, uyması gereken belirli kurallara sahip olmak yerine bu verilerdeki kalıpları arar ve var olan işlevlerini geliştirmek için kullanır. 

Geleneksel programlar bir çıktıyı geliştirmek için bir girdi ve kurallar gerektirirken, makine öğrenme araçlarına bir girdi ve bir çıktı verilir, ardından bu verilerle programın kendi kendine öğrenmesi sağlanır. 

Sesli Asistan Yaklaşımları

Günümüzde birçok sesli asistan, bir kullanıcının verebileceği hemen hemen her görevi gerçekleştirmek için hem görev odaklı hem de bilgi odaklı iş akışını birleştirmektedir. Görev odaklı bir iş akışı bir form doldurmayı içerebilirken bilgi odaklı bir iş akışı bir devletin sermayesinin ne olabileceğini yanıtlamayı veya bir ürünün teknik özelliklerini belirlemeyi içerebilir.

Görev Odaklı Yaklaşım

Görev odaklı yaklaşım, kullanıcının ihtiyaç duyduğu şeyi elde etmek için görev hedeflerini kullanmaktır. Bu yaklaşım, görevleri tamamlamaya yardımcı olmak için genellikle kendisini diğer uygulamalarla bütünleştirir. Örneğin, sesli komut ile bir asistandan saat 15.00 için bir alarm kurulması istendiğinde, asistan bunun bir görev isteği olduğunu anlar ve varsayılan saat uygulamasıyla iletişim kurarak 15.00 için bir alarm kurar. Ardından sesli asistan, alarma verilecek isim gibi başka bir şeyin gerekli olup olmadığını görmek için uygulamayla iletişim kurar ve bu ihtiyacı kullanıcıya geri iletir. Bu yaklaşım, esas olarak diğer kurulu uygulamaların bilgisini ve halihazırda mevcut becerilerini kullandığından, kapsamlı bir çevrimiçi veri tabanı gerektirmez.

Bilgi Odaklı Yaklaşım

Bilgi odaklı yaklaşım, kullanıcılara görevlerinde yardımcı olmak için analitik verilerin kullanılmasıdır. Bu yaklaşım, görevleri tamamlamaya yardımcı olmak için çevrimiçi veri tabanlarını ve önceden kaydedilmiş bilgileri kullanmaya odaklanır. Örneğin, bir kullanıcı internet araması istediğinde, sesli asistan ilgili sonuçları incelemek ve en uygun sonucu önermek için çevrimiçi veri tabanlarını kullanır. Kullanıcı bir soru soruyorsa sistem, görevleri tamamlamak veya cevapları bulmak için diğer uygulamayla çalışmak yerine çevrimiçi veri arar.

Ses Tanıma Nedir?

Ses tanıma sistemi, insan sesini deşifre etme yeteneğine sahip bir yazılım programı veya donanım cihazı kullanımıdır. Bazen sesle etkinleştirilen ve ‘konuşma tanıma yazılımı’ olarak da adlandırılan bu teknoloji, son yıllarda tüketiciler arasında giderek daha popüler hale geliyor. Birçok kişi, komutları yerine getirmek, bilgi bulmak veya daha rahat kayıt yapmak için bu yazılımları günlük hayatın çeşitli alanlarında kullanıyor.

Sesli komut sistemi ile dirsek temasında olan ses tanıma sistemi, yalnızca tanımlı kullanıcıların konuşmasına tepki verdiği için güvenlik açısından da son derece verimli sonuçlar doğuruyor. Örneğin telefonla bankacılık hizmetlerinde ses tanıma sistemi hızla yayılan bir güvenlik önlemi. Aynı zamanda sesli komut ile açılıp kilitlenebilen kasalar, yalnızca kullanıcısı tarafından açılabilen ve kullanılabilen bilgisayarlar ve mobil cihazlar ses tanıma sistemi sayesinde çok daha güvenli.