Pengenalan ucapan atau pengenalan
wicara—dalam istilah bahasa Inggrisnya, automatic speech recognition (ASR)—adalah
suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk
menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu
perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata
dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu
yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya
menjadi sinyal digital dengan cara mengubah gelombang suara menjadi
sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk
mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang
diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh
perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan,
misalnya penekanan tombol pada telepon genggam yang dilakukan secara
otomatis dengan komando suara.
Alat pengenal
ucapan, yang sering disebut dengan speech recognizer, membutuhkan sampel
kata sebenarnya yang diucapkan dari pengguna. Sampel kata akan didigitalisasi,
disimpan dalam komputer, dan kemudian digunakan sebagai basis data dalam
mencocokkan kata yang diucapkan selanjutnya. Sebagian besar alat pengenal
ucapan sifatnya masih tergantung kepada pembicara. Alat ini hanya dapat
mengenal kata yang diucapkan dari satu atau dua orang saja dan hanya bisa
mengenal kata-kata terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat
jeda antar kata. Hanya sebagian kecil dari peralatan yang menggunakan teknologi
ini yang sifatnya tidak tergantung pada pembicara. Alat ini sudah dapat
mengenal kata yang diucapkan oleh banyak orang dan juga dapat mengenal
kata-kata kontinu, atau kata-kata yang dalam penyampaiannya tidak terdapat jeda
antar kata.
Pengenalan ucapan
dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses
identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi
menjadi dua, yaitu pengenalan pembicara (identifikasi suara berdasarkan orang
yang berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan kata yang
diucapkan).
Perkembangan
alat pengenal ucapan
Sejak tahun 1940,
perusahaan American Telephone and Telegraph Company (AT&T) sudah
mulai mengembangkan suatu perangkat teknologi yang dapat mengidentifikasi kata
yang diucapkan manusia. Sekitar tahun 1960-an, para peneliti dari perusahaan
tersebut sudah berhasil membuat suatu perangkat yang dapat mengidentifikasi
kata-kata terpisah dan pada tahun 1970-an mereka berhasil membuat perangkat
yang dapat mengidentifikasi kata-kata kontinu. Alat pengenal ucapan kemudian
menjadi sangat fungsional sejak tahun 1980-an dan masih dikembangkan dan terus
ditingkatkan keefektifannya hingga sekarang.
Skema Utama dan Algoritma Speech
Recognition
- Terdapat 4 langkah utama dalam sistem pengenalan suara:
- Penerimaan data input
- Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
- Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.
- Validasi identitas pengguna.
Secara
umum, speech recognizer memproses sinyal suara yang masuk dan menyimpannya
dalam bentuk digital. Hasit proses digitalisasi tersebut kemudian dikonversi
dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan
template suara pada database sistem.
Sebelumnya, data
suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya.
Pemilahan ini dilakukan agar proses analisis dapat dilakukan secara paralel.
Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum
suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang
dibagi menjadi dua bagian :
- Transformasi gelombang diskrit menjadi array data.
- Untuk masing-masing elemen pada aiTay data, hitung "ketinggian" gelombang (frekuensi).
- Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.
Ketika mengkonversi
gelombang suara ke dalam bentuk diskrit, gelombang diperlebar dengan cara
memperinci berdasarkan waktu. Hal ini dilakukan agar proses algontma seianjutnya
(pencocokan) lebih mudah diiakukan. Namun, efek buruknya ialah array of array
data yang terbentuk akan lebih banyak.
Dari
tiap elemen array data tersebut, dikonversi ke dalam bentuk bilangan biner. Data
biner tersebut yang nantinya akan dibandingkan dengan template data suara.
Proses
divide and conquer:
- Pilih sebuah angkaN, dimana N merupakan bilangan bulat kelipatan 2.Bilangan ini berfungsi untuk menghitung jumlah elemen transformasi FFT.
- Bagi dua data diskrit secara (dengan menerapkan algoritma divide and conquer) menjadi data diskrit yang lebih kecii berukuran N = N,.N2.
- Objek data dimasukkan ke dalam table (sebagai elemen tabel).
- Untuk setiap eiemen data, dicocokkan dengan data pada template (pada data template juga dilakukan pemrosesan digitaiisasi menjadi data diskrit, dengan cara yang sama dengan proses digitaiisasi data masukan bam yang ingin dicocokkan).
- Setiap upa masalah disatukan kembali dan dianalisis secara keseluruhan, kecocokan dari segi tata bahasa dan apakah data yang diucapkan sesuai dengan kata yang tersedia pada template data.
- Verifikasi data. Jika sesuai, proses iebih lanjut, sesuai dengan aplikasi yang mengimplementasikan algoritma ini.
Implementasi
Speech Recognition
Hardware yang
dibutuhkan dalam implementasi Speech Recognition :
- Sound card : Merupakan perangkat yang ditambahkan dalam suatu Komputer yang fungsinya sebagai perangkat input dan output suara untuk mengubah sinyal elektrik, menjadi analog maupun menjadi digital.
- Microphone : Perangkat input suara yang berfungsi untuk mengubah suara yang melewati udara, air dari benda orang menjadi sinyal elektrik.
- Komputer atau Komputer Server : Dalam proses suara digital menterjemahkan gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor biner yang dapat diproses lagi kemudian diidentifikasikan dan dicocokan dengan database yang berisi berkas suara agar dapat dikenali.
Contoh Implementasi teknologi Speech Recognition :
Saat
ini pada tahun 2010 Microsoft windows vista dan windows 7 , speech recognition
telah disertakan dalam system operasinya . sebagaimana fungsi dari speech
recognition menterjemahkan pengucapan kata – kata kedalam bentuk teks digital. Salah
satu implementasi speech recognition adalah pada konfrensi PBB dimana seluruh
Negara tergabung dalam keanggotaan nya , fungsi speech recognition dalam hal
ini menterjemahkan bahasa pembicara dari suatu Negara kedalam bahasa yang
dipahami pendengar . Contoh penggunaan lain speech recognition adalah Perawatan
kesehatan.
Dalam
perawatan kesehatan domain, bahkan di bangun meningkatkan teknologi pengenalan
suara, transcriptionists medis (MTs) belum menjadi usang. Layanan yang
diberikan dapat didistribusikan daripada diganti. Pengenalan pembicaraan
dapat diimplementasikan di front-end atau back-end dari proses dokumentasi
medis. Front-End SR adalah salah satu alat untuk mengidentifikasi kata-kata
yang ucapkan dan ditampilkan tepat setelah mereka berbicara Back-End SR atau SR
tangguhan adalah di mana penyedia menentukan menjadi sebuah sistem dikte
digital, dan suara yang diarahkan melalui pidato-mesin pengakuan dan draft
dokumen diakui dirutekan bersama dengan file suara yang asli ke MT / editor,
yang mengedit draft dan memfinalisasi laporan. Ditangguhkan SR sedang banyak
digunakan dalam industri saat ini.
Banyak aplikasi
Electronic Medical Records (EMR) dapat menjadi lebih efektif dan dapat
dilakukan lebih mudah bila digunakan dalam hubungannya dengan pengenalan-mesin
bicara. Pencarian, query, dan pengisian formulir semua bisa lebih cepat untuk
melakukan dengan suara dibandingkan dengan menggunakan keyboard.
Sumber :
https://id.wikipedia.org/wiki/Pengenalan_ucapan
http://kuliah319.blogspot.com/2011/02/speech-recognition-dengan-algoritma-fft.html
http://citraanindya.blog.upi.edu/2009/06/25/tugas-artikel-300-kata/
http://kuliah319.blogspot.com/2011/02/speech-recognition-dengan-algoritma-fft.html



Tidak ada komentar:
Posting Komentar