ยินดีต้อนรับสู่ "วาจา"



vaja_banner


ซอฟต์แวร์สังเคราะห์เสียงพูดภาษาไทย "วาจา" (VAJA) เป็นซอฟต์แวร์ที่แปลงข้อความภาษาไทยให้เป็นเสียงพูด โดยทีมวิจัยการเข้าใจเสียงและข้อความ (Speech and text understanding, STU) ได้ดำเนินการวิจัยและพัฒนาวาจาอย่างต่อเนื่องมาตั้งแต่ปี พ.ศ. 2540 จนมาถึงเวอร์ชันล่าสุด วาจา เวอร์ชัน 8.0 ที่ใช้เทคนิคการสังเคราะห์เสียงแบบจำลองทางสถิติ hidden Markov model ในการผลิตเสียง ซึ่งเทคนิคนี้มีจุดเด่นที่สำคัญก็คือช่วยแก้ปัญหาการสะดุดของเสียงที่เคยเกิดขึ้นจากเทคนิค unit-selection ในวาจาเวอร์ชัน 5.0 (สามารถรับฟังตัวอย่างผลลัพธ์ของวาจาเวอร์ชันต่าง ๆ ได้ในเมนู "ตัวอย่างเสียง")

วาจาเวอร์ชั่น 8.0 เป็นระบบสังเคราะห์เสียงพูดภาษาไทย ที่ถูกวิจัย และพัฒนา โดยทำการปรับปรุงและเปลี่ยนแปลงกระบวนการสร้างเสียงพูดที่ใช้งานอยู่ในเวอร์ชั่นเดิมให้ทำงานได้มีประสิทธิภาพและถูกต้องมากยิ่งขึ้น โดยการพัฒนาได้เข้าไปแก้ไขและปรับปรุงในทั้ง 3 ส่วนสำคัญของกระบวนการสร้างเสียงพูดจากข้อความภาษาไทย อันได้แก่ ส่วนประมวลผลข้อความ, ส่วนแปลงข้อความเป็นสัญรูปหน่วยเสียง และส่วนสังเคราะห์เสียง ซึ่งในส่วนประมวลผลข้อความ วาจา 8.0 นี้ ได้เสนอการใช้งานหน่วยย่อยพื้นฐานของการอ่าน มาช่วยในการตัดแบ่งเพื่อสร้างเสียงอ่านให้ถูกต้อง ที่เรียกว่า พยางค์เสมือน (pseudo syllable) ในส่วนของการแปลงข้อความเป็นสัญรูปหน่วยเสียง วาจา 8.0 นี้ได้วิจัยและนำเสนอแนวทางใหม่โดยอาศัยเทคนิคการรู้จำสายอักษรและคาดเดาสายสัญรูปเสียง (sequence-to-sequence) ที่สามารถทำงานได้อย่างมีประสิทธิภาพด้วยการใช้คุณสมบัติทางภาษาศาสตร์ของแต่ละอักขระที่ผสมอยู่ในคำมาร่วมในการสอน CRFs ที่ใช้ในการคาดเดาสัญรูปเสียงด้วย และในส่วนสุดท้าย ส่วนการสร้างเสียงพูด วาจา 8.0 ได้นำเอาเสียงจากฐานข้อมูลเสียงสองภาษามาใช้งานเพื่อให้ได้เสียงสังเคราะห์ทั้งภาษาไทยและภาษาอังกฤษ ที่ให้เสียงได้ทั้งเสียงผู้หญิงและเสียงผู้ชาย โดยทั้งสามส่วนถูกประกบรวมกันเพื่อทำงานได้อย่างถูกต้องทั้งบน Windows และ Linux