EchoSpeech ปฏิวัติการสื่อสารด้วยเทคโนโลยี “การพูดไร้เสียง” (Silent-Speech Recognition)

นักวิจัยจาก Cornell University ได้พัฒนา EchoSpeech ซึ่งเป็นอินเทอร์เฟซการจำเสียงพูดแบบไร้เสียงที่ใช้การตรวจจับเสียงและปัญญาประดิษฐ์เพื่อจดจำคำสั่งที่ไม่มีเสียงพูดได้สูงสุด 31 คำสั่งตามการเคลื่อนไหวของริมฝีปากและปากอย่างต่อเนื่อง อินเทอร์เฟซแบบสวมใส่ที่ใช้พลังงานต่ำนี้สามารถใช้งานได้บนสมาร์ทโฟนและต้องการข้อมูลการฝึกอบรมผู้ใช้เพียงไม่กี่นาทีในการจดจำคำสั่ง

รุ่ยตง จาง นักศึกษาปริญญาเอกด้านวิทยาการข้อมูล เป็นผู้เขียนนำเรื่อง “EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing” ซึ่งจะนำเสนอในการประชุม Association for Computing Machinery Conference on Human Factors in Computing Systems (CHI) ในเดือนนี้ที่เมืองฮัมบูร์ก ประเทศเยอรมนี เขากล่าวว่า “สำหรับผู้ที่ไม่สามารถเปล่งเสียงได้ เทคโนโลยีเสียงพูดไร้เสียงนี้อาจเป็นอินพุตที่ยอดเยี่ยมสำหรับเครื่องสังเคราะห์เสียง มันสามารถให้เสียงของผู้ป่วยกลับมาได้”

ในรูปแบบปัจจุบัน EchoSpeech สามารถใช้เพื่อสื่อสารกับผู้อื่นผ่านสมาร์ทโฟนในสภาพแวดล้อมที่การพูดไม่สะดวกหรือไม่เหมาะสม เช่น ร้านอาหารที่มีเสียงดังหรือห้องสมุดที่เงียบสงบ อินเทอร์เฟซเสียงพูดแบบเงียบยังสามารถจับคู่กับสไตลัสและใช้กับซอฟต์แวร์การออกแบบเช่น CAD ซึ่งจะช่วยลดความจำเป็นในการใช้แป้นพิมพ์และเมาส์ได้อย่างมาก

มาพร้อมกับไมโครโฟนและลำโพงที่มีขนาดเล็กกว่ายางลบดินสอ แว่นตา EchoSpeech ทำหน้าที่เป็นระบบโซนาร์ที่ขับเคลื่อนด้วย AI ส่งและรับคลื่นเสียงผ่านใบหน้าและตรวจจับการเคลื่อนไหวของปาก อัลกอริทึมการเรียนรู้เชิงลึกจะวิเคราะห์โปรไฟล์เสียงสะท้อนเหล่านี้แบบเรียลไทม์ด้วยความแม่นยำประมาณ 95%

เฉิง จาง ผู้ช่วยศาสตราจารย์ด้านวิทยาการข้อมูลและผู้อำนวยการห้องทดลอง Smart Computer Interfaces for Future Interactions (SciFi) ของ Cornell กล่าวว่า “เรากำลังย้ายโซนาร์เข้าสู่ร่างกาย”

เทคโนโลยีการรู้จำเสียงพูดแบบไร้เสียงที่มีอยู่โดยทั่วไปอาศัยชุดคำสั่งที่กำหนดไว้ล่วงหน้าที่มีอยู่อย่างจำกัด และผู้ใช้จำเป็นต้องเผชิญหน้าหรือสวมกล้อง เฉิง จาง อธิบายว่าสิ่งนี้ไม่สามารถทำได้จริงหรือเป็นไปได้และยังทำให้เกิดข้อกังวลด้านความเป็นส่วนตัวที่สำคัญสำหรับทั้งผู้ใช้และผู้ที่พวกเขาโต้ตอบด้วย

ตามข้อมูลของฟรองซัวส์ กึมเบรอตีแยร์ ศาสตราจารย์ด้านวิทยาการข้อมูลระบุว่า เทคโนโลยีการตรวจจับเสียงของ EchoSpeech ช่วยลดความจำเป็นในการใช้กล้องวิดีโอ นอกจากนี้ด้วยความที่ข้อมูลเสียงมีขนาดเล็กกว่าข้อมูลภาพหรือวิดีโอ จึงต้องมีการใช้แบนด์วิธในการประมวลผลที่น้อยกว่า เพื่อส่งไปยังสมาร์ทโฟนผ่านบลูทูธได้แบบเรียลไทม์

ที่มา : unite.ai

Tags:

No responses yet

Leave a Reply

Your email address will not be published. Required fields are marked *

Latest Comments

No comments to show.