อาจารย์คณะวิศวะฯ จุฬาฯ ออกแบบ “Gowajee” (โก วา จี) นวัตกรรม AI สัญชาติไทย แปลงเสียงเป็นข้อความและข้อความเป็นเสียง ช่วยการคัดกรองผู้ป่วยซึมเศร้า โดยจำแนกอารมณ์จากเสียงพูด บางครั้งผู้ป่วยพูดไปร้องไห้ไป ซึ่งทำให้ฟังยากขึ้น แต่ Gowajee สามารถถอดความสำคัญออกมาได้
ทำความรู้จัก AI สัญชาติไทยแท้ “Gowajee” นวัตกรรมคนไทย ทุกวันนี้เราเริ่มคุ้นชินกับการใช้เสียงออกคำสั่งหรือบอกให้โปรแกรม AI (Artificial Intelligence หรือ ปัญญาประดิษฐ์) อย่าง Google หรือ Siri เพื่อค้นหาหรือทำงานตามที่เราต้องการ แทนการสัมผัสแป้นพิมพ์อักษร แต่ AI voice เหล่านั้น ดูเหมือนจะไม่ค่อยเข้าใจโทนเสียงภาษาไทยที่เราพูดนัก เพราะถูกพัฒนามาจากบริษัทต่างชาติ ซึ่งเน้นการใช้งานกับหลายภาษาโดยเฉพาะภาษาสากล เช่น ภาษาอังกฤษ หลายครั้งก็แปลงเสียงเป็นข้อความที่ไม่ตรง ทำให้เราต้องปรับการออกเสียงภาษาไทยเพื่อให้เข้ากับ AI
จากปัญหาดังกล่าว อาจารย์ ดร.เอกพล ช่วงสุวนิช อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย และทีมได้พัฒนา AI สัญชาติไทยแท้ “Gowajee” (อ่านว่า โก-วาจี) ที่เข้าใจภาษาไทยโดยเฉพาะ เพื่อตอบโจทย์การถอดความภาษาไทยที่แม่นยำและเป็นธรรมชาติมากขึ้นพิสูจน์ผ่านการใช้งานจริงแล้วว่ามีข้อผิดพลาดทางภาษาเพียง 9% เท่านั้นเมื่อเทียบกับ AI ถอดความอื่นๆ ที่มีความผิดพลาดราว 15%
ข่าวที่เกี่ยวข้อง
ดร.เอกพล และทีมงานของคณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ระบุว่า Gowajee ได้เริ่มเก็บฐานข้อมูลเสียงภาษาไทยมาตั้งแต่ปี 2560 จนปัจจุบัน โดยเก็บข้อมูลเสียงภาษาไทยหลายรูปแบบและวิธีการมีทั้งเปิดเว็บไซต์ให้คนเข้ามาอ่านข้อความเพื่อเก็บฐานข้อมูลเสียง จ้างคนมานั่งสนทนากัน หรือจ้างนักแสดงมาพูดสื่อสารอารมณ์ ทั้งหมดรวมแล้วกว่า 5,000 ชั่วโมง จนมั่นใจว่าเรามีข้อมูลมากเพียงพอในการถอดความภาษาไทยได้อย่างแม่นยำ โดยการค้นความหมายในเสียง Gowajee ยังสามารถช่วยคัดกรองผู้ป่วยซึมเศร้า เพราะจากการเก็บข้อมูลเสียงที่สื่ออารมณ์ต่างๆ
นอกจากนี้ ทีม Gowajee ได้เข้าไปมีส่วนช่วยพัฒนาระบบของแอปพลิเคชัน DMIND ที่ทำหน้าที่ช่วยคัดกรองผู้ป่วยโรคซึมเศร้า โดยทีม Gowajee ของคณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ยังได้พัฒนาให้ Gowajee สามารถจำแนกอารมณ์จากเสียงพูด เพื่อนำไปวิเคราะห์คัดกรองกลุ่มเสี่ยงอีกด้วย
บางครั้ง ผู้ป่วยจะพูดไปร้องไห้ไป ซึ่งทำให้ฟังยากขึ้น แต่ Gowajee ก็ทำงานได้ค่อนข้างดี สามารถจับคำสำคัญให้ได้เพื่อถอดความสำคัญออกมา ซึ่งเป็นอีกหนึ่งนวัตกรรมช่วยเหลือสังคมของ คณะวิศวกรรมศาสตร์ จุฬาฯ
Gowajee สามารถประยุกต์ใช้งานได้ 3 ลักษณะสำคัญ ได้แก่
1. Automated Speech Recognition (ASR) การทำงานของ Gowajee ในลักษณะของการถอดความ คือ เมื่อเราพูดอะไรลงไป โปรแกรมก็จะแปลงสิ่งที่เราพูดให้ออกมาเป็นข้อความ โดยมีจุดเด่นที่สามารถถอดความภาษาไทยปนอังกฤษได้เป็นอย่างดี ยกตัวอย่างการใช้งานในการเรียนรู้ เวลาเราฟังเลคเชอร์ หากเราบันทึกเสียงอาจารย์เอาไว้ โปรแกรมก็จะช่วยถอดความออกมาเป็นตัวหนังสือให้เราใช้ในการค้นหาส่วนที่ต้องการได้เลย ไม่ต้องคอยฟังทั้งหมด
2. Text-to-Speech (TTS) เป็นการทำงานในลักษณะของการแปลงข้อความให้เป็นเสียงพูด อย่างที่เราคุ้นเคยกับการใช้ Google หรือ Siri ในการช่วยอ่านข้อความ แต่ทว่า สำหรับองค์กรหรือบริษัทแล้ว การมีเสียงที่เป็นตัวแทนขององค์กรโดยเฉพาะ จะเป็นการสร้างอัตลักษณ์ขององค์กร ซึ่งทาง Gowajee มีกระบวนการสร้างเสียงจำเพาะที่มีงานวิจัยรองรับว่าเสียงที่ออกมาจะสมจริง
3. Automatic Speaker Verification (ASV) เป็นการยืนยันตัวตนผู้พูดด้วยเสียง ซึ่งสามารถนำมาใช้เพื่อยืนยันตัวตนในการติดต่อกับคอลเซ็นเตอร์ หรือนำมาใช้เพื่อบ่งบอกว่าใครพูดเมื่อใด
จุดเด่นของ Gowajee ที่เหนือกว่า AI ถอดความอื่นๆ
Gowajee มีจุดเด่น เรื่อง “ความปลอดภัยของข้อมูล” เพราะโดยปกติแล้ว เวลาเราใช้โปรแกรมถอดความของเจ้าอื่นๆ ข้อมูลจะถูกเก็บไว้บนคลาวด์ (Cloud) หรือทำการประมวลผลข้อมูลที่คอมพิวเตอร์ของผู้ให้บริการ แต่สำหรับ Gowajee ข้อมูลเหล่านี้จะถูกเก็บอยู่ในฐานข้อมูลของผู้ใช้เอง สำหรับธุรกิจที่ต้องการความปลอดภัยของข้อมูล เช่น ธุรกิจจำพวกธนาคารหรือประกันภัย จะสามารถสร้างความอุ่นใจให้กับผู้ใช้ได้มากขึ้น