AI Digital Humans ตอนนี้เรามาถึงเลเวลไหนแล้ว ชี้อนาคตวงการปัญญาประดิษฐ์

29 Jul 2023

AI เข้ามามีส่วนร่วมกับชีวิตเรามากขึ้นเรื่อย ๆ ที่ถูกพูดถึงมากที่สุดตอนนี้ก็คงหนีไม่พ้น เทคโนโลยี AI เชิงสังเคราะห์หรือ GenAI (Generative AI) แบบข้อความ เช่น ChatGPT หรือ Bard ที่สามารถตอบคำถาม ได้ทุกเรื่อง

ซึ่งคำถามที่ทุกคนอยากรู้ และเฝ้ารอคอยก็คือ จะมีความสามารถอะไรออกมาเพิ่มอีก จะมี AI หรือ GenAI แบบอื่น ๆ ออกมาอีกไหม ดังนั้น วันนี้เรามาลองดูตัวอย่างที่ได้จาก GenAI แบบวีดีโอ

ซึ่งสามารถทำการสังเคราะห์วีดีโอ Digital Human (การใช้เทคโนโลยีคอมพิวเตอร์ และกราฟิก เพื่อสร้างภาพที่คล้ายคลึงกับมนุษย์ทั้งในรูปร่าง สีผิว ลักษณะใบหน้า และพฤติกรรม) ว่าไปถึงเลเวลไหนกันแล้ว ผ่านโชว์เคสหลากหลายตัวอย่างที่น่าสนใจ ในปัจจุบัน เช่น

“ผู้ประกาศข่าวที่ทำงานได้ 24 ชั่วโมงต่อวัน 7 วันต่อสัปดาห์” , “ครอบครัวทหารที่เกาหลี สามารถพูดคุยกับลูกที่เสียชีวิตจากสงครามเมื่อ 17 ปี” , “ชวนนั่งไทม์แมชชีนย้อนกลับไป 40 ปีเพื่อดูคอนเสิร์ต ABBA ตัวเป็น ๆ (แบบดิจิทัล) ที่ลอนดอน”

ข่าวที่เกี่ยวข้อง :

AI Reporter
วงการข่าวเป็นวงการแรก ๆ ที่มีการนำ AI Digital Humans มาใช้งาน โดยมีเป้าหมายอยู่ที่การสังเคราะห์วีดีโอ การรายงานข่าวของผู้สื่อข่าวจากสคริปต์ที่กำหนด โดยสามารถรายงานข่าวได้ตลอด 24 ชั่วโมง ซึ่งปัจจุบันหลายสำนักข่าวในต่างประเทศ ก็เริ่มมีการนำไปใช้งานจริง

ไม่ว่าจะเป็นผู้สื่อข่าว AI คนแรกของโลกจากสำนักข่าว Xinhua ของประเทศจีนที่นำเสนอข่าวภาษาจีน และภาษาอังกฤษ, คุณ Fedha ของคูเวตที่ได้เปิดตัวไปในทวิตเตอร์ของ Kuwait News เมื่อพฤษภาที่ผ่านมา, และในช่วง 2-3 เดือนที่ผ่านมา สำนักข่าวหลายที่ในอินเดีย (อินเดียมีภาษามากเป็นอันดับ 4 ของโลก) ก็มีการนำ digital humans มาใช้ ในการนำเสนอข่าวในภาษาต่าง ๆ ไม่ว่าจะเป็น สำนักข่าว OTV News นำเสนอคุณ Lisa ในการรายงานข่าวเป็นภาษาที่หลากหลาย รวมถึงภาษาโอเดีย ที่ใช้ในรัฐโอริศา, สำนักข่าว News18 ของรัฐหรยาณา ที่สามารถพูดภาษาปัญจาบ

เมื่อมองในภาพรวมของ AI-generated News Presenter ณ ตอนนี้ทุกสถานีส่วนมากจะพยายาม สร้างโมเดล นักข่าวที่เหมือนคนจริง ๆ มากกว่าแบบกึ่งเสมือนจริง หรือแบบการ์ตูน ซึ่งก็เลือกต้นแบบ มาจากผู้สื่อข่าว ที่เป็นแม่เหล็กของสถานีนั้น ๆ

ต่อจากนั้นก็ใช้เทคโนโลยี AI หลาย ๆ ตัวมาช่วยกันทำงาน ไม่ว่าจะเป็น การประมวลผลธรรมชาติ, การแปลงข้อความเป็นเสียง, และการแปลงเสียงเป็นท่าทางการเคลื่อนไหว มาช่วยทำให้โมเดลผู้สื่อข่าวสามารถสื่อสาร เล่าข่าว และรายงานข่าวได้ ซึ่งผลลัพธ์ในปัจจุบัน ก็เป็นที่น่าพอใจ ในระดับหนึ่งคือ มีน้ำเสียงที่เป็นธรรมชาติ และการเคลื่อนไหวก็ดูสมจริง

โดยแนวโน้มการพัฒนาเพิ่มเติมในอนาคต ก็จะเป็นเรื่องการปรับปรุงในส่วนของท่วงทำนอง และอารมณ์ในการพูดให้มีความหลากหลายเหมือนกับคนที่พูด ได้หลากหลายท่วงทำนองในสถานการณ์ที่แตกต่างกัน และนอกจากนี้ในส่วนของท่าทางการเคลื่อนไหวของร่างกาย รวมถึงการขยับไม้ ขยับมือ ที่ยังจำกัดอยู่ไม่กี่แพทเทิร์น ก็จะมีความอัตโนมัติ และหลากหลายมากขึ้นในอนาคต

นอกจากนี้อีกส่วนที่สำคัญก็คือการปฏิสัมพันธ์กับผู้ชม ในอนาคตอันใกล้ผู้ชมจะสามารถโทรศัพท์เข้าไปในรายการ เพื่อพูดคุยกลับผู้สื่อข่าว AI ได้โดยตรง หรือสามารถใช้ช่องทางสังคมออนไลน์โซเชียลต่าง ๆ ในการพูดคุยสอบถามเข้าไปได้แบบสด ๆ แทนที่จะเป็นการสร้างวีดีโอข่าวและนำเสนอแบบทางเดียวดังเช่นปัจจุบัน

Reborn by AI

เมื่อวันที่ 6 กรกฏาคม 2566 รายการทีวีหนึ่งของช่อง Defence News จากประเทศเกาหลีใต้ ได้แพร่ภาพการพูดคุยระหว่างนักบินรบคุณ Park In-cheol ที่เสียชีวิตจากสงครามไปเมื่อ 17 ปีที่แล้ว กับคุณแม่ Lee Joon-shin โดยที่คุณ In-cheol ปรากฎตัวบนจอภาพที่ตั้งอยู่ในห้องของสตูดิโอ และคุณแม่ Joon-shin ก็เดินเข้ามาในห้อง และมีการพูดคุยราว 11 นาที

สำหรับเทคนิคที่ทางรายการเลือกใช้ในครั้งนี้คือ เทคโนโลยี Deepfake (Deep learning and fake) โดยเบื้องต้นทางรายการจะทำการเลือกภาพนิ่งของ In-cheol ที่ต้องการ หลังจากนั้นจะทำการปรับแต่งภาพนิ่ง ให้สามารถพูดคุยได้โดยจะใช้เทคนิคการสลับหน้า (Face Swap) และการสังเคราะห์ หรือแปลงเสียง (Voice synthesis/ conversion)

ซึ่งในส่วนของการสลับหน้า ทางรายการก็จะทำการบันทึกวีดีโอของใครก็ได้ มาทำการพูดตามสคริปต์ที่ต้องการ เช่น Mom, I missed you แล้วก็จะทำการแปลงหน้าในวีดีโอนั้น ให้เป็นหน้าของบุคคลที่เราต้องการซึ่งในกรณีนี้คือคุณ In-cheol สำหรับการแปลงเสียงก็จะทำได้ทั้งการแปลงจากเสียงใด ๆ (ซึ่งกรณีนี้ก็จะเป็นเสียงที่บันทึกในวีดีโอ) เป็นเสียงคุณ In-cheol หรือการแปลงจากสคริปต์เป็นเสียงคุณ In-cheol

การนำ AI มาทำให้บุคคลที่เสียชีวิตไปแล้ว สามารถกลับมาพูดคุยได้ราวกับคนคนนั้นยังมีชีวิตอยู่นั้น ดังเช่นรายการนี้มีแนวโน้มที่จะเห็นมากขึ้นในอนาคต อาทิเช่น โปรเจกส์ Re;memory ของบริษัท Deepbrain AI ทำให้ผู้เสียชีวิตได้กลับมาพูดคุยกับลูกหลานในงานศพ

สำหรับข้อมูลเบื้องต้นที่ทางบริษัทต้องการก็คือ วีดีโอการพูดคุยสัมภาษณ์จำนวน 3 ชั่วโมง เพื่อเก็บเสียง และท่าทาง เพื่อนำไปใช้สำหรับฝึกฝนโมเดล ที่จะทำการสร้างเสียง และท่าทางให้เหมือนคนคนนั้นมากที่สุด และสุดท้ายก็นำโมเดลนี้มาสร้างเป็นวีดีโอในโอกาสพิเศษตามที่ต้องการ คิดว่าอีกหน่อยน่าจะมีวิธีการเก็บข้อมูลที่สะดวกขึ้น ไม่ต้องเดินทางไปบันทึกวีดีโอการสัมภาษณ์ถึงเกาหลีใต้

โดยแนวโน้มน่าจะมีวิธีการต่าง ๆ เพื่ออำนวยความสะดวก เช่นการเก็บข้อมูลผ่านทางเว็บไซด์ออกมาให้บริการ รวมถึงน่าจะมีการพัฒนาต่อให้เราสามารถพูดคุยโต้ตอบกับบุคคลที่เสียชีวิตไปแล้วได้ นอกเหนือไปจากการสร้างเป็นวีดีโอเพียงอย่างเดียว

ABBA’s Virtual Concert

AI Digital Humans ตอนนี้เรามาถึงเลเวลไหนแล้ว ชี้อนาคตวงการปัญญาประดิษฐ์

ABBA คือวงดนตรีป๊อบยุค 70 จากสวีเดน เป็นวงดนตรีที่ดัง และขายดีมากที่สุดวงหนึ่งในโลก โดยปัจจุบันสมาชิกแต่ละคนอายุเฉลี่ยประมาณ 70 ปีขึ้น แสดงคอนเสิร์ตครั้งสุดท้ายเมื่อ 40 ปีที่แล้ว และด้วยความก้าวหน้าของเทคโนโลยี จึงมีแนวคิดในการจัดคอนเสิร์ต ABBA อีกครั้งที่ลอนดอนเริ่มต้นในกลางปี 2022-ปัจจุบัน

โดยภาพที่ทุกคนจะเห็นบนเวทีนั้นจะเป็น ABBA เมื่อ 40 ปีที่แล้วมาทำการแสดง ร้อง เต้น เพลงฮิตที่ทุกคนชื่นชอบ ให้ทุกคนได้รับชม รับฟังกันอีกครั้งเหมือนเราได้นั่งไทม์แมชชีนย้อนกลับไปดูคอนเสิร์ตของวงในช่วงที่มีชื่อเสียง และได้รับความนิยมอย่างที่สุด

โดยผลตอบรับที่ได้จากผู้ที่ไปรับชมคอนเสิร์ตส่วนใหญ่ก็ชื่นชอบ และมีความสุขที่ได้รับชม ABBAtars (ABBA Avatars) ในตลอดระยะเวลา 90 นาทีที่ดูสมูธ และสมจริง ไม่ว่าจะเป็นท่วงท่าการแสดงการเคลื่อนไหว การโซโลกีตาร์ การกดเปียโน การร้อง การเต้น ฯลฯ โดยเบื้องหลังการทำงานนั้นเบื้องต้นจะทำการสร้างโมเดล 3 มิติแบบเสมือนจริงของศิลปินแต่ละท่าน

หลังจากนั้นทางบริษัท Industrial Light & Magic จะทำการบันทึกการร้อง และการเต้นของสมาชิกทั้ง 4 คนของ ABBA ผ่านชุดสูทโมชันแค๊ฟเจอร์ หลังจากนั้นจะทำการแปลงข้อมูลโมชันวีดีโอที่ได้เป็นอนิเมชันซึ่งวิธีนี้จะทำให้ ABBAtars มีการพูด, การร้อง และการเคลื่อนไหวที่ดูสมจริง และเป็นธรรมชาติ ในส่วนของการแสดงผลให้ผู้ชมได้รับชมนั้นไม่ได้ใช้ hologram หรือ green screen ดังเช่นหลาย ๆ คอนเสิร์ตที่ผ่านมา

แต่ใช้เทคนิคการความคุมแสง และภาพในส่วนที่เป็น virtual (ABBatars และดิจิทัลซีน) และ physical (นักดนตรี, แดนเซอร์, อุปกรณ์บนเวที) บนจอภาพขนาดใหญ่ 65 ล้านพิกเซล ในระหว่างการแสดงก็จะมีโปรดิวเซอร์ในการกำกับคิวต่าง ๆ เช่น จังหวะไหนควรจะแสดง, พูดอะไร หรือหยุดพูดในบางจังหวะถ้ามีเสียงเชียร์ หรือเสียงปรบมืออยู่ เป็นต้น

โดยสรุปจากความสำเร็จของ ABBA การรับชมคอนเสิร์ตจะไม่เหมือนเดิมอีกต่อไป และมีแนวโน้มที่จะเห็นคอนเสิร์ตแบบดิจิทัล หรือรูปเสมือน (Virtual) ของศิลปินอื่น ๆ ได้มากขึ้นในอนาคต