SHORT CUT
DeepMind ของ Google ประกาศเปิดตัว Veo 2 โมเดลสร้างวิดีโอด้วย AI รุ่นใหม่ที่สานต่อการพัฒนาจาก Veo ซึ่งมาพร้อมกับความสามารถในการสร้างสรรค์คลิปความยาว 2 นาทีขึ้นไปด้วยความละเอียดสูงสุดที่ระดับ 4k
อย่างไรก็ตาม ข้อมูลดังกล่าวยังเป็นเพียงข้อได้เปรียบทางทฤษฎีในตอนนี้ เนื่องจากในการสร้างคลิปวิดีโอด้วย Veo 2 ที่มีให้บริการบน VideoFX เครื่องมือสำหรับทดลองสร้างวิดีโอของ Google พบว่า ความละเอียดของวิดีโอยังถูกจำกัดไว้ที่ 720p และมีความยาว 8 วินาที เมื่อเทียบกับโมเดล Sora ซึ่งสามารถสร้างคลิปได้สูงสุด 1080p และความยาว 20 วินาที
เช่นเดียวกับโมเดลสร้างวิดีโอรุ่นก่อน อย่าง Veo เนื่องจาก Veo 2 สามารถสร้างวิดีโอตามข้อความที่ผู้ใช้ป้อนข้อมูล อย่าง ข้อความ รูปภาพหรือวิดีโอที่มีอยู่ลงไป เช่น รถซิ่งบนทางด่วน จากนั้น AI ก็จะสร้างวิดีโอออกมาให้สมบูรณ์ ซึ่งทาง DeepMind ระบุว่า สิ่งที่มาใหม่ใน Veo 2 คือ โมเดลรุ่นล่าสุดนี้สามารถสร้างสรรค์คลิปได้หลากหลายสไตล์ และมีความเข้าใจที่ดีขึ้นเกี่ยวกับฟิสิกส์ การควบคุมกล้องและการสร้างภาพได้ชัดเจนขึ้น
DeepMind เสริมว่า พื้นผิวและรูปภาพในคลิปจะมีความคมชัดมากขึ้น โดยเฉพาะในฉากที่มีการเคลื่อนไหวไปมาค่อนข้างมาก และสำหรับการควบคุมกล้องที่ได้รับการปรับปรุงให้ดีขึ้นนั้น ทาง Google ได้พัฒนาให้ Veo 2 สามารถวางตำแหน่งกล้องในวิดีโอได้แม่นยำยิ่งขึ้น และย้ายกล้องให้เคลื่อนไปจับภาพวัตถุหรือบุคคลจากมุมที่แตกต่างกันได้
DeepMind ยังอ้างว่า Veo 2 สามารถสร้างแบบจำลองการเคลื่อนไหว พลศาสตร์ของไหล เช่น การเทกาแฟลงในแก้ว คุณสมบัติของแสง เช่น เงาและการสะท้อน ได้สมจริงมากขึ้น ซึ่งรวมถึง เลนส์และเอฟเฟกต์ภาพที่แตกต่างกัน ยังไม่รวมถึง การแสดงออกทางสีหน้าของมนุษย์ที่เหมาะสมยิ่งกว่าเดิม
อย่างไรก็ตาม แม้ DeepMind จะยืนกรานว่า โมเดลรุ่นนี้มีโอกาสน้อยที่จะเกิดอาการหลอนต่าง ๆ อย่าง นิ้วที่เกินมาหรือวัตถุที่ไม่คาดคิด แต่ Techcrunch มองว่า Veo 2 ยังไม่สามารถแก้ “Uncanny Valley” หรือหุบเขาแห่งความประหลาด ซึ่งเป็นปฏิกิริยาของผู้คนที่สังเกตเห็นความผิดปกติไม่เหมือนจริงบางอย่างของวัตถุในคลิปโดยสัญชาตญาณ ซึ่ง “Eli Collins” รองประธานฝ่ายผลิตภัณฑ์ของ DeepMind ยังมีจุดที่ต้องปรับปรุงในการสร้างรายละเอียดที่ซับซ้อน การเคลื่อนไหวที่รวดเร็วและซับซ้อน และก้าวข้ามขอบเขตของความสมจริงต่อไป
DeepMind ยังคงทำงานร่วมกับศิลปิน โปรดิวเซอร์และครีเอทีฟมากมาย อาทิ Donald Glover, the Weeknd, d4vd และอื่นๆ เพื่อปรับปรุงโมเดลและเครื่องมือในการสร้างวิดีโออย่างต่อเนื่อง
แม้ DeepMind จะไม่ได้เปิดเผยแหล่งวิดีโอที่ใช้ฝึกโมเดล Veo 2 แต่มีความเป็นไปได้ว่า YouTube อาจจะเป็นแหล่งหนึ่ง เนื่องจาก Google เป็นเจ้าของ YouTube และ DeepMind เคยเปิดเผยกับ TechCrunch ก่อนหน้านี้ว่า โมเดลของ Google เช่น Veo อาจจะได้รับการฝึกกับเนื้อหาบางอย่างของ YouTube
ขณะที่ DeepMind ให้บริการโฮสต์เครื่องมือผ่านทาง Google เพื่อให้เว็บมาสเตอร์บล็อกบอทของแล็บจากการดึงข้อมูลการเทรนออกจากเว็บไซต์ของตัวเอง แต่ขณะเดียวกัน DeepMind ก็ไม่มีกลไกในการอนุญาตให้ผู้สร้างลบผลงานออกจากการเทรนโมเดลที่มีอยู่ได้ โดยทาง DeepMind และบริษัทแม่ยืนยันว่า การฝึกโมเดลที่ใช้ข้อมูลสาธารณะนั้นเป็นการใช้งานโดยชอบ และหมายความว่า DeepMind เชื่อว่าไม่จำเป็นต้องขออนุญาตจากเจ้าของข้อมูลก่อน
อย่างไรก็ตาม ครีเอทีฟบางส่วนไม่เห็นด้วย โดยเฉพาะอย่างยิ่งจากผลการศึกษาที่คาดการณ์ว่างานในกระบวนการผลิตภาพยนตร์และโทรทัศน์หลายหมื่นตำแหน่งอาจถูกแทนที่ด้วย AI ในอีกไม่กี่ปีข้างหน้า โดยบริษัท AI หลายแห่ง รวมถึง บริษัทสตาร์ทอัพชื่อดังที่อยู่เบื้องหลังแอปพลิเคชันสร้างศิลปะด้วย AI ยอดนิยม อย่าง Midjourney กำลังเผชิญการฟ้องร้องในข้อกล่าวหาว่าละเมิดสิทธิ์ของศิลปินโดยการฝึกโมเดลเกี่ยวกับเนื้อหาโดยไม่ได้รับความยินยอม
เพื่อลดความเสี่ยงของการทำดีปเฟก (Deepfake) ทาง DeepMind ระบุว่า กำลังใช้เทคโนโลยีลายน้ำที่เป็นกรรมสิทธิ์ของบริษัท อย่าง SynthID ในการฝังเครื่องหมายที่มองไม่เห็นลงในเฟรมวิดีโอที่ Veo 2 สร้างขึ้น อย่างไรก็ตาม เช่นเดียวกับเทคโนโลยีลายน้ำอื่นๆ SynthID ไม่สามารถป้องกันความผิดพลาดได้
นอกจาก Veo 2 แล้ว ทาง Google DeepMind ยังประกาศอัปเกรด Imagen 3 โมเดลการสร้างภาพเชิงพาณิชย์ด้วย
Imagen 3 เวอร์ชันใหม่ได้ปล่อยให้ผู้ใช้ ImageFX ซึ่งเป็นเครื่องมือสร้างภาพของ Google ตั้งแต่วันจันทร์ที่ผ่านมา โดยมาพร้อมกับขีดความสามารถในการสร้างรูปภาพและภาพถ่ายที่สว่างขึ้นและจัดองค์ประกอบภาพได้ดีขึ้นในสไตล์ต่าง ๆ อย่าง โฟโต้เรียลลิสม์ (Photorealism) ซึ่งเป็นการสร้างสรรค์ภาพวาดให้เหมือนจริงราวกับภาพถ่าย หรือศิลปะอิมเพรสชันนิสม์ (Impressionism) และอนิเมะ
การเปิดตัวควบคู่ไปกับโมเดลนี้ คือ การอัปเดต UI ของ ImageFX โดยในตอนนี้ เมื่อผู้ใช้งานพิมพ์ข้อความคำสั่งลงไป คำสำคัญในข้อความเหล่านั้นจะกลายเป็น “ชิปเล็ต” ซึ่งเป็นเมนูแบบลูกศรเลื่อนลง เพื่อแนะนำคำที่มีความเกี่ยวข้องกัน ผู้ใช้สามารถใช้เมนูนี้เพื่อทำซ้ำสิ่งที่ต้องการเขียนหรือเลือกจากแถบคำอธิบายที่สร้างขึ้นอัตโนมัติได้ด้วย
ที่มา