Google DeepMind พัฒนาเทคโนโลยี AI แค่พิมพ์ข้อความ สร้างเสียงประกอบคลิปได้

18 Jun 2024

Google Deepmind ได้พัฒนาเทคโนโลยี V2A (Video-to-Audio) ซึ่งสามารถสร้างเสียงประกอบคลิปได้จากการพิมพ์ข้อความหรือ Prompt นั่นเอง

SHORT CUT

Google Deepmind เปิดตัวเทคโนโลยี V2A สามารถสร้างเสียงประกอบให้วิดีโอได้ด้วยการพิมพ์ข้อความคำสั่ง (Prompt)
เทคโนโลยี V2A (Video-to-Audio) ซึ่งอนาคตจะมาพลิกวงการภาพยนตร์,คลิปวิดีโอ ให้สร้างสรรค์ได้อิสระมากขึ้น
V2A ยังสามารถใส่เสียงประกอบให้กับคลิปวิดีโอที่ไม่มีเสียง, สร้างเพลงประกอบภาพยนตร์, ใส่เสียงบรรยายให้กับวิดีโอ, แปลภาษาโดยใช้เสียงพูด

Google Deepmind ได้พัฒนาเทคโนโลยี V2A (Video-to-Audio) ซึ่งสามารถสร้างเสียงประกอบคลิปได้จากการพิมพ์ข้อความหรือ Prompt นั่นเอง

Google Deepmind พัฒนาเทคโนโลยี Video-to-Audio (V2A) สามารถสร้างเสียงประกอบวิดีโอได้โดยการพิมพ์ข้อความหรือพิมพ์คำสั่ง (Prompt) ซึ่งทำให้วิดีโอเงียบๆมีเสียงประกอบได้หลากหลายรูปแบบ ซึ่งเราอยากชวนมาดูกันว่าจะเจ๋งแค่ไหน

Google DeepMind พัฒนาเทคโนโลยี AI แค่พิมพ์ข้อความ สร้างเสียงประกอบคลิปได้

เทคโนโลยี V2A ของ Google Deepmind คืออะไร ทำอะไรได้บ้าง?

Google Deepmind พัฒนาเทคโนโลยี V2A ที่ย่อมาจาก Video-to-Audio เป็นเทคโนโลยี AI ที่พัฒนาโดย Google DeepMind

เทคโนโลยี V2A สามารถสร้างเสียงประกอบให้กับวิดีโอโดยอัตโนมัติโดยใช้ข้อมูลจากภาพจากวิดีโอและข้อความอธิบายเพิ่มเติม (Text prompts)

Google Deepmind สามารถใช้ V2A ช่วยสร้างเสียงประกอบที่สมจริง ตรงกับเนื้อหาในวิดีโอ นอกจากนั้น ผู้ใช้สามารถควบคุมผลลัพธ์ได้โดยใส่ข้อความบอกประเภทของเสียงที่ต้องการ

โดยประโยชน์ในการใช้งานของเทคโนโลยี V2A เช่น ใส่เสียงประกอบให้กับคลิปวิดีโอที่ไม่มีเสียง, สร้างเพลงประกอบภาพยนตร์, ใส่เสียงบรรยายให้กับวิดีโอ, แปลภาษาโดยใช้เสียงพูด

Google Deepmind พัฒนาเทคโนโลยี V2A ที่จะช่วยให้วงการคลิปวิดีโอ, ภาพยนตร์ สามารถสร้างผลงานที่มีคุณภาพสูงโดยใช้เวลาและทรัพยากรน้อยลง

ซึ่งอาจทำให้กำเนิดครีเอเตอร์หรือผู้สร้างหน้าใหม่เข้ามาสร้างสรรค์ผลงานมากขึ้น เนื่องจากไม่ต้องใช้เงินลงทุนจำนวนมากเพื่อใส่เสียงประกอบให้คลิปวิดีโอ

อนาคตของเทคโนโลยี V2A อาจเข้ามาพลิกวงการภาพยนตร์และวิดีโอเลยก็ว่าได้ เนื่องจากเทคโนโลยีนี้สามารถนำไปใช้กับแอปพลิเคชันอื่นๆ เช่น เกม, การศึกษา และการฝึกอบรม

โดย V2A จะช่วยให้ผู้คนสามารถสื่อสารกันได้อย่างมีประสิทธิภาพมากขึ้น ยกตัวอย่างเช่น การใส่เสียงประกอบภาพยนตร์ภาษาต่างประเทศ, การแปลภาษาจากเสียงพูดและอื่นๆอีกมากมาย

เชื่อว่าในอนาคตเทคโนโลยีนี้จะช่วยให้การสร้างเสียงประกอบคลิปวิดีโอ, ภาพยนตร์ หรือมิวสิควิดีโอ และผสานร่วมกับ Google Veo ที่สามารถสร้างวิดีโอจากข้อความได้

ซึ่งปัจจุบัน Google ยังได้พัฒนา Imagen 3 ที่สามารถสร้างสรรค์รูปภาพจากข้อความ (Text-To-Image) ได้ด้วย ซึ่งหากพัฒนาได้ครบจบ การสร้างสรรค์ภาพ, วิดีโอและเสียงด้วย AI สามารถหาข้อมูลได้ผ่าน Gemini ซึ่งทั้งหมดนี้จะช่วยให้คนหันมาใช้ Google AI มากขึ้นอย่างแน่นอน

ที่มา : Google Deepmind