“DolphinGemma” โมเดล AI ใหม่ช่วยถอดรหัสการสื่อสารของโลมา

15 Apr 2025

Google DeepMind เปิดตัว “DolphinGemma” โมเดล AI ใหม่ที่ได้รับการพัฒนาขึ้นเพื่อช่วยให้นักวิจัยเข้าใจการสื่อสารของโลมา

SHORT CUT

Google DeepMind เปิดเผยว่า ได้พัฒนา “DolphinGemma” โมเดล AI ที่สามารถช่วยถอดรหัสเสียงของโลมา
โดยได้รับการฝึกด้วยข้อมูลจากโครงการวิจัยโลมา Wild Dolphin Project (WDP) องค์กรไม่แสวงหากำไรที่ศึกษาโลมาลายจุดแอตแลนติกและพฤติกรรมของโลมาสายพันธุ์นี้
ช่วยสนับสนุนความพยายามในการวิจัยเพื่อทำความเข้าใจว่าโลมาสื่อสารกันอย่างไรให้ดียิ่งขึ้น

Google DeepMind เปิดตัว “DolphinGemma” โมเดล AI ใหม่ที่ได้รับการพัฒนาขึ้นเพื่อช่วยให้นักวิจัยเข้าใจการสื่อสารของโลมา

Google DeepMind ห้องปฏิบัติการวิจัยปัญญาประดิษฐ์ของ Google เปิดเผยว่า ได้พัฒนา “DolphinGemma” โมเดล AI ที่สามารถช่วยถอดรหัสเสียงของโลมา โดยได้รับการฝึกด้วยข้อมูลจากโครงการวิจัยโลมา Wild Dolphin Project (WDP) องค์กรไม่แสวงหากำไรที่ศึกษาโลมาลายจุดแอตแลนติกและพฤติกรรมของโลมาสายพันธุ์นี้ ซึ่งจะช่วยสนับสนุนความพยายามในการวิจัยเพื่อทำความเข้าใจว่าโลมาสื่อสารกันอย่างไรให้ดียิ่งขึ้น

ทำความรู้จัก DolphinGemma

การวิเคราะห์การสื่อสารตามธรรมชาติของโลมาซึ่งมีความซับซ้อนอย่างมาก ถือเป็นภารกิจที่ท้าทายอย่างยิ่ง และชุดข้อมูลที่ละเอียดของ WDP มอบโอกาสพิเศษให้กับเทคโนโลยี AI ล้ำสมัย

DolphinGemma เป็นโมเดล AI ที่ใช้เทคโนโลยีเสียงเฉพาะทางของ Google ได้แก่ SoundStream ที่ช่วยแปลงเสียงโลมาให้กลายเป็นข้อมูลที่ประมวลผลได้อย่างมีประสิทธิภาพ จากนั้นจึงนำไปประมวลผลด้วยสถาปัตยกรรมโมเดลที่ออกแบบมาเพื่อจัดการลำดับข้อมูลที่ซับซ้อน โมเดลนี้มีขนาดประมาณ 400 ล้านพารามิเตอร์ ซึ่งเหมาะสมอย่างยิ่งกับการใช้งานบนสมาร์ทโฟน Pixel ที่ทีม WDP ใช้งานในภาคสนาม

โมเดลนี้ได้รับแรงบันดาลใจและพัฒนาต่อจาก Gemma ซึ่งเป็นชุดโมเดลโอเพ่นซอร์สขนาดเล็กแต่ทรงพลังของ Google ที่ใช้เทคโนโลยีและการวิจัยเดียวกันกับที่ใช้ในโมเดล Gemini DolphinGemma ได้รับการฝึกอย่างเข้มข้นด้วยฐานข้อมูลเสียงของโลมาลายจุดแอตแลนติก (ชื่อวิทยาศาสตร์ Stenella frontalis) จากโครงการ WDP โดยทำหน้าที่เป็นโมเดลเสียงเข้าและออก โมเดลนี้สามารถประมวลผลลำดับของเสียงโลมาที่อาศัยอยู่ตามธรรมชาติ เพื่อระบุรูปแบบ โครงสร้าง และคาดการณ์เสียงที่น่าจะเกิดขึ้นต่อไปในลำดับเสียงนั้น ซึ่งคล้ายกับที่โมเดลภาษาขนาดใหญ่ (LLM) สำหรับภาษาของมนุษย์ที่ใช้คาดการณ์คำถัดไปในประโยค

วิจัยสังคมโลมาต่อเนื่องมาหลายทศวรรษ

การทำความเข้าใจสิ่งมีชีวิตสายพันธุ์ใดสายพันธุ์หนึ่งอย่างลึกซึ้งจำเป็นต้องอาศัยบริบทที่ครอบคลุม ซึ่งเป็นหนึ่งในหลาย ๆ สิ่งที่โครงการ WDP ทำมาตลอด โดยตั้งแต่ปี 1985 ทาง WDP ได้ดำเนินโครงการวิจัยโลมาใต้น้ำที่ยาวนานที่สุดในโลก ด้วยการมุ่งศึกษากลุ่มโลมาลายจุดแอตแลนติกที่อาศัยตามธรรมชาติในหมู่เกาะบาฮามาสต่อเนื่องมาหลายชั่วอายุโลมา

แนวทางการศึกษาที่มีลักษณะไม่รบกวนสิ่งแวดล้อมของ WDP เป็นการวิจัยที่เรียกว่า “"ในโลกของพวกเขา ตามเงื่อนไขของพวกเขาเอง" (In Their World, on Their Terms) ซึ่งช่วยให้ได้ชุดข้อมูลที่ล้ำค่าและมีความเฉพาะตัวสูง ประกอบด้วยวิดีโอและเสียงใต้น้ำที่เก็บรวบรวมอย่างพิถีพิถันตลอดหลายสิบปี พร้อมข้อมูลระบุตัวตน ประวัติชีวิต และพฤติกรรมที่สังเกตได้ของโลมาแต่ละตัว
Google DeepMind เปิดตัว “DolphinGemma” โมเดล AI ใหม่ที่ได้รับการพัฒนาขึ้นเพื่อช่วยให้นักวิจัยเข้าใจการสื่อสารของโลมา

เป้าหมายหลักของโครงการ WDP คือการสังเกตและวิเคราะห์การสื่อสารตามธรรมชาติและการมีปฏิสัมพันธ์ทางสังคมของโลมา การทำงานใต้น้ำช่วยให้นักวิจัยสามารถเชื่อมโยงเสียงเข้ากับพฤติกรรมเฉพาะได้โดยตรง ซึ่งการสังเกตจากบนผิวน้ำไม่สามารถทำได้เทียบเท่า

เป็นเวลาหลายหลายทศวรรษที่นักวิจัยของ WDP ได้จับคู่ประเภทของเสียงเข้ากับบริบทพฤติกรรมต่าง ๆ ของโลมา เช่น:

เสียงผิวปากประจำตัว ซึ่งทำหน้าที่เหมือนชื่อเฉพาะ ใช้โดยแม่โลมาและลูกเพื่อเรียกกันเมื่อพลัดหลง
เสียงสคว๊อก (Squawks) ที่มักพบในการต่อสู้ทะเลาะวิวาท
เสียงคลิกสั้นถี่ (Buzzes) ซึ่งใช้บ่อยในระหว่างการเกี้ยวพาราสีหรือการไล่ล่าฉลาม

การรู้ว่าเสียงใดมาจากโลมาตัวไหนมีความสำคัญอย่างยิ่งสำหรับการตีความที่ถูกต้องแม่นยำ โดยเป้าหมายสูงสุดของการสังเกตการณ์เหล่านี้ คือ การทำความเข้าใจโครงสร้างและความหมายที่เป็นไปได้ซึ่งอาจแฝงอยู่ในลำดับเสียงธรรมชาติของโลมา เพื่อค้นหารูปแบบหรือกฎเกณฑ์ที่อาจบ่งบอกถึงภาษาของโลมา ซึ่งการวิเคราะห์ระยะยาวของการสื่อสารตามธรรมชาติเหล่านี้ ถือเป็นรากฐานของงานวิจัยของโครงการ WDP และยังเป็นบริบทสำคัญที่จำเป็นต่อการวิเคราะห์ด้วย AI ในอนาคต

ใช้ Pixel ฟังและวิเคราะห์เสียงของโลมา

โครงการ EDP จะเริ่มนำ DolphinGemma ไปใช้งานจริงในช่วงฤดูกาลภาคสนามนี้ และเริ่มเห็นประโยชน์ของโมเดลดังกล่าวแล้วที่สามารถระบุรูปแบบเสียงที่เกิดซ้ำ กลุ่มเสียง และลำดับเสียงที่มีความน่าเชื่อถือ ซึ่งสามารถช่วยให้นักวิจัยค้นพบโครงสร้างที่ซ่อนอยู่ และความหมายที่เป็นไปได้ในเสียงสื่อสารตามธรรมชาติของโลมา ซึ่งแต่เดิมต้องอาศัยความพยายามของมนุษย์อย่างมากก่อนหน้านี้ โดยรูปแบบเสียงเหล่านี้ที่อาจถูกผสมผสานเข้ากับเสียงสังเคราะห์ที่นักวิจัยสร้างขึ้นเพื่อใช้แทนวัตถุต่างๆ ที่โลมาชอบเล่นด้วย จนอาจนำไปสู่การสร้างคำศัพท์ร่วม ระหว่างมนุษย์และโลมาสำหรับการสื่อสารแบบโต้ตอบอย่างแท้จริงได้ในอนาคต

“DolphinGemma” โมเดล AI ใหม่ช่วยถอดรหัสการสื่อสารของโลมา

ในช่วงกลางปีนี้ โครงการ WDP วางแผนที่จะใช้สมาร์ตโฟนรุ่น Pixel 9 ของ Google เพื่อขับเคลื่อนแพลตฟอร์มที่สามารถสร้างเสียงเลียนแบบโลมาแบบสังเคราะห์และฟังเสียงของโลมาจริง เพื่อหาการตอบกลับที่ตรงกัน
ก่อนหน้านี้ โครงการ WDP ใข้สมาร์ตโฟนรุ่น Pixel 6 ในการวิจัยดังกล่าว แต่ทาง Google ระบุว่า การอัปเกรดเป็น Pixel 9 จะทำให้นักวิจัยสามารถเรียกใช้งานโมเดล AI และอัลกอริธัมการจับคู่รูปแบบเสียงได้ในเวลาเดียวกัน