svasdssvasds

DeepSeek-V3 เปิดตัวเวอร์ชันใหม่ โอเพนซอร์สเต็มรูปแบบ MIT License

DeepSeek-V3 เปิดตัวเวอร์ชันใหม่ โอเพนซอร์สเต็มรูปแบบ MIT License

DeepSeek ปล่อย DeepSeek-V3 รุ่นปรับปรุงภายใต้สัญญาอนุญาต MIT ประสิทธิภาพที่สูงขึ้นและเข้าถึงได้ง่ายกว่าเดิม การเปลี่ยนแปลงครั้งสำคัญในวงการโมเดล LLM ที่น่าจับตามอง

SHORT CUT

  • การเปลี่ยนไปใช้ MIT License คือหัวใจสำคัญของการเปิดตัวครั้งนี้ ทำให้ DeepSeek-V3 เข้าถึงได้ง่ายและนำไปประยุกต์ใช้ได้หลากหลาย ทั้งในเชิงพาณิชย์และงานวิจัย โดยไม่มีข้อจำกัดเหมือนสัญญาอนุญาตแบบเดิม
  • DeepSeek-V3 รุ่นใหม่ ไม่เพียงแต่มีความสามารถด้านการเขียนโปรแกรมที่ดีขึ้น แต่ยังสามารถทำงานบนฮาร์ดแวร์ส่วนบุคคล (เช่น Mac Studio) ได้ แสดงถึงความก้าวหน้าในการทำให้ LLM ขนาดใหญ่เข้าถึงได้ง่ายขึ้น
  • DeepSeek-V3 ใช้พารามิเตอร์เพียงส่วนน้อยในการทำงาน และใช้เวลาฝึกฝนน้อยกว่า LLM ชั้นนำอื่นๆ สะท้อนให้เห็นถึงความพยายามในการสร้างโมเดล AI ที่มีประสิทธิภาพสูงและประหยัดทรัพยากร

DeepSeek ปล่อย DeepSeek-V3 รุ่นปรับปรุงภายใต้สัญญาอนุญาต MIT ประสิทธิภาพที่สูงขึ้นและเข้าถึงได้ง่ายกว่าเดิม การเปลี่ยนแปลงครั้งสำคัญในวงการโมเดล LLM ที่น่าจับตามอง

DeepSeek ผู้พัฒนา AI ชั้นนำจากประเทศจีน ได้เปิดตัว DeepSeek-V3 เวอร์ชันปรับปรุงใหม่

ซึ่งเป็นการอัปเดตครั้งสำคัญที่มาพร้อมกับการเปลี่ยนแปลงสัญญาอนุญาตไปสู่ MIT License ซึ่งเป็นสัญญาอนุญาตแบบโอเพนซอร์สที่เปิดกว้างและเป็นที่นิยมอย่างมากในวงการพัฒนาซอฟต์แวร์

DeepSeek-V3 เปิดตัวเวอร์ชันใหม่ โอเพนซอร์สเต็มรูปแบบ MIT License

การเปลี่ยนแปลงครั้งนี้ถือเป็นข่าวใหญ่ในแวดวง AI เนื่องจาก MIT License จะเปิดโอกาสให้นักพัฒนาและองค์กรต่างๆ สามารถนำ DeepSeek-V3 ไปใช้งานในเชิงพาณิชย์ ปรับแต่ง และต่อยอดได้อย่างอิสระ โดยแทบไม่มีข้อจำกัดใดๆ ซึ่งแตกต่างจากสัญญาอนุญาตแบบ Custom ที่ DeepSeek เคยใช้ก่อนหน้านี้

แม้ว่า DeepSeek จะไม่ได้ออกประกาศอย่างเป็นทางการเกี่ยวกับการเปิดตัวครั้งนี้ และไฟล์ Readme ของโมเดลยังคงว่างเปล่า

แต่ Simon Willison นักพัฒนาซอฟต์แวร์และบล็อกเกอร์ชื่อดัง ได้เป็นผู้รายงานข่าวนี้เป็นคนแรก และมีการยืนยันถึงประสิทธิภาพที่เพิ่มขึ้นของ DeepSeek-V3 รุ่นใหม่นี้

CREDIT : AIDER

DeepSeek-V3 เป็น LLM แบบโอเพนซอร์สที่เปิดตัวครั้งแรกเมื่อเดือนธันวาคมปีที่แล้ว โดยเป็นรากฐานสำคัญของ DeepSeek-R1 โมเดลที่เน้นด้านการให้เหตุผล (reasoning) ซึ่งสร้างชื่อเสียงให้กับ DeepSeek ในฐานะผู้นำด้าน AI จากจีน

แม้ว่า DeepSeek-V3 จะเป็นโมเดลอเนกประสงค์ ไม่ได้เน้นเฉพาะด้านการให้เหตุผล แต่ก็มีความสามารถในการแก้ปัญหาคณิตศาสตร์บางประเภทและสร้างโค้ดได้

นอกจากการเปลี่ยนแปลงสัญญาอนุญาตแล้ว DeepSeek-V3 รุ่นใหม่ยังได้รับการปรับปรุงประสิทธิภาพให้ดีขึ้นอย่างเห็นได้ชัด และที่สำคัญคือ มีความต้องการทรัพยากรฮาร์ดแวร์ที่ลดลง

Awni Hannun นักวิจัยด้าน Machine Learning ของ Apple ได้ทดลองรัน DeepSeek-V3 รุ่นใหม่บนเครื่อง Mac Studio ที่มีสเปคสูง

และพบว่าโมเดลสามารถสร้างผลลัพธ์ได้ด้วยความเร็วประมาณ 20 โทเค็นต่อวินาที แม้จะต้องใช้เทคนิค 4-bit quantization เพื่อลดการใช้หน่วยความจำและความหน่วงก็ตาม

นอกจากนี้ ยังมีรายงานผลการทดสอบ Benchmark บนแพลตฟอร์ม X ที่ VentureBeat ตรวจพบ ซึ่งระบุว่า DeepSeek-V3 รุ่นใหม่มีความสามารถในการเขียนโปรแกรม Python และ Bash ได้ดีขึ้น โดยทำคะแนนได้ประมาณ 60% ซึ่งสูงกว่ารุ่นก่อนหน้า

DeepSeek-V3 มีพารามิเตอร์มากถึง 671 พันล้านพารามิเตอร์ แต่ในการตอบคำถามแต่ละครั้ง โมเดลจะเปิดใช้งานเพียงประมาณ 37 พันล้านพารามิเตอร์เท่านั้น

กลไกนี้ช่วยลดความต้องการด้านโครงสร้างพื้นฐานเมื่อเทียบกับ LLM แบบดั้งเดิมที่ต้องใช้งานพารามิเตอร์ทั้งหมด นอกจากนี้ DeepSeek ยังระบุว่า LLM รุ่นนี้มีประสิทธิภาพในการอนุมาน (inference) ที่ดีกว่า DeepSeek-R1 ซึ่งนำไปสู่การลดต้นทุนในการใช้งาน

DeepSeek-V3 รุ่นเก่า ได้รับการฝึกฝนด้วยชุดข้อมูลขนาด 14.8 ล้านล้านโทเค็น โดยใช้เวลาในการฝึกฝนประมาณ 2.8 ล้านชั่วโมงการ์ดจอ ซึ่งน้อยกว่า LLM ระดับแนวหน้าส่วนใหญ่

DeepSeek-V3 เปิดตัวเวอร์ชันใหม่ โอเพนซอร์สเต็มรูปแบบ MIT License

และเพื่อเพิ่มคุณภาพของผลลัพธ์ ทีมวิศวกรของ DeepSeek ยังได้ทำการปรับแต่งเพิ่มเติมโดยใช้ Feedback จาก DeepSeek-R1 อีกด้วย

การเปิดตัวครั้งนี้เป็นเพียงจุดเริ่มต้น สิ่งที่น่าติดตามต่อไปคือ DeepSeek จะมีการประกาศอย่างเป็นทางการพร้อมรายละเอียดเพิ่มเติมหรือไม่ และชุมชนนักพัฒนาทั่วโลกจะนำ DeepSeek-V3 ไปใช้ประโยชน์ในรูปแบบใดบ้าง 

ที่มา : simonwillisonAIDER

related