ทีมมนุษย์ร่วมกันออกแบบ 'ข้อสอบสุดท้ายของมนุษยชาติ' เพื่อทดสอบความฉลาด AI

ทีมนักวิจัยและผู้เชี่ยวชาญจากหลายสาขาได้ร่วมกันออกแบบ ‘ข้อสอบสุดท้ายของมวลมนุษยชาติ (Humanity’s Last Exam)’ เพื่อทดสอบและพัฒนาความฉลาดของ Chat GPT ให้สูงที่สุด

ในช่วงไม่กี่ปีมานี้ หนึ่งในประเด็นที่ถูกพูดถึงกันมากคือ AI จะมาแย่งงานมนุษย์มากน้อยแค่ไหน โดยเฉพาะอาชีพที่เกี่ยวข้องกับความรู้และความเชี่ยวชาญเฉพาะด้าน ซึ่งหลายครั้งถูกพิสูจน์แล้วว่า บ่อยครั้งที่ AI สามารถหาคำตอบและเรียบเรียงข้อมูลได้แม่นยำกว่าผู้เชี่ยวชาญหลายคนเสียอีก

ล่าสุด ทางบริษัท Scale AI ได้ร่วมมือกับ ศูนย์ศึกษาความปลอดภัย AI และผู้เชี่ยวชาญจากหลายสาขา ร่วมกันออกแบบข้อสอบที่ชื่อว่า ‘ข้อสอบสุดท้ายของมวลมนุษยชาติ (Humanity’s Last Exam)’ เพื่อทดสอบและพัฒนาความฉลาดในปัจจุบันของ AI

ข้อสอบนี้ได้รวบรวมแบบทดสอบที่ถูกส่งมาจากผู้เชี่ยวชาญหลากหลายสาขา ตั้งแต่ปรัชญาเชิงวิเคราะห์, คณิตศาสตร์ชั้นสูง, ชีววิทยา, เทววิทยา, วรรณกรรม ไปจนถึงวิศวกรรมจรวด แล้วทดลองให้ AI ทำข้อสอบต่างๆ ดังกล่าว

สำหรับวิธีการออกแบบคำถามนี้คือ ผู้เชี่ยวชาญจะส่งคำถามมาที่ศูนย์วิจัย ก่อนที่เข้าสู่กระบวนการคัดกรองสองขั้นตอน ขั้นแรกจะทดลองให้ AI ชั้นสูงแก้ไขปัญหา หากไม่สามารถตอบได้ คำถามจะถูกส่งต่อให้ทีมมนุษย์เพื่อหาคำตอบที่มีคุณภาพสูงสุด

ทางทีมได้ทดลองนำข้อสอบนี้ไปให้แก่ AI 6 ตัว เช่น GPT-4o, Grok-2, Gemini Thinking และพบว่า คำตอบที่ได้รับยังไม่ถูกต้องมากนัก

อย่างไรก็ตาม พวกเขาตั้งเป้าว่าภายในสิ้นปีนี้ จะต้องพัฒนา AI ให้สามารถตอบคำถามเหล่านี้ได้ถูกต้องมากกว่า 50% เพื่อเป็นการพัฒนา AI อย่างก้าวกระโดดให้ได้ และถึงจะเริ่มหาวิธีทดลองความสามารถของ AI ในรูปแบบอื่นๆ เช่น ให้ทดลองค้นพบทางวิทยาศาสตร์หรือคณิตศาสตร์ใหม่ๆ หรือการพิจารณาตัวเลขทางเศรษฐศาสตร์

$แนวคำถามจาก Humanity\'s Last Exam$ $แนวคำถามจาก Humanity\'s Last Exam$ $แนวคำถามจาก Humanity\'s Last Exam$