Apple เผย ‘MM1’ โมเดล AI อัจฉริยะ ผสานภาพและภาษาอย่างลงตัว
ฝ่ายวิจัยของ Apple ได้พัฒนารูปแบบใหม่ในการฝึกโมเดลภาษาขนาดใหญ่ (LLM) ที่ผสานทั้งข้อความและข้อมูลภาพเข้าด้วยกันอย่างราบรื่น
รายละเอียดการค้นพบของบริษัทมีการอธิบายไว้ในงานวิจัยชื่อ “MM1: วิธีการ วิเคราะห์ และข้อมูลเชิงลึกจาก Multimodal LLM Pre-training” โดยแสดงแนวทางใหม่ในการสร้างระบบ AI ที่ชาญฉลาดและยืดหยุ่นยิ่งขึ้น ด้วยการใช้ชุดข้อมูลที่หลากหลาย ประกอบด้วยภาพและคำอธิบายภาพ เอกสารภาพ-ข้อความแบบแทรกสลับ และข้อมูลที่เป็นข้อความล้วน Apple มั่นใจว่าโมเดล MM1 จะสร้างมาตรฐานใหม่ในการปฏิบัติงานอย่างเช่น การสร้างคำบรรยายภาพ, การตอบคำถามเกี่ยวกับภาพ, และการสรุปภาษาธรรมชาติได้อย่างแม่นยำ
งานวิจัยของ Apple เน้นการผสมผสานข้อมูลการฝึกและโครงสร้างโมเดลหลากหลายประเภท ซึ่งทำให้ AI สามารถเข้าใจและสร้างภาษาตามสัญญาณภาพและภาษาผสมกัน ความสามารถนี้สำคัญสำหรับงานที่ต้องอาศัยความเข้าใจโลกอย่างลึกซึ้ง เช่น การตีความภาพที่ซับซ้อนหรือการตอบคำถามที่มีองค์ประกอบด้านภาพ
งานวิจัยยังเน้นย้ำความสามารถในการเรียนรู้ตามบริบท (in-context learning) ที่โดดเด่นของ MM1 โดยเฉพาะอย่างยิ่งในรุ่นที่มีพารามิเตอร์สูงถึง 30 พันล้านตัว รุ่นนี้แสดงพัฒนาการด้านการใช้เหตุผลหลายขั้นตอนผ่านรูปภาพจำนวนมาก โดยใช้การกระตุ้นแบบ “chain-of-thought” ซึ่งเป็นเทคนิคที่ทำให้ AI ทำงานแก้ปัญหาแบบปลายเปิดได้
งานวิจัยนี้เป็นส่วนหนึ่งของความพยายามที่ Apple ทุ่มเทเพื่อพัฒนาความสามารถด้าน AI ท่ามกลางการแข่งขันที่เพิ่มขึ้น และมีรายงานว่า Apple อยู่ในระหว่างการเจรจากับ Google เพื่อขอสิทธิ์ในการใช้โมเดลภาษา Gemini เพื่อขับเคลื่อนฟีเจอร์ใหม่ ๆ ที่จะมาถึง iPhone ในส่วนของ iOS 18
โมเดล MM1 ที่สร้างโดย Apple ก้าวเข้าสู่โลก AI อย่างน่าจับตามอง ด้วยความสามารถที่ผสานความเข้าใจข้อมูลภาพและภาษาเข้าด้วยกันอย่างลงตัว ถือเป็นเครื่องมือที่มีประสิทธิภาพที่จะนำไปประยุกต์ในวงกว้าง ตั้งแต่การสร้างเนื้อหาที่น่าสนใจไปจนถึงพัฒนาแอปพลิเคชั่นรูปแบบใหม่ งานวิจัยของ Apple ครั้งนี้แสดงให้เห็นความมุ่งมั่นของบริษัทในการผลักดันขอบเขตของเทคโนโลยี AI