Google เปิดตัว Gemini โมเดล AI เข้าใจทั้งข้อความ ภาพ เสียง วิดีโอในคราวเดียว นำไปเพิ่มความสามารถให้ Bard และมือถือ Pixel

Google DeepMind หน่วยวิจัย AI เปิดตัว Gemini เวอร์ชั่น 1.0 เป็นโมเดลภาษาขนาดใหญ่ที่ทำงานในรูปแบบมัลติโมเดล เข้าใจทั้งรูปภาพ ข้อความในเชิงตรรกะเหตุผล วิดีโอ เสียง โค้ด ได้ภายในคราวเดียว Google โชว์ผลความสามารถของ Gemini ว่าเป็นโมเดลแรก ที่ทำได้ดีกว่าผู้เชี่ยวชาญที่เป็นมนุษย์ใน MMLU (Massive Multitask Language Undering) ซึ่งเป็นหนึ่งในวิธีที่ได้รับความนิยมมากที่สุดในการทดสอบความรู้และความสามารถในการแก้ปัญหาของโมเดล AI และทำได้ดีกว่า GPT-4 Gemini มี 3 ขนาดคือ หากใครสนใจข้อมูลเชิงลึก ตามไปอ่านรายงานการทดสอบฉบับเต็มได้ที่ https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf . ที่มา : https://blog.google/technology/ai/google-gemini-ai/#performance