Riset Terbaru: Apple Mengungkap Model Bahasa Multimodal AI

- 19 Maret 2024, 07:41 WIB
Logo Apple Inc. terlihat di lobi toko Apple di New York City, A.S., 18 Januari 2011.
Logo Apple Inc. terlihat di lobi toko Apple di New York City, A.S., 18 Januari 2011. /REUTERS/Mike Segar

ZONA PRIANGAN - Para peneliti Apple telah membagikan hasil karyanya tentang pembangunan model bahasa besar (LLM) kecerdasan buatan (AI) multimodal, dalam sebuah makalah pra-cetak. Dipublikasikan di portal online pada tanggal 14 Maret, makalah tersebut menyoroti bagaimana mereka mampu mencapai kemampuan canggih multimodal dan membuat model dasar dilatih baik pada data hanya teks maupun gambar, seperti dilaporkan oleh laman Gadget 360.

Kemajuan baru dalam AI untuk raksasa teknologi berbasis Cupertino ini datang setelah CEO Tim Cook menyatakan dalam panggilan pendapatan perusahaan bahwa fitur AI bisa tiba tahun ini.

Versi pra-cetak dari makalah penelitian telah dipublikasikan di arXiv, sebuah repositori online akses terbuka untuk makalah ilmiah.

Baca Juga: Tingkatkan Kualitas Hidup Anda: Apple Watch Series 10 Siap Membantu Pantau Tekanan Darah Anda

Meskipun makalah itu sendiri tidak menyebutkan Apple, sebagian besar peneliti yang disebutkan berafiliasi dengan divisi pembelajaran mesin (ML) perusahaan, yang mengarah pada keyakinan bahwa proyek ini juga berafiliasi dengan pembuat iPhone.

Menurut para peneliti, mereka sedang mengerjakan MM1, sebuah keluarga model multimodal yang terdiri dari hingga 30 miliar parameter.

Menggambarkannya sebagai "MLLM multimodal yang berkinerja", para penulis makalah menyoroti bahwa pengkode gambar, penghubung bahasa visi, dan komponen arsitektur dan pilihan data lainnya dibuat untuk menciptakan model AI yang mampu memahami baik teks maupun masukan berbasis gambar.

Baca Juga: Rencana Apple: iPhone SE 4, iPad Lipat, dan Kacamata AR!

Memberikan contoh, makalah tersebut menyatakan, “Kami menunjukkan bahwa untuk pra-pelatihan multimodal skala besar menggunakan campuran hati-hati dari data gambar-caption, gambar-teks bergantian, dan hanya teks sangat penting untuk mencapai hasil sekuensial terbaik (SOTA) di beberapa benchmark, dibandingkan dengan hasil pra-pelatihan yang dipublikasikan lainnya".

Halaman:

Editor: Toni Irawan

Sumber: Gadget 360


Tags

Artikel Pilihan

Terkait

Terkini

Terpopuler

Kabar Daerah

x