Ferret UI: AI Terbaru Apple Untuk Memahami Layar Smartphone

- 11 April 2024, 10:00 WIB
LLM dirancang untuk mengotomatiskan persepsi dan interaksi dalam antarmuka pengguna ponsel cerdas.
LLM dirancang untuk mengotomatiskan persepsi dan interaksi dalam antarmuka pengguna ponsel cerdas. /Pexels.com/Mateusz Taciak

ZONA PRIANGAN - Peneliti Apple telah menerbitkan satu lagi makalah tentang model kecerdasan buatan (AI), dan kali ini fokusnya adalah memahami dan menavigasi antarmuka pengguna (UI) smartphone. Makalah penelitian yang belum ditinjau oleh rekan tersebut menyoroti sebuah model bahasa besar (LLM) yang disebut Ferret UI, seperti dilaporkan oleh laman Gadget 360.

Ferret UI diklaim dapat melampaui penglihatan komputer tradisional dan memahami layar smartphone yang kompleks.

Perlu dicatat, ini bukanlah makalah pertama tentang AI yang diterbitkan oleh divisi penelitian raksasa teknologi tersebut. Mereka sudah menerbitkan makalah tentang LLM multimodal (MLLM) dan lainnya tentang model AI di perangkat.

Baca Juga: Keajaiban Kecerdasan Buatan: Penghasilan Fantastis Model AI di Fanvue

Versi pra-cetak dari makalah penelitian telah diterbitkan di arXiv, sebuah repositori online akses terbuka untuk makalah ilmiah. Makalah tersebut berjudul "Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs" dan berfokus pada memperluas penggunaan MLLMs.

Makalah tersebut menyoroti bahwa kebanyakan model bahasa dengan kemampuan multimodal tidak dapat memahami lebih dari gambar alami dan memiliki keterbatasan fungsional.

Makalah tersebut juga menyatakan perlunya model AI untuk memahami antarmuka yang kompleks dan dinamis seperti yang ada di smartphone.

Baca Juga: Google Maps Terbaru: Daftar Rekomendasi, Pengelolaan Tempat, dan Kecerdasan Buatan!

Menurut makalah tersebut, Ferret UI "dirancang untuk menjalankan tugas-tugas merujuk dan grounding yang tepat untuk layar UI, sambil dengan cekatan menafsirkan dan bertindak atas instruksi bahasa yang terbuka".

Dalam istilah sederhana, model bahasa penglihatan tidak hanya dapat memproses layar smartphone dengan beberapa elemen yang mewakili informasi yang berbeda tetapi juga dapat memberi tahu pengguna tentangnya ketika diminta dengan pertanyaan.

Berdasarkan gambar yang dibagikan dalam makalah, model tersebut dapat memahami dan mengklasifikasikan widget serta mengenali ikon-ikon.

Baca Juga: Pembaruan One UI 6.1: Fitur Kecerdasan Buatan Samsung Meluas ke Lebih Banyak Perangkat!

Model juga dapat menjawab pertanyaan seperti "Dimana ikon peluncuran" dan "Bagaimana cara membuka aplikasi Pengingat".

Hal ini menunjukkan bahwa AI tidak hanya mampu menjelaskan layar yang dilihatnya, tetapi juga dapat menavigasi ke bagian-bagian yang berbeda dari iPhone berdasarkan permintaan.

Untuk melatih Ferret UI, peneliti Apple membuat data dengan berbagai tingkat kompleksitas sendiri. Ini membantu model dalam mempelajari tugas-tugas dasar dan memahami proses satu langkah.

Baca Juga: WhatsApp Siapkan Fitur Baru: Edit Foto Otomatis dengan Kecerdasan Buatan!

"Untuk tugas-tugas lanjutan, kami menggunakan GPT-4 [40] untuk menghasilkan data, termasuk deskripsi detail, persepsi percakapan, interaksi percakapan, dan inferensi fungsi.

"Tugas-tugas lanjutan ini mempersiapkan model untuk terlibat dalam diskusi yang lebih halus tentang komponen visual, merumuskan rencana tindakan dengan tujuan tertentu, dan menafsirkan tujuan umum dari sebuah layar," paparannya menjelaskan.

Makalah tersebut menjanjikan, dan jika lulus tahap tinjauan rekan, Apple mungkin dapat memanfaatkan kemampuan ini untuk menambahkan alat-alat kuat ke iPhone yang dapat melakukan tugas navigasi UI yang kompleks dengan instruksi teks atau verbal yang sederhana. Kemampuan ini tampaknya ideal untuk Siri.***

Editor: Toni Irawan

Sumber: Gadget 360


Tags

Artikel Pilihan

Terkait

Terkini

Terpopuler

Kabar Daerah