Update Terbaru, ChatGPT Mampu Respons Gambar dan Suara

Hanif 23 Oct 2023 4 Menit 0

ChatGPT juga menyediakan tool untuk menentukan area yang ingin disorot.

Berikut contoh menanyakan chatGPT untuk mengubah tinggi sepeda.

Dari video tersebut bisa dilihat bahwa ChatGPT mampu mengetahui tipe pengunci sadel sepeda. Tidak hanya itu, ChatGPT juga bisa mengetahui kunci yang cocok untuk digunakan di alat tersebut.

Yang harus dilakukan pengguna adalah mengambil gambar dari apa yang mereka lihat dan menambahkan pertanyaan yang ingin mereka jawab.

OpenAI mengungkapkan bahwa kemampuan memahami gambar didukung oleh GPT-3.5 dan GPT-4.

Whisper, Sistem Speech Recognition di belakang Fitur Baru ChatGPT

Whisper adalah sistem Pengenalan Ucapan Otomatis (Automatic Speech Recognition – ASR) yang dikembangkan secara open source oleh OpenAI.

Alat ini dilatih dengan mendengarkan 680,000 jam rekaman suara dari berbagai bahasa dan situasi yang diambil dari internet.

Tujuannya adalah untuk membuatnya bisa mengenali berbagai aksen, latar suara yang berisik, dan bahasa teknis, serta mampu menerjemahkan ucapan dari berbagai bahasa ke bahasa Inggris.

Cara Kerja Whisper

Cara kerja Whisper mungkin terdengar sederhana. Namun butuh kemampuan dan keahlian tinggi untuk bisa mewujudkan sistem pengenalan suara ini.

Ketika kita berbicara ke dalam alat ini, ia memotong-motong ucapan kita menjadi bagian-bagian kecil selama 30 detik, kemudian mengubahnya menjadi gambaran visual dari suara kita.

Selanjutnya, alat ini menganalisis gambaran visual itu dan mencoba menuliskan apa yang kita katakan dalam bentuk teks.

Selain itu, ia juga bisa menentukan bahasa apa yang kita gunakan dan bahkan menerjemahkannya ke bahasa Inggris jika perlu.

Kelebihan Whisper

Whisper memiliki kelebihan dibandingkan alat serupa karena ia dilatih dengan data yang sangat banyak dan beragam, sehingga ia lebih baik dalam menangani situasi yang berbeda. Meskipun mungkin tidak sempurna dalam semua situasi, alat ini membuat kesalahan lebih sedikit dibandingkan alat serupa lainnya saat dihadapkan pada berbagai jenis ucapan.

Salah satu hal menarik dari Whisper adalah kemampuannya untuk mengenali dan menerjemahkan berbagai bahasa.

Sekitar sepertiga dari data yang digunakan untuk melatih alat ini adalah dalam bahasa selain bahasa Inggris. Hal ini membantu Whisper untuk belajar bagaimana cara menuliskan dan menerjemahkan ucapan dalam berbagai bahasa ke bahasa Inggris.

Kontribusi ke Komunitas

OpenAI membagikan Whisper secara gratis ke publik, dengan harapan alat ini bisa membantu orang lain dalam mengembangkan aplikasi atau melakukan penelitian lebih lanjut dalam bidang pengenalan suara. Ini adalah langkah positif yang bisa mendorong inovasi dan kemajuan di bidang ini.

Whisper adalah alat yang menarik yang bisa mengubah cara kita berinteraksi dengan teknologi. Dengan kemampuannya untuk mengenali dan menerjemahkan ucapan, Whisper membuka peluang baru dalam dunia teknologi pengenalan suara dan kemungkinan besar akan membawa manfaat bagi banyak orang, terutama dalam konteks multibahasa dan global.

FAQ

Bagaimana cara menggunakan fitur melihat, mendengar, dan berbicara di ChatGPT?

Fitur melihat gambar dapat digunakan dengan melalui chat interface. Sementara untuk mendengar dan berbicara, pengguna dapat mengakses fitur suara di pengaturan.

Apa yang dimaksud dengan kemampuan multimodal ChatGPT?

Kemampuan multimodal mengacu pada kemampuan ChatGPT untuk memahami dan memproses lebih dari satu tipe input, seperti teks, gambar, dan suara, serta merespons dalam bentuk teks atau suara.

Apakah fitur baru ini tersedia untuk semua pengguna ChatGPT?

Untuk saat ini, fitur ini hanya tersedia untuk pengguna ChatGPT Plus dan Enterprise, namun OpenAI berencana untuk memperluas akses ke pengguna lain.

Akhir Kata

Dengan kemampuan terbaru untuk melihat, mendengar, dan berbicara, ChatGPT memberikan sentuhan baru mengenai konesp asisten virtual.

Fitur-fitur baru ini tidak hanya mengubah cara interaksi kita dengan ChatGPT, tetapi juga membawa fungsionalitas yang diberikannya ke level yang jauh lebih tinggi dibandingkan asisten suara lainnya di pasaran.

ChatGPT bukan hanya sekedar mengobrol dengan teks, tetapi juga memungkinkan untuk berinteraksi dengan ChatGPT dalam cara yang lebih intuitif dan alami, mirip dengan bagaimana kita berkomunikasi dengan manusia lain.

Ada beragam kemungkinan baru dalam mendapatkan informasi, memecahkan masalah, dan bahkan belajar dari model AI canggih ini.

Fitur-fitur menarik ini membuktikan bahwa ChatGPT terus berinovasi, menjadikan pengalaman pengguna lebih kaya, lebih mudah, dan jauh lebih interaktif.

Sementara banyak asisten suara hanya dapat memahami dan merespons perintah suara, ChatGPT kini dapat memberikan pengalaman yang lebih holistik dan mendalam, menjadikannya asisten virtual yang benar-benar revolusioner di era digital ini.


Baca juga artikel menarik seputar teknologi di Pintar Tekno yang terkait dengan Hardware, Memory, atau artikel lainnya dari Mufid Hanif. Untuk informasi lebih lanjut atau kebutuhan lainnya, kamu bisa menghubungi kami melalui admin@pintartekno.id.


Sumber:

  • ChatGPT can now see, hear, and speak – https://openai.com/blog/chatgpt-can-now-see-hear-and-speak#OpenAI
  • ChatGPT Introducing Whisper – https://openai.com/research/whisper
  • You can have voice chats with ChatGPT now. Here’s how – https://www.zdnet.com/article/you-can-have-voice-chats-with-chatgpt-now-heres-how/

Pages: 1 2Lihat Semua

Bagikan ke:
Diarsipkan di bawah:
Hanif
Ditulis oleh

Hanif

hi, I'm a SEO content writer with interest on business, entrepreneur, digital marketing, and many more

Leave a Reply

Your email address will not be published. Required fields are marked *