Update Terbaru, ChatGPT Mampu Respons Gambar dan Suara

Hanif 23 Oct 2023 4 Menit 0

OpenAI mengumumkan bahwa akan ada update sehingga memungkinkan ChatGPT Mampu Respons Gambar dan Suara

Fitur baru ini memungkinkan ChatGPT untuk memiliki kemampuan pengelihatan layaknya Google Lens dan kemampuan bercakap-cakap layaknya Alexa atau Apple Siri.

Kabarnya platform ini akan hadir baik untuk PC dan Android.

Bagaimana penggunaan fitur ini? Simak contohnya di bawah.

Fitur Baru ChatGPT

Kemampuan baru ChatGPT ini mencakup kemampuan suara dan gambar. Suara dan gambar memberi lebih banyak cara untuk menggunakan ChatGPT dalam kehidupan sehari hari.

Ambil foto sebuah landmark saat bepergian dan lakukan percakapan langsung tentang apa yang menarik dari tempat tersebut.

chatgpt web browser - chatgpt image

Atau ketika bingung mau memasak apa, ambil foto kulkas dan dapur untuk mengetahui masakan apa yang bisa dibuat dengan bahan tersebut. Ajukan pertanyaan lanjutan untuk mendapatkan resep langkah demi langkah.

Setelah makan malam, mengerjakan soal matematika dengan mengambil foto, melingkari set soal, dan memberikan petunjuk kepada Anda berdua.

Fitur suara dan gambar ChatGPT ini awalnya hanya akan tersedia untuk pengguna ChatGPT Plus dan Enterprise, dengan rencana untuk memperluas akses ke pengguna lain, seperti pengembang, di kemudian hari.

Bing Chat, yang didukung oleh GPT-4, juga mendukung input gambar dan suara dan gratis untuk digunakan, menjadi alternatif bagi mereka yang belum memiliki akses ke fitur baru ini di ChatGPT.

Speak with ChatGPT

Fitur terbaru ChatGPT ini memungkinkan untuk menerima input suara dan memberikan balasan dalam bentuk suara.

Dengan kata lain, fitur ini memberikan kemampuan untuk bercakap-cakap dengan ChatGPT melalui suara, layaknya ketika menggunakan Alexa atau Apple Siri.

Ada kemungkinan tak terbatas untuk memanfaatkan fitur ini.

  • memiliki teman mengobrol meski sedang menyupir sendirian
  • meminta ChatGPT untuk menceritakan dongeng pengantar tidur untuk anak
  • melerai perdebatan di meja makan.

dan masih banyak lagi.

Sebagai contoh, dalam demo yang dibagikan oleh OpenAI, pengguna meminta ChatGPT untuk menceritakan cerita pengantar tidur tentang landak, dan ChatGPT merespons dengan menceritakan cerita tersebut.

Dalam laman resminya, disebutkan bahwa fitur ini bisa diaktifkan dengan membuka settings > New Features.

Dalam menu tersebut, ada pilihan voice conversation. Kemudian, tap tombol headphone yang terletak di pojok kanan atas home screen dan pilih suara yang diinginkan.

Kemampuan ini didayai oleh text to speech model terbaru yang mampu membuat audio layaknya manusia hanya dari text. OpenAi bekerja sama dengan aktor profesional untuk mewujudkan kemampuan ChatGPT ini.

Ada lima jenis voice yang tersedia, Juniper, Sky, Cove, Ember, dan Breeze. Sementara mode text nya ada

  • Story
  • Recipe
  • Speech
  • Poem
  • Explanation

Kemampuan ini juga merupakan bagian dari produk OpenAI lainnya, Whisper. Sistem voice recognition/pengenalan suara Whisper mampu mengubah ucapan pengguna menjadi teks, dan model teks ke suara baru untuk menghasilkan audio yang mirip manusia.

Dengan kemampuan baru ini, ChatGPT mampu memberikan banyak kemungkinan baru yang tidak terpikirkan sebelumnya. Selain jadi tempat curhat dan bercanda, kini ChatGPT bisa jadi teman berlatih bahasa asing!

Chat with Images on ChatGPT

Selain berbicara kepada ChatGPT, kini ChatGPT juga memungkinkan penggunanya untuk menunjukkan foto atau gambar.

Pengguna dapat mengambil gambar dari apa yang mereka lihat, menambahkan pertanyaan, dan mendapatkan jawaban dari ChatGPT.

Seperti kata pepatah, gambar bernilai ribuan makna. Ada banyak informasi yang bisa diambil dari gambar.

Dengan gambar, ChatGPT mampu memahami lebih banyak konteks pembicaraan yang diberikan. Sehingga, ChatGPT mampu digunakan untuk memberikan solusi dengan lebih akurat.

Berikut beberapa contoh penggunaannya.

  • Meminta makanan dan resep dari foto bahan makanan
  • Menganalisa grafik terkait pekerjaan
  • Meminta penjelasan mengenai cara untuk meninggikan sadel sepeda

Dengan bantuan gambar, chatGPT mampu memberikan penjelasan lebih lanjut mengenai persoalan yang dibicarakan.

ChatGPT juga menyediakan tool untuk menentukan area yang ingin disorot.

Berikut contoh menanyakan chatGPT untuk mengubah tinggi sepeda.

Dari video tersebut bisa dilihat bahwa ChatGPT mampu mengetahui tipe pengunci sadel sepeda. Tidak hanya itu, ChatGPT juga bisa mengetahui kunci yang cocok untuk digunakan di alat tersebut.

Yang harus dilakukan pengguna adalah mengambil gambar dari apa yang mereka lihat dan menambahkan pertanyaan yang ingin mereka jawab.

OpenAI mengungkapkan bahwa kemampuan memahami gambar didukung oleh GPT-3.5 dan GPT-4.

Whisper, Sistem Speech Recognition di belakang Fitur Baru ChatGPT

Whisper adalah sistem Pengenalan Ucapan Otomatis (Automatic Speech Recognition – ASR) yang dikembangkan secara open source oleh OpenAI.

Alat ini dilatih dengan mendengarkan 680,000 jam rekaman suara dari berbagai bahasa dan situasi yang diambil dari internet.

Tujuannya adalah untuk membuatnya bisa mengenali berbagai aksen, latar suara yang berisik, dan bahasa teknis, serta mampu menerjemahkan ucapan dari berbagai bahasa ke bahasa Inggris.

Cara Kerja Whisper

Cara kerja Whisper mungkin terdengar sederhana. Namun butuh kemampuan dan keahlian tinggi untuk bisa mewujudkan sistem pengenalan suara ini.

Ketika kita berbicara ke dalam alat ini, ia memotong-motong ucapan kita menjadi bagian-bagian kecil selama 30 detik, kemudian mengubahnya menjadi gambaran visual dari suara kita.

Selanjutnya, alat ini menganalisis gambaran visual itu dan mencoba menuliskan apa yang kita katakan dalam bentuk teks.

Selain itu, ia juga bisa menentukan bahasa apa yang kita gunakan dan bahkan menerjemahkannya ke bahasa Inggris jika perlu.

Kelebihan Whisper

Whisper memiliki kelebihan dibandingkan alat serupa karena ia dilatih dengan data yang sangat banyak dan beragam, sehingga ia lebih baik dalam menangani situasi yang berbeda. Meskipun mungkin tidak sempurna dalam semua situasi, alat ini membuat kesalahan lebih sedikit dibandingkan alat serupa lainnya saat dihadapkan pada berbagai jenis ucapan.

Salah satu hal menarik dari Whisper adalah kemampuannya untuk mengenali dan menerjemahkan berbagai bahasa.

Sekitar sepertiga dari data yang digunakan untuk melatih alat ini adalah dalam bahasa selain bahasa Inggris. Hal ini membantu Whisper untuk belajar bagaimana cara menuliskan dan menerjemahkan ucapan dalam berbagai bahasa ke bahasa Inggris.

Kontribusi ke Komunitas

OpenAI membagikan Whisper secara gratis ke publik, dengan harapan alat ini bisa membantu orang lain dalam mengembangkan aplikasi atau melakukan penelitian lebih lanjut dalam bidang pengenalan suara. Ini adalah langkah positif yang bisa mendorong inovasi dan kemajuan di bidang ini.

Whisper adalah alat yang menarik yang bisa mengubah cara kita berinteraksi dengan teknologi. Dengan kemampuannya untuk mengenali dan menerjemahkan ucapan, Whisper membuka peluang baru dalam dunia teknologi pengenalan suara dan kemungkinan besar akan membawa manfaat bagi banyak orang, terutama dalam konteks multibahasa dan global.

FAQ

Bagaimana cara menggunakan fitur melihat, mendengar, dan berbicara di ChatGPT?

Fitur melihat gambar dapat digunakan dengan melalui chat interface. Sementara untuk mendengar dan berbicara, pengguna dapat mengakses fitur suara di pengaturan.

Apa yang dimaksud dengan kemampuan multimodal ChatGPT?

Kemampuan multimodal mengacu pada kemampuan ChatGPT untuk memahami dan memproses lebih dari satu tipe input, seperti teks, gambar, dan suara, serta merespons dalam bentuk teks atau suara.

Apakah fitur baru ini tersedia untuk semua pengguna ChatGPT?

Untuk saat ini, fitur ini hanya tersedia untuk pengguna ChatGPT Plus dan Enterprise, namun OpenAI berencana untuk memperluas akses ke pengguna lain.

Akhir Kata

Dengan kemampuan terbaru untuk melihat, mendengar, dan berbicara, ChatGPT memberikan sentuhan baru mengenai konesp asisten virtual.

Fitur-fitur baru ini tidak hanya mengubah cara interaksi kita dengan ChatGPT, tetapi juga membawa fungsionalitas yang diberikannya ke level yang jauh lebih tinggi dibandingkan asisten suara lainnya di pasaran.

ChatGPT bukan hanya sekedar mengobrol dengan teks, tetapi juga memungkinkan untuk berinteraksi dengan ChatGPT dalam cara yang lebih intuitif dan alami, mirip dengan bagaimana kita berkomunikasi dengan manusia lain.

Ada beragam kemungkinan baru dalam mendapatkan informasi, memecahkan masalah, dan bahkan belajar dari model AI canggih ini.

Fitur-fitur menarik ini membuktikan bahwa ChatGPT terus berinovasi, menjadikan pengalaman pengguna lebih kaya, lebih mudah, dan jauh lebih interaktif.

Sementara banyak asisten suara hanya dapat memahami dan merespons perintah suara, ChatGPT kini dapat memberikan pengalaman yang lebih holistik dan mendalam, menjadikannya asisten virtual yang benar-benar revolusioner di era digital ini.


Baca juga artikel menarik seputar teknologi di Pintar Tekno yang terkait dengan Hardware, Memory, atau artikel lainnya dari Mufid Hanif. Untuk informasi lebih lanjut atau kebutuhan lainnya, kamu bisa menghubungi kami melalui admin@pintartekno.id.


Sumber:

  • ChatGPT can now see, hear, and speak – https://openai.com/blog/chatgpt-can-now-see-hear-and-speak#OpenAI
  • ChatGPT Introducing Whisper – https://openai.com/research/whisper
  • You can have voice chats with ChatGPT now. Here’s how – https://www.zdnet.com/article/you-can-have-voice-chats-with-chatgpt-now-heres-how/
Bagikan ke:
Diarsipkan di bawah:
Hanif
Ditulis oleh

Hanif

hi, I'm a SEO content writer with interest on business, entrepreneur, digital marketing, and many more

Leave a Reply

Your email address will not be published. Required fields are marked *