Apa Itu Generative AI? Kenali Struktur, Cara Kerja, dan Jenisnya

Volubit.id — Generative AI adalah teknologi kecerdasan buatan atau artificial intelligence (AI) yang mampu menciptakan sesuatu yang baru, seperti teks, gambar, musik, atau kode pemrograman, berdasarkan data yang telah dipelajarinya.

Salah satu contoh paling populer adalah ChatGPT dari OpenAI, yang bisa menulis puisi, menjawab pertanyaan, atau bahkan membuat cerita seolah-olah ditulis oleh manusia.

Beberapa tahun lalu, generative AI dikenal lewat aplikasi yang bisa mengubah selfie menjadi lukisan klasik atau membuat wajah tampak menua. Kini, yang sedang naik daun adalah AI yang mampu memahami dan menghasilkan bahasa alami (natural language), berkat kemajuan teknologi large language model (LLM).

Generative AI bekerja dengan cara mempelajari pola dari data dalam jumlah besar, lalu menghasilkan sesuatu yang baru yang menyerupai data tersebut, namun bukan salinan langsung. Proses ini dilakukan menggunakan model deep learning yang disebut generative models.

Salah satu teknologi awal yang mengadopsi pendekatan ini adalah Variational Autoencoder (VAE), yang diperkenalkan pada 2013. VAE mampu mempelajari data dan menciptakan variasi barunya, misalnya, memulihkan gambar yang buram atau rusak.

Kemampuan untuk menciptakan data baru inilah yang memicu munculnya teknologi seperti generative adversarial networks (GAN) dan diffusion models, yang dapat menghasilkan gambar palsu dengan tingkat realisme tinggi. VAE pun menjadi fondasi awal bagi generative AI modern.

Dari Encoder-Decoder ke Transformer

Model generatif dibangun berdasarkan arsitektur encoder-decoder, yang juga menjadi dasar dari LLM masa kini. Encoder mengompresi data ke dalam ruang representasi abstrak, sementara decoder mengambil sampel dari ruang tersebut untuk menghasilkan keluaran baru sambil mempertahankan karakteristik utama dari data asli.

Terobosan besar kemudian datang dari Google pada 2017 melalui paper berjudul “Attention Is All You Need”, yang memperkenalkan transformer, arsitektur encoder-decoder yang dilengkapi mekanisme attention untuk memproses teks secara lebih efektif.

Encoder mengubah teks mentah menjadi embedding, dan decoder memprediksi kata demi kata berdasarkan embedding dan keluaran sebelumnya.

Melalui proses seperti game fill-in-the-blank, model AI belajar memahami hubungan antar kata dan kalimat, tanpa memerlukan anotasi manual seperti pelabelan kata benda atau kata kerja. Transformer bisa dilatih tanpa tugas spesifik di awal, lalu disesuaikan kemudian dengan sedikit data tambahan.

Berbeda dari Recurrent Neural Network (RNN) atau Long Short-Term Memory (LSTM) yang memproses teks secara berurutan, transformer memproses seluruh kalimat sekaligus sehingga pelatihannya jauh lebih cepat. Transformer juga memahami posisi dan hubungan antarkata, serta memungkinkan pemahaman konteks dan makna yang lebih baik.

Karena sifatnya yang serbaguna, model transformer sering disebut foundation models. Model bahasa berbasis transformer umumnya dibagi menjadi tiga jenis:

1. Encoder-only (misalnya BERT), digunakan untuk pencarian informasi atau chatbot layanan pelanggan seperti IBM Watson Assistant. Cocok untuk tugas non-generatif seperti klasifikasi dan ekstraksi informasi.
2. Decoder-only (misalnya GPT), dilatih untuk memprediksi kata berikutnya. GPT-3, dengan 175 miliar parameter, adalah salah satu contohnya.
3. Encoder-decoder (misalnya Google T5), menggabungkan kemampuan BERT dan GPT. Cocok untuk tugas generatif namun lebih ringan dan efisien.

Kemajuan Berkat Pelatihan dan Prompt

Kekuatan generative AI berasal dari kemampuannya memanfaatkan data tanpa label. Namun belakangan ini, pengawasan manusia kembali memainkan peran penting.

Salah satu pendekatannya adalah instruction tuning, seperti yang digunakan pada model Google FLAN, yang memungkinkan AI memahami perintah seperti “Apa ibu kota Prancis?” atau “Urutkan daftar angka ini.” Dengan memberikan pasangan perintah dan jawaban, model AI bisa menghasilkan respons yang lebih alami dan relevan.

Dengan teknik seperti zero-shot learning (tanpa contoh) dan few-shot learning (dengan satu atau beberapa contoh), model bisa menyelesaikan tugas baru tanpa perlu pelatihan ulang yang mahal. Namun, pendekatan ini sangat bergantung pada format perintah (prompt), sehingga lahirlah bidang baru bernama prompt engineering.

Bagi perusahaan, tantangannya adalah mengintegrasikan data internal ke dalam model. Karena fine-tuning bisa mahal, muncul alternatif seperti prompt-tuning dan adapter, pendekatan yang menyisipkan parameter kecil ke dalam model besar tanpa mengubah struktur dasarnya.

Metode penting lainnya adalah reinforcement learning from human feedback (RLHF), seperti yang digunakan oleh OpenAI. Dalam proses ini, model AI diberi beberapa respons, lalu dinilai oleh manusia. Model kemudian dilatih ulang agar menghasilkan jawaban yang paling disukai manusia dan hasilnya adalah chatbot yang terasa lebih manusiawi.

Leave a Reply

Your email address will not be published. Required fields are marked *