<bold id="bold-381af477f11d2c3b92fda8c22ff6dac7">Pendahuluan</bold>

Zghair

Haleemah Khlaif

haleema@ouc.edu.iq

Iraq 01 05 2025

Kemajuan teknologi informasi dan komunikasi telah membawa perubahan besar dalam kehidupan masyarakat, termasuk dalam aktivitas berbelanja secara daring. Peningkatan signifikan dalam nilai transaksi online di seluruh dunia menunjukkan bahwa e-commerce telah menjadi pilihan utama konsumen untuk memenuhi kebutuhan mereka [1]. Survei terbaru menunjukkan bahwa sekitar 2,71 miliar orang di seluruh dunia melakukan pembelian secara online melalui platform e-commerce dan media sosial, dengan 41% di antaranya melalui toko online atau situs web bisnis [2].

Aplikasi e-commerce berperan penting dalam meningkatkan kualitas layanan dengan menyediakan pengalaman yang lebih personal kepada pengguna. Hal ini dapat dilakukan dengan memanfaatkan preferensi pelanggan dan riwayat transaksi sebelumnya untuk memberikan rekomendasi produk yang relevan [3]. Dengan kemudahan dan jaminan kualitas yang ditawarkan, masyarakat semakin memilih toko online sebagai sarana berbelanja [4].

Analisis sentimen merupakan proses yang digunakan untuk mengevaluasi opini atau perasaan pengguna terhadap produk atau layanan tertentu. Teknik ini menjadi penting seiring meningkatnya kebutuhan perusahaan untuk memahami opini publik dan memperbaiki layanan berdasarkan masukan tersebut [5]. Analisis ini menggunakan pendekatan pemrosesan bahasa alami (Natural Language Processing) dan pembelajaran mesin (Machine Learning) untuk mengklasifikasikan opini sebagai positif, negatif, atau netral [6].

Salah satu tahapan penting dalam analisis sentimen adalah preprocessing data, seperti proses pembersihan data, stemming, dan penghapusan kata umum (stopword) yang tidak bermakna. Tahapan ini bertujuan untuk menyederhanakan teks dan meningkatkan akurasi model klasifikasi [7].

ZALORA merupakan salah satu e-commerce yang populer di Indonesia, khususnya dalam kategori fashion. Sebagai salah satu platform belanja yang banyak digunakan, persepsi konsumen terhadap produk dan layanan ZALORA sangat penting untuk dianalisis. Persepsi konsumen merupakan proses bagaimana individu menafsirkan dan memahami informasi yang diterimanya, sehingga dapat mempengaruhi keputusan pembelian [8].

Untuk memahami persepsi tersebut, diperlukan metode yang mampu mengolah data ulasan konsumen secara efektif. Salah satu metode yang populer adalah Random Forest, yaitu algoritma pembelajaran mesin berbasis ensemble yang mampu menangani data dalam jumlah besar dan menghasilkan klasifikasi yang akurat [9]. Beberapa penelitian terdahulu menunjukkan bahwa Random Forest memiliki performa yang baik dalam mengklasifikasikan opini atau sentimen dalam data teks [10].

Dengan mempertimbangkan pentingnya analisis sentimen terhadap ulasan konsumen, serta efektivitas metode Random Forest dalam klasifikasi data, maka penelitian ini dilakukan untuk menganalisis sentimen konsumen terhadap produk ZALORA di Google Play Store

<bold id="bold-7ca57285530dda1da24268345d509e0b">Metode</bold>

Penelitian ini menggunakan pendekatan kuantitatif untuk melakukan analisis sentimen terhadap ulasan konsumen mengenai produk ZALORA di Google Play Store. Metode yang digunakan adalah algoritma klasifikasi Random Forest, dengan proses pengolahan data yang terdiri dari beberapa tahapan sebagaimana ditunjukkan pada Gambar 1.

Adapun tahapan penelitian terdiri dari beberapa langkah sistematis, dimulai dari pengumpulan data hingga evaluasi model, sebagai berikut:

Figure 1 Alur Penelitian

1. Pengumpulan Data

Data dikumpulkan melalui scraping ulasan konsumen terhadap aplikasi ZALORA di Google Play Store. Data ini berisi komentar pengguna yang selanjutnya dianalisis untuk mengidentifikasi sentimen.

2. Preprocessing

Proses ini bertujuan untuk membersihkan dan menyiapkan data teks agar siap dianalisis oleh model. Tahapan preprocessing meliputi:

Clearing: Menghapus karakter tidak penting seperti angka, simbol, dan tanda baca.

Case Folding: Mengubah seluruh teks menjadi huruf kecil untuk menyeragamkan format data.

Slang Word Standardization: Mengubah kata-kata tidak baku menjadi bentuk standarnya.

Stemming: Mengembalikan kata ke bentuk dasarnya menggunakan algoritma seperti Nazief–Adriani.

Stopword Removal: Menghapus kata-kata umum yang tidak memiliki makna penting seperti “yang”, “dan”, “di”, dan sebagainya [11].

3. Labeling

Tahap ini bertujuan untuk memberi label sentimen pada setiap data ulasan berdasarkan polaritasnya, yakni positif atau negatif, secara manual maupun otomatis menggunakan kata kunci [12].

4. Visualisasi Wordcloud

Data yang telah diproses kemudian divisualisasikan dalam bentuk word cloud untuk menampilkan frekuensi kata-kata yang paling sering muncul. Ini membantu menggambarkan topik dominan dalam ulasan [13].

5. Splitting Data

Data dibagi menjadi dua bagian, yaitu data latih (training) dan data uji (testing). Umumnya pembagian dilakukan dengan perbandingan 80:20 atau 70:30 [14].

6. Pembobotan Kata

Data teks dikonversi menjadi bentuk numerik menggunakan metode TF-IDF (Term Frequency–Inverse Document Frequency). Rumus TF-IDF adalah sebagai berikut:

Keterangan:

TF(t, d) = Frekuensi kemunculan term t dalam dokumen d

IDF(t) = Inverse Document Frequency, yaitu:log(N / DF(t))

N = Jumlah total dokumen

DF(t) = Jumlah dokumen yang mengandung term t[15]

7. Klasifikasi Sentimen dengan Random Forest

Metode Random Forest digunakan untuk melakukan klasifikasi sentimen. Algoritma ini membentuk beberapa pohon keputusan (decision tree) dan hasil akhirnya dipilih berdasarkan voting mayoritas dari semua pohon. Rumus prediksi klasifikasi menggunakan Random Forest adalah:

Keterangan:

H(x) = Hasil prediksi akhir (dari Random Forest)

h₁(x), h₂(x), ..., hₙ(x) = Prediksi dari masing-masing pohon keputusan

majority_vote = Pengambilan hasil berdasarkan mayoritas voting dari semua pohon[16]

8. Evaluasi Model

Model dievaluasi menggunakan Confusion Matrix untuk menghitung metrik akurasi, presisi, recall, dan F1-score guna mengukur performa klasifikasi model [17].

<bold id="bold-ae2b4ce4d81eb8a5655d3bacd14a170c">Hasil dan Pembahasan</bold> <bold id="bold-e699bf1d0e4d063a0b14444480974905">A.</bold> <bold id="bold-ffdd6febf258b8c8e8a41da152485098">Hasil Scraping Data</bold>

Berdasarkan proses pengumpulan data melalui teknik scraping yaitu dengan mengambil komentar ulasan pengguna Zalora pada playstore secara otomatis, berhasil mengumpulkan sebanmyak 1633 data ulasan yang mencakup kolom rating dan review, yang berisi teks ulasan dari pengguna produk Zalora. Teks ulasan ini mengandung berbagai simbol, angka, emoji, serta singkatan dalam bahasa yang tidak formal, sehingga memerlukan analisis lebih lanjut. Gambar 2 menunjukkan beberapa ulasan yang berhasil dikumpulkan melalui teknik scraping.

Figure 2 Hasil Scraping Data

<bold id="bold-595670b89014493e6dfb4e002acbb712">B. </bold> <bold id="bold-b82c413de3182a7e13dbc1c2f4047ab2">Hasil Preprocessing</bold>

Tahap pra-pemrosesan teks bertujuan untuk menyiapkan data komentar sebelum diterapkan pada model. Proses ini mencakup beberapa langkah penting, antara lain pembersihan data (cleaning), penyamaan huruf menjadi huruf kecil (case folding), normalisasi, normalisasi kata tidak baku atau bahasa gaul (slang normalization), penghapusan kata-kata umum yang tidak memiliki makna signifikan (stopword removal), dan stemming untuk mengubah kata ke bentuk dasarnya.Seluruh tahapan ini dilakukan menggunakan platform Google Colaboratory. Hasilnya dapat dilihat pada Tabel 1 berikut :

Table 1 Hasil Proses Preprocessing

Sebelum Proses Processing

Original Zalora tempat belanja sangat bagus barang2 berkualitas & dapat discond sangat besar

Sesudah Proses Processing

Cleaning Data Zalora tempat belanja sangat bagus barang berkualitas dapat discond sangat besar

Case Folding zalora tempat belanja sangat bagus barang berkualitas dapat discond sangat besar

Slang Normailized zalora tempat belanja sangat bagus barang berkualitas dapat discond sangat besar

Stop Removal [‘zalora’, ‘belanja’, ‘bagus’, ‘barang’, ‘berkualitas’, ‘discond’]

Stemming [‘zalora’, ‘belanja’, ‘bagus’, ‘barang’, ‘berkualitas’, ‘discond’]

<bold id="bold-47377d49a3fed1d9dacf9a0bfdc69b63">C. </bold> <bold id="bold-4f59cfc8063451e6fefbbd9ba35323ca">Hasil Labeling</bold>

Sebelum Proses Processing
Original	Zalora tempat belanja sangat bagus barang2 berkualitas & dapat discond sangat besar
Sesudah Proses Processing
Cleaning Data	Zalora tempat belanja sangat bagus barang berkualitas dapat discond sangat besar
Case Folding	zalora tempat belanja sangat bagus barang berkualitas dapat discond sangat besar
Slang Normailized	zalora tempat belanja sangat bagus barang berkualitas dapat discond sangat besar
Stop Removal	[‘zalora’, ‘belanja’, ‘bagus’, ‘barang’, ‘berkualitas’, ‘discond’]
Stemming	[‘zalora’, ‘belanja’, ‘bagus’, ‘barang’, ‘berkualitas’, ‘discond’]

Pada data yang di dapat melalui proses scraping sebelumnya belum terdapat label positif, negatif dan netral. Sehingga penulis melakukan pelabelan berdasarkan dictionary kosa kata yang berkonotasi positif dan negatif. Dictioanry kosa kata yang berkonotasi positif dan negatif di peroleh melalui link berikut :

Dictionary kosa kata positif : https://raw.githubusercontent.com/masdevid/ID-OpinionWords/master/positive.txt

Dictionary kosa kata negatif : https://raw.githubusercontent.com/masdevid/ID-OpinionWords/master/negative.txt

Berdasarkan dictionary kosa kata diatas, komentar yang tidak terdapat pada dictionary tersebut di anggap netral dan akan di hapuskan. Sehingga ulasan yang di dapat adalah sebanyak 1200 ulasan yang berisi 762 komentar positif dan 438 komentar negatif. Hasil dari labeling data di visualisasikan dalam bentuk pie chart yang dapat dilihat pada Gambar 2 berikut:

Figure 3 Visualisasi Pie Chart Labeling Data

<bold id="bold-c24b3897275c6c67f29d34cd78a82a49">D. </bold> <bold id="bold-ed7bf1af4afc0c467b1b561f0ae74daa">Hasil Visualiasi Wordcloud</bold>

Untuk memberikan pemahaman yang lebih mendalam mengenai tanggapan serta persepsi pengguna terhadap produk Zalora, hasil analisis sentimen dalam penelitian ini disajikan secara terpisah. Penyajian dilakukan dengan memisahkan antara ulasan yang bersifat positif dan ulasan yang mengandung sentimen negatif, sehingga memudahkan dalam mengidentifikasi pola opini pelanggan terhadap layanan dan produk Zalora.

Figure 4 Hasil Visualisasi Wordcloud Ulasan Positif

Melalui visualisasi WordCloud untuk komentar positif di atas, terlihat bahwa kata-kata seperti "produk", "barang", "zalora", "kirim", dan "belanja" menjadi istilah yang paling sering muncul dalam ulasan pengguna. Dominasi kata "produk" dan "barang" menunjukkan bahwa banyak pelanggan memberikan penilaian positif terhadap kualitas produk yang mereka terima. Sementara itu, kata "kirim" yang tampil mencolok mengindikasikan kepuasan pengguna terhadap kecepatan serta ketepatan pengiriman dari Zalora. Selain itu, kemunculan kata "belanja", "aplikasi", dan "fashion" merefleksikan pengalaman berbelanja yang nyaman serta variasi produk yang tersedia. Secara keseluruhan, dominasi kata-kata ini memperlihatkan bahwa mayoritas pelanggan merasa puas dengan layanan dan produk yang ditawarkan Zalora.

Figure 5 Hasil Visualisasi Wordcloud Ulasan Negatif

Melalui visualisasi WordCloud untuk komentar negatif di atas, terlihat bahwa istilah-istilah seperti "zalora", "barang", "kirim", "belanja", dan "pesan" menjadi kata yang paling menonjol dalam ulasan pengguna. Besarnya kata "barang" dan "kirim" mengindikasikan bahwa banyak keluhan pelanggan berhubungan dengan permasalahan pengiriman, seperti keterlambatan atau ketidaksesuaian produk yang diterima. Dominasi kata "zalora" dan "belanja" menunjukkan bahwa pengalaman berbelanja di platform ini sering menjadi sumber ketidakpuasan pengguna. Selain itu, kata-kata seperti "gak", "batal", "salah", "buruk", dan "kecewa" juga kerap muncul, memperkuat adanya sentimen negatif yang berkaitan dengan layanan, kualitas produk, maupun proses pembelian. Secara keseluruhan, WordCloud ini memperlihatkan bahwa mayoritas keluhan pelanggan Zalora berkisar pada isu ketidaksesuaian produk dan masalah dalam pengiriman.

<bold id="bold-085d4ed37ca827870c472e4b0e339f73">E. </bold> <bold id="bold-dbe89dc9a3f940aed62e49a145081e08">Hasil Splitting Data</bold>

Dataset ulasan produk Zalora dibagi menjadi data latih dan data uji guna memastikan proses pelatihan dan evaluasi model berjalan secara objektif. Pembagian dengan rasio 80:20 menghasilkan sebanyak 960 data uji dan 240 latih, dapat dilihat pada Gambar 6 berikut:

Figure 6 Hasil Visualisasi Splitting Data

Melalui visualisasi barplot, dapat diketahui bahwa pembagian dataset ulasan produk Zalora telah dilakukan sesuai dengan proporsi yang direncanakan, yakni 80% untuk data latih dan 20% untuk data uji. Sebagian besar data dialokasikan untuk proses pelatihan guna memungkinkan model belajar dari berbagai variasi data, sementara sebagian kecil sisanya digunakan untuk menguji performa model. Pembagian ini bertujuan agar model yang dihasilkan memiliki akurasi yang tinggi serta mampu melakukan generalisasi dengan baik terhadap data baru. Selain itu, distribusi yang seimbang ini juga berfungsi untuk meminimalkan risiko overfitting selama proses pelatihan

<bold id="bold-e7ce972ac9ae9ff4e3151e4734d4f79f">F. </bold> <bold id="bold-2261bae04108ddd47224614270012819">Hasil Pembobotan Kata TF-IDF</bold>

Metode TF-IDF digunakan untuk menentukan bobot pada setiap kata dalam teks ulasan, sehingga membantu dalam mengenali istilah-istilah penting secara lebih akurat. Dengan pendekatan ini, TF-IDF mampu menyoroti kata-kata yang sering muncul dalam satu ulasan tetapi jarang ditemukan di seluruh kumpulan data, sehingga memberikan wawasan yang lebih mendalam terkait opini pengguna terhadap produk Zalora. Hasil dari pmbobotan kata TF-IDF dapat dilihat pada Gambar 7 berikut:

Figure 7 Hasil TF-IDF

<bold id="bold-bf6d740dfddec487fb86cd894f8d3b86">G. </bold> <bold id="bold-3b106762e1037e1544f23bbd337ca783">Hasil klasifikasi Random Forest</bold>

Model klasifikasi sentimen berbasis Random Forest yang digunakan berhasil mencapai akurasi sekitar 80%, menandakan performa yang cukup baik dalam mengenali pola data. Hasil evaluasi menunjukkan bahwa model lebih unggul dalam mengidentifikasi ulasan positif, ditunjukkan oleh nilai precision, recall, dan f1-score yang masing-masing berada di atas 0.80. Hasilnya dapat dilihat pada Gambar 8. berikut :

Figure 8 Hasil Klasifikasi Random Forest

<bold id="bold-e797820f51e100ba43918ae6c793a2f2">H. </bold> <bold id="_bold-49">Evaluasi Model</bold>

Dari confusion matrix yang diperoleh, terlihat bahwa model lebih akurat dalam mengenali sentimen positif dibandingkan sentimen negatif. Sebanyak 127 ulasan positif berhasil diklasifikasikan dengan benar, sedangkan hanya 64 ulasan negatif yang terdeteksi secara tepat. Masih terdapat kekeliruan dalam prediksi, di mana 23 ulasan negatif salah diprediksi sebagai positif dan 26 ulasan positif diklasifikasikan sebagai negatif. Temuan ini mengindikasikan bahwa model memiliki kecenderungan untuk lebih mudah mengenali ulasan yang bernada positif, sementara kemampuan mendeteksi sentimen negatif masih perlu ditingkatkan.

Figure 9 Hasil Visualisasi Confusion Matrix

<bold id="bold-7e775b3ed05b6ab210c40413b427d53c">Simpulan</bold>

Berdasarkan hasil penelitian mengenai analisis sentimen konsumen terhadap produk ZALORA di Google Play Store menggunakan metode Random Forest, dapat disimpulkan beberapa poin utama sebagai berikut: (1) Sentimen konsumen terhadap produk ZALORA cenderung positif, sebagaimana ditunjukkan oleh hasil labeling data yang menunjukkan bahwa dari 1.200 ulasan yang dianalisis, sebanyak 762 ulasan (63,5%) merupakan ulasan positif. Visualisasi word cloud juga memperkuat kesimpulan ini, dengan dominasi kata-kata seperti "produk", "barang", dan "belanja" yang mencerminkan kepuasan konsumen terhadap layanan dan kualitas produk dari ZALORA. (2) Metode Random Forest menunjukkan performa yang baik dalam mengklasifikasikan sentimen ulasan konsumen. Berdasarkan evaluasi menggunakan confusion matrix, model ini berhasil mencapai akurasi sebesar 80%. Nilai precision, recall, dan F1-score untuk kategori sentimen positif masing-masing berada di atas angka 0,80, menunjukkan kemampuan klasifikasi yang cukup andal. Namun, performa model dalam mendeteksi ulasan negatif masih perlu ditingkatkan, mengingat adanya ketidakseimbangan klasifikasi pada beberapa data uji. (3) Proses preprocessing dan pembobotan kata menggunakan TF-IDF berperan penting dalam meningkatkan kualitas input untuk model klasifikasi. Tahapan seperti cleaning, stemming, dan stopword removal berhasil menyederhanakan data ulasan, sehingga membantu dalam pengenalan pola sentimen oleh algoritma