Ulasan dapat mempengaruhi orang-orang dalam mengambil keputusan karena orang-orang dapat mengetahui ulasan yang diberikan merupakan ulasan positif atau negatif. Namun, sentimen positif, negatif, atau netral, tanpa mempertimbangkan emosi yang ada dianggap kurang, karena emosi dapat memperkuat hasil sentimen. Tesis ini membahas perbandingan antara machine learning dan deep learning dalam mengklasifikasikan sentimen dan emosi pada ulasan dengan metode klasifikasi multi-label. Pada perbandingan machine learning, digunakan metode transformasi masalah Label Powerset (LP), Binary Relevance (BR), dan Classifier Chain (CC), serta algoritma Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), dan Extra Tree Classifier (ET). Fitur yang dibandingkan yaitu n-gram language model (unigram, bigram, unigram-bigram). Untuk deep learning, algoritma yang dibandingkan yaitu Gated Recurrent Unit (GRU) dan Bidirectional Long Short-Term Memory (BiLSTM), menggunakan word embedding yang dibangun sendiri. Hasil perbandingan menunjukkan bahwa RF unggul dengan nilai F1-score 88.4% dan 89.54% dengan metode CC untuk aspek makanan, dan LP untuk harga. Untuk aspek pelayanan dan suasana, ET memimpin dengan 92.65% dan 87.1% dengan metode LP dan CC berturut-turut. Sedangkan pada perbandingan deep learning, GRU dan BiLSTM mendapatkan nilai F1-score yang sama untuk aspek makanan, 88.16%. Pada aspek harga, GRU memimpin dengan 83.01%. Namun untuk pelayanan, dan suasana, BiLSTM mendapatkan nilai lebih tinggi dengan F1-score. Review can affect the decision making from people because people can know whether the review is positive, or negative. However, the sentimen positive, neagtive, and neutral, without considering the emotion is considered not enough because emotion can strenghten the sentimen result. This thesis explaining about the comparison of machine learning and deep learning in sentiment as well as emotion classification with multi-label classification. In machine learning comparion, the problem transformation that were used are Label Powerset (LP), Binary Relevance (BR), and Classifier Chain (CC), with Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), and Extra Tree Classifier (ET) as algorithms. The features that compared are yaitu n-gram language model (unigram, bigram, unigram-bigram). For deep learning, algorithms that were compared are Gated Recurrent Unit (GRU) and Bidirectional Long Short-Term Memory (BiLSTM), using self-developed word embedding. The comparion results RF dominates with F1-score 88.4% and 89.54% with CC method for food aspect, and LP for price. For service and ambience aspect, ET leads with 92.65% and 87.1% with LP and CC methods, respectively. On the other hand, in deep learning comparison, GRU and BiLSTM obtained similar F1- score for food aspect, 88.16%. On price aspect, GRU leads 83.01%. However, for service and ambience BiLSTM obtained higher F1-score 89.03% and 84.78% |