Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 14908 dokumen yang sesuai dengan query
cover
Rizal Setya Perdana
"The popularity of Twitter has attracted spammers to disseminate large amount of spam messages. Preliminary studies had shown that most spam messages were produced automatically by bot. Therefore bot spammer detection can reduce the number of spam messages in Twitter significantly. However, to the best of our knowledge, few researches have focused in detecting Twitter bot spam-mer. Thus, this paper proposes a novel approach to differentiate between bot spammer and legitimate user accounts using time interval entropy and tweet similarity. Timestamp collections are utilized to calculate the time interval entropy of each user. Uni-gram matching-based similarity will be used to calculate tweet similarity. Datasets are crawled from Twitter containing both normal and spammer accounts. Experimental results showed that legitimate user may exhibit regular behavior in posting tweet as bot spammer. Several legitimate users are also detected to post similar tweets. Therefore it is less optimal to detect bot spammer using one of those features only. However, combination of both features gives better classification result. Precision, recall, and f-measure of the proposed method reached 85.71%, 94.74% and 90% respectively. It outperforms precision, recall, and f-measure of method which only uses either time interval entropy or tweet similarity.

Ketenaran Twitter mengundang spammer untuk menggunakannya dalam penyebarluasan pesan spam. Penelitian terdahulu menunjukkan bahwa kebanyakan pesan spam dihasilkan secara otomatis oleh bot. Deteksi bot spammer akan dapat mengurangi jumlah pesan spam pada Twitter secara signifikan. Akan tetapi, sejauh yang penulis ketahui, masih sedikit penelitian yang fokus dalam deteksi bot spammer pada Twitter. Sehingga, paper ini mengusulkan pendekatan baru untuk membedakan antara bot spammer dan pengguna sah menggunakan time interval entropy dan kemiripan antar tweet. Kum-pulan timestamp digunakan untuk menghitung time interval entropy dari tiap akun pengguna. Uni-gram matching-based similarity akan digunakan untuk menghitung kemiripan antar tweet. Dataset diambil dari Twitter yang terdiri atas kumpulan akun normal dan akun yang terindikasi sebagai bot spammer. Hasil percobaan menunjukkan beberapa pengguna sah Twitter juga memiliki kebiasaan yang teratur dalam menghasilkan tweet sebagaimana bot spammer. Beberapa pengguna sah juga ter-deteksi menghasilkan tweet yang mirip. Oleh karena itu, deteksi bot spammer menggunakan satu fitur saja akan kurang optimal. Akan tetapi, kombinasi atas kedua fitur tersebut memberikan hasil klasifi-kasi yang lebih baik. Presisi, recall, dan f-measure dari metode yang diusulkan mencapai 85.71%, 94.74% dan 90%. Nilai ini melampaui presisi, recall, dan f-measure dari metode yang hanya meng-gunakan baik time interval entropy maupun kemiripan antar tweet saja."
Surabaya: Institut Teknologi Sepuluh Nopember, Faculty of Information Technology, Department of Informatics Engineering, 2015
AJ-Pdf
Artikel Jurnal  Universitas Indonesia Library
cover
Latifah Al Haura
"Penipuan dan bahkan pencurian informasi saat ini kerap terjadi di media sosial melalui unggahan pengguna yang tidak bertanggung jawab berupa status, tweet, ataupun pesan Spam yang berisi tautan-tautan yang berbahaya. Hal ini tidak terlepas dari keberadaan akun-akun jahat yang sudah sangat meresahkan dan mengganggu keamaan dan kenyamanan pengguna media sosial. Oleh karena itu, penelitian ini bertujuan untuk menggunakan fitur dari tweet (teks) dalam mendeteksi Malicious Account (akun jahat) di Twitter pengguna Indonesia. Terdapat dua metode ekstraksi fitur teks yang digunakan dan dibandingkan dalam penelitian ini yaitu Word2Vec dan FastText. Selain itu, penelitian ini juga membahas perbandingan antara metode Machine Learning dan Deep Learning dalam mengklasifikasi pengguna atau akun berdasarkan fitur dari tweet tersebut. Algoritma Machine Learning yang digunakan di antaranya adalah Logistic Regression, Decision Tree, dan Random Forest sedangkan algoritma Deep Learning yang digunakan yaitu Long Short-Term Memory (LSTM). Hasil dari keseluruhan skenario pengujian menunjukkan bahwa performa rata-rata yang dihasilkan metode ekstraksi fitur Word2Vec lebih unggul dibandingkan dengan FastText yang memiliki nilai F1-Score sebesar 74% dan metode klasifikasi Random Forest lebih unggul dibandingkan dengan tiga metode lainnya yang mana memiliki nilai F1-Score sebesar 82%. Sedangkan performa terbaik untuk kombinasi antara metode ekstraksi fitur dan metode klasifikasi terbaik yaitu gabungan antara Pre-trained Word2Vec dan LSTM dengan nilai F1-Score sebesar 84%.

Fraud and even theft of information nowadays often occur on social media through irresponsible user uploads in the form of statuses, tweets, or spam messages containing dangerous links. This is inseparable from the existence of Malicious Accounts that have been very disturbing and disturbing the comfort of users and the comfort of social media users. Therefore, this study aims to use the feature of tweets (text) in detecting Malicious Accounts on Indonesian Twitter users. There are two text feature extraction methods used and compared in this study, namely Word2Vec and FastText. In addition, this study also discusses the comparison between Machine Learning and Deep Learning methods in classifying users or accounts based on the features of the tweet. The Machine Learning algorithm used is Logistic Regression, Decision Tree, and Random Forest, while the Deep Learning algorithm used is Long Short-Term Memory (LSTM). The results of all test scenarios show that the average performance of the Word2Vec feature extraction method is higher than FastText with an F1-Score value of 74% and the Random Forest classification method is higher than the other three methods which have an F1-Score value of 82%. While the best performance for the combination of feature extraction method and the best classification method is the combination of Pre-trained Word2Vec and LSTM with an F1-Score value of 84%."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Ronny Mailindra
Yogyakarta: Bentang, 2016
899.221 RON s
Buku Teks SO  Universitas Indonesia Library
cover
"Beberapa metode telah diajukan untuk menggabungkan beberapa hasil forecasting dalam single forecast yang diberi nama simple averaging, pemberian rata-rata dengan bobot pada tahap validasi kinerja, atau skema kombinasi non-parametrik. Metode ini menggunakan kombinasi tetap pada individual forecast untuk mendapatkan hasil final dari forecast. Dalam paper ini, pendekatan berbeda digunakan untuk memilih metode forecasting, di mana setiap titik dihitung dengan menggunakan metode terbaik yang digunakan oleh dataset pelatihan sejenis. Dengan demikian, metode yang dipilih dapat berbeda di setiap titik perkiraan. Similarity measure yang digunakan untuk membandingkan deret waktu untuk pengujian dan validasi adalah Euclidean dan Dynamic Time Warping (DTW), di mana setiap titik yang dibandingkan diberi bobot sesuai dengan keterbaruannya. Dataset yang digunakan dalam percobaan ini adalah data time series yang didesain untuk NN3 Competition dan data time series yang di-generate dari paten-paten USPTO dan publikasi ilmiah PubMed di bidang kesehatan, yaitu pada Apnea, Aritmia, dan Sleep Stages. Hasil percobaan menunjukkan bahwa pemberian kombinasi bobot dari metode yang dipilih berdasarkan kesamaan antara data pelatihan dan data pengujian, dapat menyajikan hasil yang lebih baik dibanding salah satu kombinasi metode unweighted yang dipilih berdasarkan similarity measure atau kombinasi tetap dari individual forecast terbaik.

Abstract
Several methods have been proposed to combine the forecasting results into single forecast namely the simple averaging, weighted average on validation performance, or non-parametric combination schemas. These methods use fixed combination of individual forecast to get the final forecast result. In this paper, quite different approach is employed to select the forecasting methods, in which every point to forecast is calculated by using the best methods used by similar training dataset. Thus, the selected methods may differ at each point to forecast. The similarity measures used to compare the time series for testing and validation are Euclidean and Dynamic Time Warping (DTW), where each point to compare is weighted according to its recentness. The dataset used in the experiment is the time series data designated for NN3 Competition and time series generated from the frequency of USPTO?s patents and PubMed?s scientific publications on the field of health, namely on Apnea, Arrhythmia, and Sleep Stages. The experimental result shows that the weighted combination of methods selected based on the similarity between training and testing data may perform better compared to either the unweighted combination of methods selected based on the similarity measure or the fixed combination of best individual forecast."
[Fakultas Ilmu Komputer Universitas Indonesia, Fakultas Ilmu Komputer Universitas Indonesia], 2012
pdf
Artikel Jurnal  Universitas Indonesia Library
cover
Raphael Bianco Huwae
"Keamanan pada suatu sistem jaringan perusahaan sangatlah diperlukan. Tingkat availability yang tinggi di suatu server perusahaan menjadi aset berharga untuk mencapai profit perusahaan tersebut. Gangguan jaringan yang dialami perusahaan akan berdampak ke seluruh stakeholder perusahaan. Keamanan yang dilakukan menggunakan aplikasi firewall dinilai belum cukup untuk melindungi jaringan perusahaan. Penggunaan IDS pada suatu jaringan juga membutuhkan keahlian khusus dari administrator untuk terus menerus dapat memantau keamanan jaringan. Agar dapat melakukan pemantauan yang efektif dan hemat tenaga maka dilakukan penelitian untuk mendeteksi intrusi pada suatu keamanan jaringan dan melakukan reporting dengan menggunakan suatu bot Telegram. Penggunaan bot Telegram ini diharapkan akan memberikan suatu sistem reporting otomatis yang menyederhanakan proses monitoring pada suatu kegiatan berulang agar informasi terhadap serangan dari luar akan lebih cepat terdeteksi. Peringatan bahaya dikirim berupa notifikasi yang diintegrasikan pada aplikasi Telegram baik melalui smartphone maupun PC dengan berbentuk log alert yang dapat menampilkan waktu kejadian, IP yang diserang, IP attacker dan jenis serangan yang dilakukan. Dengan melakukan implementasi monitoring secara realtime terhadap jaringan melalui telegram maka baik pihak “IT” maupun “non IT” akan dapat mendapat informasi terhadap intrusi tersebut agar dapat melakukan reporting secara cepat.

Corporate network system security is very important. A high level of availability on a company's server becomes a valuable asset to achieve the company's profit. Server or network disruptions experienced by the company will affect all stakeholders of the company. Security measure carried out using a firewall application is not enough to protect corporate networks. The use of IDS on a network also requires special expertise from the administrator to continuously be able to monitor network security. In order to be able to carry out effective and energy-efficient monitoring, a study was conducted to detect intrusion in a network security and report it using a Telegram bot. The use of this Telegram bot is expected to provide an automatic reporting system that simplifies the process of monitoring a recurring activity so that information on attacks from outside will be responded more quickly. Danger alerts are sent in the form of messages that are integrated into Telegram applications both via smartphones and PCs in the form of log alerts that can display the time of occurrence, server IP being attacked, IP attacker and type of attack carried out. By implementing real-time monitoring of the network via telegram, both "IT" and "non-IT" parties will be able to obtain information on the intrusion so that they can make fast responses."
Depok: Fakultas Teknik Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Jayanti Yusmah Sari
"Curse of dimensionality merupakan masalah yang sering dihadapi pada proses klasifikasi. Trans-formasi fitur dan seleksi fitur sebagai metode dalam reduksi fitur bisa diterapkan untuk mengatasi masalah ini. Terlepas dari performanya yang baik, transformasi fitur sulit untuk diinterpretasikan ka-rena ciri fisik dari fitur-fitur yang asli tidak dapat diperoleh kembali. Di sisi lain, seleksi fitur dengan proses komputasinya yang sederhana bisa mereduksi fitur-fitur yang tidak diperlukan dan mampu me-representasikan data untuk memudahkan pemahaman terhadap data. Pada penelitian ini diajukan metode seleksi fitur baru yang berdasarkan pada dua pendekatan filter, yaitu similarity (kemiripan) dan entropi untuk mengatasi masalah data berdimensi tinggi. Tahap awal metode ini adalah meng-hitung nilai similarity antara fitur dengan vektor kelas dari 6 data berdimensi tinggi. Kemudian diperoleh nilai similarity maksimum yang digunakan untuk menghitung nilai entropi untuk setiap fitur. Fitur yang dipilih adalah fitur yang memiliki nilai entropi lebih tinggi daripada entropi rata-rata seluruh fitur. Fuzzy k-NN diterapkan untuk tahap klasifikasi data hasil seleksi fitur. Hasil percobaan menunjukkan bahwa metode yang diajukan mampu mengklasifikasi data berdimensi tinggi dengan rata-rata akurasi 80.5%.

Curse of dimensionality is a major problem in most classification tasks. Feature transformation and feature selection as a feature reduction method can be applied to overcome this problem. Despite of its good performance, feature transformation is not easily interpretable because the physical meaning of the original features cannot be retrieved. On the other side, feature selection with its simple com-putational process is able to reduce unwanted features and visualize the data to facilitate data understanding. We propose a new feature selection method using similarity based entropy to over-come the high dimensional data problem. Using 6 datasets with high dimensional feature, we com-puted the similarity between feature vector and class vector. Then we find the maximum similarity that can be used for calculating the entropy values of each feature. The selected features are features that having higher entropy than mean entropy of overall features. The fuzzy k-NN classifier was im-plemented to evaluate the selected features. The experiment result shows that proposed method is able to deal with high dimensional data problem with mean accuracy of 80.5%."
Surabaya: Faculty of Information and Technology, Department of Informatics Institut Teknologi Sepuluh Nopember, 2014
AJ-Pdf
Artikel Jurnal  Universitas Indonesia Library
cover
Universitas Indonesia, 1994
TA114
UI - Tugas Akhir  Universitas Indonesia Library
cover
Rosiana Disiati Prabandari
"ABSTRAK
Era globalisasi tidak dapat menahan besarnya pengaruh kecanggihan teknologi informasi, salah satunya adalah internet. Perkembangan teknologi internet tentu meningkatkan jumlah informasi yang tersedia. Informasi tersebut dapat berupa berita ? berita aktual yang dapat diakses melalui media sosial, seperti Twitter. Oleh karena itu, dibutuhkan suatu cara cepat dan efisien untuk menemukan topik utama dari Twitter. Pendeteksian topik pada dokumen yang sangat besar sulit dilakukan secara manual sehingga dibutuhkan metode otomatis, salah satunya faktorisasi matriks yaitu Nonnegative Matrix Factorization (NMF). Salah satu metode NMF yang telah berhasil dikembangkan dengan komplesitas waktu polinomial adalah P-NMF dengan algoritma AGM yang memiliki asumsi bahwa setiap topik memiliki sedikitnya satu kata yang tidak terdapat pada topik lainnya yang disebut sebagai kata anchor. P-NMF dengan algoritma AGM terdiri dari tiga tahapan, yaitu pembentukan matriks coocurance, pencarian kata anchor, dan recover. Pada penelitian ini akan diterapkan P-NMF dengan Recover KL untuk mendeteksian topik pada twitter, kemudian hasilnya akan dibandingkan dengan LDA dan P-NMF dengan Original Recover. Penelitian menunjukan bahwa P-NMF dengan Recover KL mampu meningkatkan akurasi untuk pendeteksian topik pada Twitter.

ABSTRACT
The era of globalization can?t withstand the influence of sophistication of information technology, such as Internet. Development of Internet technology would increase the amount of information. The information may be actual news that can be accessed through social media, such as Twitter. Therefore, needed a fast and efficient way to find the main topics of Twitter. Detection topics on very large documents difficult to do manually so it takes automated methods, one of which is nonnegative matrix factorization (NMF). One method that has been successfully developed NMF with polynomial time complexity is P-NMF algorithm AGM which assumes that each topic has at least one word that doesn?t appear on other topics, called anchor words. P-NMF algorithm AGM consists of three steps, the establishment of a matrix coocurance, finding anchor words, and recover. This research will be implemented P-NMF with Recover KL to detect topics on twitter, then the results will be compared with the LDA and P-NMF with Original Recover. Research shows that P-NMF with Recover KL can improve detection accuracy for topics on Twitter."
2016
T46037
UI - Tesis Membership  Universitas Indonesia Library
cover
Nia Dwi Rahayuningtyas
"Keraguan dan penolakan orang tua terhadap vaksinasi meningkat secara global. Maraknya penyebaran isu vaksinasi melalui media sosial mengarahkan persepsi publik pada keraguan terhadap vaksin yang berujung pada penurunan cakupan imunisasi dan tidak tercapainya target IDL di Indonesia. Pada media sosial Twitter terdapat dua kelompok, yaitu kelompok pro-vaksin yang mendukung vaksinasi dan anti-vaksin yang menolak vaksinasi.
Penelitian ini bertujuan untuk mengidentifikasi apakah sebuah Tweet memiliki kecenderungan ke arah pro- atau anti-vaksin dan untuk mengeksplorasi topik-topik terkait pro-vaksin dan anti-vaksin. Dataset diambil dari Twitter dengan kata kunci "vaksin" dan "imunisasi" lebih dari 9.000 data Tweet antara 11 Agustus sampai 10 September 2019. Anotasi dilakukan dalam 3 langkah berturut-turut dengan tiga pasangan label yaitu RELEVANT/IRRELEVANT, SUBJECTIVE/NEUTRAL, dan PRO/ANTI. Tiga eksperimen yaitu pemilihan fitur, algoritma, dan pipeline klasifikasi dilakukan untuk mendapatkan model stance detection terbaik yaitu nilai rata-rata micro tertinggi dari precision, recall, dan f1-score.
Fitur terpilih adalah kombinasi 3 fitur teks Count +Unigram+Bigram dengan algoritma Logistic Regression dan pipeline Two-stage Classification (f1-score = 80,5%). Algoritma terpilih pada pembentukan topic modeling adalah NMF dan LDA masing-masing untuk korpus pro-vaksin dan anti-vaksin dengan nilai koherensi sebesar 0.999.
Topik-topik anti-vaksin meliputi kritik terhadap fatwa halal MUI untuk Vaksin MR, kandungan babi pada Vaksin Meningitis Haji, komersialisasi vaksin, vaksin palsu, KIPI dan bahaya vaksin, vaksin sebagai alat konspirasi dan agenda Yahudi, tuntutan vaksin halal, dan seterusnya. Sedangkan topik-topik pro-vaksin lebih bersifat homogen yaitu mengenai manfaat dan pentingnya imunisasi, aturan pemberian vaksin, dan kampanye dalam bentuk publisitas kegiatan imunisasi, dan anjuran vaksin.

Parents hesitancy and refusal toward immunization was rising globally. The rise of the issue of vaccination through social media directs the public's perception of vaccine hesitancy that lead to a reduction in immunization coverage and the unfulfilled IDL target in Indonesia. There are two groups: pro-vaccine that support vaccines and anti-vaccine that refuse vaccines for various reasons that expressed in tweets on Twitter.
This research aims to identify whether a tweet has a tendency to support, or oppose immunization or vaccines and exploring the topic of pro-vaccine and anti-vaccine corpus. The dataset was taken from Twitter with the keywords "vaksin" and "imunisasi" of more than 9,000 tweets at 11 August until 10 September 2019. Annotation was carried out in 3 consecutive steps with three couple label namely RELEVANT vs IRRELEVANT, SUBJECTIVE vs NEUTRAL, and PRO vs ANTI.
Three experiments, namely the selection of features, algorithms, and pipeline were carried out to get the best model of stance detection which has the highest micro average precision, recall, and f1-scores. The selected feature is combination of Count +Unigram+Bigram features with Logistic Regression and pipeline Two-stage Classification (f1-score = 80,5%).
The selected topic modeling algorithms are NMF and LDA for the corpus pro-vaccine and anti-vaccine with coherence score 0.999. Anti-vaccine topics include criticism of the halal MUI fatwa for MR vaccine, pork gelatine in the Hajj Meningitis Vaccine, vaccines for business fields, fake vaccines, KIPI and vaccine hazards, vaccines as part of conspiracy and Jewish agenda, demands for halal vaccines, etc. Whereas pro-vaccine topics are more homogeneous, namely the benefits and importance of immunization, vaccine administration rules, and campaigns with publicity of immunization activities and vaccine recommendations.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia , 2020
TA-Pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Rilo Chandra Pradana
"

Pendeteksian topik adalah teknik untuk memperoleh topik-topik yang dikandung oleh suatu data tekstual. Salah satu metode untuk pendeteksian topik yaitu dengan menggunakan clustering. Namun, secara umum metode clustering tidak menghasilkan cluster yang efektif bila dilakukan pada data yang berdimensi tinggi. Sehingga untuk memperoleh cluster yang efektif perlu dilakukan reduksi dimensi pada data sebelum dilakukan clustering pada ruang fitur yang berdimensi lebih rendah. Pada penelitian ini, digunakan suatu metode bernama Deep Embedded Clustering (DEC) untuk melakukan pendeteksian topik. Metode DEC bekerja untuk mengoptimasi ruang fitur dan cluster secara simultan. Metode DEC terdiri dari dua tahap. Tahap pertama terdiri dari pembelajaran autoencoder untuk memperoleh bobot dari encoder yang digunakan untuk mereduksi dimensi data dan k-means clustering untuk memperoleh centroid awal. Tahap kedua terdiri dari penghitungan soft assignment, penentuan distribusi bantuan untuk menggambarkan cluster di ruang data, dan dilanjutkan dengan backpropagation untuk memperbarui bobot encoder dan centroid. Dalam penelitian ini, dibangun dua macam model DEC yaitu DEC standar dan DEC without backpropagation. DEC without backpropagation adalah DEC yang menghilangkan proses backpropagation pada tahap kedua. Setiap model DEC pada penelitian ini akan menghasilkan topik-topik. Hasil tersebut dievaluasi dengan menggunakan coherence. Dari penelitian ini dapat dilihat bahwa model DEC without backpropagation lebih baik daripada DEC standar bila dilihat dari waktu komputasi dengan perbedaan coherence antara keduanya yang tidak terlalu jauh.


Topic detection is a technique for obtaining the topics that are contained in a textual data. One of the methods for topic detection is clustering. However, generally clustering does not produce an effective cluster when it is done by using data with high dimension. Therefore, to get an effective cluster, dimensionality reduction is needed before clustering in the lower dimensional feature space. In this research we use DEC method for topic detection. DEC method is used to optimize the feature space and cluster simultaneously. DEC is divided into two stages. The first stage consists of autoencoder learning that obtains the weights of the encoder that used for dimension reduction and k-means clustering to get the initial centroid. The second stage consists of the soft assignment calculation, computing the auxiliary distribution that represents the cluster in the data space, and backpropagation to update the encoder weights and the centroid. In this research, two DEC models are built, namely the standard DEC and DEC without backpropagation. DEC without backpropagation is the DEC which eliminate the backpropagation process in the second stage. Every DEC models will produce topics. The results are evaluated using the coherence measure. From this research, it can be seen that DEC without backpropagation is better than standard DEC in terms of computation time with a slight difference in coherence measure.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>