Hasil Pencarian

Ditemukan 5 dokumen yang sesuai dengan query

Evan Benedict Zaluchu

Analisis sentimen twitter pada cloudera berbasis AFINN word list menggunakan apache hadoop, flume, dan hive = AFINN word list based twitter sentiment analysis in cloudera using apache hadoop, flume, and hive

Abstrak :
ABSTRAK
Big Data adalah salah satu fenomena yang sudah tidak jarang terjadi di berbagai aspek-aspek kehidupan, baik di bidang industri, keuangan, sosial, dan sebagainya. Dari segi sosial, penggunaan media sosial seperti Twitter merupakan salah satu aplikasi nyata dari teknologi Big Data. Melalui opini-opini yang disampaikan pada Twitter, kita dapat mengetahui hal-hal apa saja yang menjadi topik terkini. Dengan besarnya jumlah tweet yang dipublikasikan tiap hari, atau tiap jam, membuat analisis terhadap Twitter ini hampir mustahil dilakukan tanpa menggunakan teknologi komputasi. Environment seperti Hadoop, Flume, dan Hive merupakan salah satu teknologi dapat digunakan untuk menganalisis jumlah data yang besar, yang mengalir di dalam Twitter.

ABSTRACT
Big Data is one of the global phenomenon that has become broad thing in the various aspects of the daily life, such as in industry sector, finance sector, social sector, etc. From the social aspect, the usage of the social media such as Twitter is one of the real application of the Big Data technology. Through the opinions that expressed on Twitter, we can find out about the things that become the current trending topic. With the numbers of the tweets that published every day, or every hour, making it impossible to do the Twitter analyzing without the use of the computational technology. The environment such as Hadoop, Flume, dan Hive is one of the technologies that can be use to analyze the enormous size of data, that flows around Twitter.

2017

S67967

UI - Skripsi Membership Universitas Indonesia Library

Diyanatul Husna

Evaluasi dan analisis capacity scheduler dan fair scheduler pada teknologi big data hadoop framework = Evaluation and analysis capacity scheduler and fair scheduler in hadoop framework on big data technology / Diyanatul Husna

Abstrak :
ABSTRAK
Apache Hadoop merupakan framework open source yang mengimplementasikan MapReduce yang memiliki sifat scalable, reliable, dan fault tolerant. Scheduling merupakan proses penting dalam Hadoop MapReduce. Hal ini dikarenakan scheduler bertanggung jawab untuk mengalokasikan sumber daya untuk berbagai aplikasi yang berjalan berdasarkan kapasitas sumber daya, antrian, pekerjaan yang dijalankan, dan banyaknya pengguna. Pada penelitian ini dilakukan analisis terhadapap Capacity Scheduler dan Fair Scheduler. Pada saat Hadoop framework diberikan 1 pekerjaan dengan ukuran data set 1,03 GB dalam satu waktu. Waiting time yang dibutuhkan Capacity Scheduler dan Fair Scheduler adalah sama. Run time yang dibutuhkan Capacity Scheduler lebih cepat 6% dibandingkan Fair Scheduler pada single node. Sedangkan pada multi node Fair Scheduler lebih cepat 11% dibandingkan Capacity Scheduler. Pada saat Hadoop framework diberikan 3 pekerjaan secara bersamaan dengan ukuran data set (1,03 GB ) yang sama dalam satu waktu. Waiting time yang dibutuhkan Fair Scheduler lebih cepat dibandingkan Capacity Scheduler yaitu 87% lebih cepat pada single node dan 177% lebih cepat pada multi node. Run time yang dibutuhkan Capacity Scheduler lebih cepat dibandingkan Fair Scheduler yaitu 55% lebih cepat pada single node dan 212% lebih cepat pada multi node. Turnaround time yang dibutuhkan Fair Scheduler lebih cepat dibandingkan Capacity Scheduler yaitu 4% lebih cepat pada single node, sedangkan pada multi node Capacity Scheduler lebih cepat 58% dibandingkan Fair Scheduler. Pada saat Hadoop framework diberikan 3 pekerjaan secara bersamaan dengan ukuran data set yang berbeda dalam satu waktu yaitu data set 1 (456 MB), data set 2 (726 MB), dan data set 3 (1,03 GB) dijalankan secara bersamaan. Pada data set 3 (1,03 GB), waiting time yang dibutuhkan Fair Scheduler lebih cepat dibandingkan Capacity Scheduler yaitu 44% lebih cepat pada single node dan 1150% lebih cepat pada multi node. Run time yang dibutuhkan Capacity Scheduler lebih cepat dibandingkan Fair Scheduler yaitu 56% lebih cepat pada single node dan 38% lebih cepat pada multi node. Turnaround time yang dibutuhkan Capacity Scheduler lebih cepat dibandingkan Fair Scheduler yaitu 12% lebih cepat pada single node, sedangkan pada multi node Fair Scheduler lebih cepat 25,5% dibandingkan Capacity Scheduler

ABSTRACT
Apache Hadoop is an open source framework that implements MapReduce. It is scalable, reliable, and fault tolerant. Scheduling is an essential process in Hadoop MapReduce. It is because scheduling has responsibility to allocate resources for running applications based on resource capacity, queue, running tasks, and the number of user. This research will focus on analyzing Capacity Scheduler and Fair Scheduler. When hadoop framework is running single task. Capacity Scheduler and Fair Scheduler have the same waiting time. In data set 3 (1,03 GB), Capacity Scheduler needs faster run time than Fair Scheduler which is 6% faster in single node. While in multi node, Fair Scheduler is 11% faster than Capacity Scheduler. When hadoop framework is running 3 tasks simultaneously with the same data set (1,03 GB) at one time. Fair Scheduler needs faster waiting time than Capacity Scheduler which is 87% faster in single node and 177% faster in muliti node. Capacity Scheduler needs faster run time than Fair Scheduler which is 55% faster in single node and 212% faster in multi node. Fair Scheduler needs faster turnaround time than Capacity Scheduler which is 4% faster in single node, while in multi node Capacity Scheduler is 58% faster than Fair Scheduler. When hadoop framework is running 3 tasks simultaneously with different data set, which is data set 1 (456 MB), data set 2 (726 MB), and data set 3 (1,03 GB) in one time. In data set 3 (1,03 GB), Fair Scheduler needs faster waiting time than Capacity Scheduler which is 44% faster in single node and 1150% faster in muliti node. Capacity Scheduler needs faster run time than Fair Scheduler which is 56% faster in single node and 38% faster in multi node. Capacity Scheduler needs faster turnaround time than Fair Scheduler which is 12% faster in single node, while in multi node Fair Scheduler is 25,5% faster than Capacity Scheduler

2016

T45854

UI - Tesis Membership Universitas Indonesia Library

M. Adhika Putra

Analisis kinerja sistem klasifikasi video berbasis tag menggunakan mapreduce untuk internet content profiling = An performance analysis of video classification system based on tag using mapreduce for internet content profiling

Abstrak :
Sebagian besar informasi yang beredar di internet merupakan konten video. Informasi video ini perlu dianalisis karena tidak semuanya yang beredar adalah video dengan konten yang baik. Banyak video dengan konten yang buruk beredar luas di internet dan dapat diakses oleh siapapun yang mengakses internet. Pada penelitian ini, dibuat sistem klasifikasi video pada Youtube dengan metode Symbolic Distance dan Focal Point menggunakan model pemrograman MapReduce pada Hadoop. Sistem klasifikasi ini mengidentifikasi tag yang tersemat pada setiap video di Youtube kemudian dibandingkan dengan matriks co-occurrence untuk mencari nilai symbolic distance pada sebuah video. Penggunaan metode Focal Point pada sistem klasifikasi bertujuan untuk meningkatkan akurasi dan focus untuk klasifikasi video. Dalam penelitian ini diukur juga kecepatan pemrosesan sistem klasifikasi dengan menggunakan Hadoop serta dicari faktor-faktor yang dapat mempengaruhi kecepatan pemrosesan. Untuk itu dilakukan 3 skenario pengujian berdasarkan ukuran InputSplit yang digunakan, jumlah node, serta konfigurasi pada YARN masing-masing dengan 3 ukuran file (500 MB, 1 GB, 1,5 GB) dengan masing-masing jumlah tag sebesar 58718, 119697, dan 160395 tag. Pada file berukuran 500 MB, 1 GB, 1,5 GB, penambahan jumlah node dapat mempercepat kecepatan rata-rata pemrosesan sebesar 0,2 detik, 5 detik, dan 16,3 detik. Kemudian dengan melakukan konfigurasi pada YARN, kecepatan pemrosesan dapat dipercepat hingga 47 detik, 277,1 detik, dan 354,3 detik pada file berukuran 500 MB, 1 GB, 1,5 GB. Dari pengujian juga diketahui semakin kecil InputSplit maka semakin tinggi kecepatan pemrosesan MapReduce. Namun jika mapper tidak dapat menangani jumlah split yang ada, maka kecepatan pemrosesan data akan menjadi lebih lambat dari sebelumnya. ......Most information that widely spread on the internet is video. This video information needs to be analyze because not all of the information have a good content. There are many video with bad content widely spread on the internet and anyone can access that video easily. In this research, Youtube Video Classification System with Symbolic Distance and Focal Point Method is made using a MapReduce from Hadoop framework. This system identifying the tag that assign in every Youtube video and then compare the tag with co-occurrence matrix to find the symbolic distance value for a single video. Focal Point in this system is useful to improve accuracy and focus of video classification. This research will measure the processing speed of this classification system and then search the factor that can affect processing speed. For that, three skenarios are implemented based on InputSplit size, amount of node, and YARN configuration with three file size (500 MB, 1 GB, 1,5 GB) with the number of each tag are 58718, 119697, and 160395 tag. For file with 500 MB, 1 GB, and 1,5 GB size, increasing the amount of node from two to three can speed up the process for 0,2 second, 5 second, and 16,3 second. Optimize the YARN configuration can speed up the process for 47 second, 277, 1 second, and 354,3 second for file with size of 500 MB, 1 GB, and 1,5 GB. This Reasearch also discover that if the size of InputSplit is small, then the speed of data processing is faster. But if the mapper can?t handle the amount of the split, it can make the processing speed slower than before.

Depok: Fakultas Teknik Universitas Indonesia, 2016

S63260

UI - Skripsi Membership Universitas Indonesia Library

Priagung Khusumanegara

Analisis performa kecepatan mapreduce pada hadoop menggunakan TCP packet flow analysis = Execution time performance analysis of hadoop mapreduce using TCP packet flow analysis

Abstrak :
Komputasi terdistribusi merupakan salah satu kemajuan teknologi dalam mengolah data. Penggunaan komputasi terdistribusi memudahkan user untuk mengolah data menggunakan beberapa komputer yang secara fisik terpisah atau terdistribusi. Salah satu teknologi yang menggunakan konsep komputasi terditribusi adalah Hadoop. Hadoop merupakan framework software berbasis Java dan open source yang berfungsi untuk mengolah data yang memiliki ukuran yang besar secara terdistribusi. Hadoop menggunakan sebuah framework untuk aplikasi dan programming yang disebut dengan MapReduce. Enam skenario diimplementasikan untuk menganalisa performa kecepatan MapReduce pada Hadoop. Berdasarkan hasil pengujian yang dilakukan diketahui penambahan jumlah physical machine dari satu menjadi dua physical machine dengan spesifikasi physical machine yang sesuai perancangan dapat mempercepat kecepatan rata-rata MapReduce. Pada ukuran file 512 MB, 1 GB, 1.5 GB, dan 2 GB, penambahan physical machine dapat mempercepat kecepatan rata-rata MapReduce pada masing-masing ukuran file sebesar 161.34, 328.00, 460.20, dan 525.80 detik. Sedangkan, penambahan jumlah virtual machine dari satu menjadi dua virtual machine dengan spesifikasi virtual machine yang sesuai perancangan dapat memperlambat kecepatan rata-rata MapReduce. Pada ukuran file 512 MB, 1 GB, 1.5 GB, dan 2 GB, penambahan virtual machine dapat memperlambat kecepatan rata-rata MapReduce pada masing-masing ukuran file sebesar 164.00, 504.34, 781.27, dan 1070.46 detik. Berdasarkan hasil pengukuran juga diketahui bahwa block size dan jumlah slot map pada Hadoop dapat mempengaruhi kecepatan MapReduce. ...... Distributed computing is one of the advance technology in data processing. The use of distributed computing allows users to process data using multiple computers that are separated or distributed physically. One of technology that uses the concept of distributed computing is Hadoop. Hadoop is a Java-based software framework and open source which is used to process the data that have a large size in a distributed manner. Hadoop uses a framework for application and programing which called MapReduce. Six scenarios are implemented to analyze the speed performance of Hadoop MapReduce. Based on the study, known that the additional the number of physical machines from one to two physical machines with suitable specifications design can speed up the average speed of MapReduce. On file 512 MB, 1 GB, 1.5 GB, and 2 GB size additional the number of physical machines can accelerate MapReduce average speed on each file size for 161.34, 328.00, 460.20, and 525.80 seconds. Meanwhile, additional the number of virtual machines from one to two virtual machines with suitable specifications design can slow down the average speed of MapReduce. On file 512 MB, 1 GB, 1.5 GB, and 2 GB size, additional the number of virtual machines can slow down the average speed of each MapReduce on a file size for 164.00, 504.34, 781.27, and 1070.46 seconds. Based on the measurement result is also known that the block size and number of slot maps in Hadoop MapReduce can affect speed.

Depok: Fakultas Teknik Universitas Indonesia, 2014

S55394

UI - Skripsi Membership Universitas Indonesia Library

Abdul Malik Karim Amrulloh

Evaluasi Implementasi Kafka dan RabbitMQ sebagai Message Broker pada Proyek Mata Elang = Evaluation of the Implementation of Kafka and RabbitMQ as Message Brokers in the Mata Elang Project

Abstrak :
Penelitian ini bertujuan untuk menganalisis throughput dan latensi Kafka dan RabbitMQ sebagai message broker pada proyek Mata Elang. Percobaan dilakukan dengan scenario 10 kali putaran dengan menggunakan file PCAP yang terdiri dari smallflow.PCAP dan bigflow.PCAP. Perbedaan nilai throughput pada pengujian menggunakan Kafka dan RabbitMQ didapatkan cukup signifikan baik pada scenario pengujian menggunakan smallflow.PCAP (p= 0,002) dan bigflow.PCAP (p=0,003). Pada pengujian dengan scenario menggunakan smallflow.PCAP didapatkan rata-rata throughput untuk Kafka dan RabbitMQ masing-masing sebesar 0,13 ± 0,03 pps dan 0,10 ± 0,01 pps. Sementara itu pada scenario pengujian menggunakan bigflow.PCAP didapatkan rata-rata throughput untuk Kafka dan RabbitMQ masing-masing sebesar 0,21 ± 0,07 dan 0,11 ± 0,02. Perbedaan nilai latensi pada pengujian menggunakan Kafka dan RabbitMQ didapatkan cukup signifikan baik pada scenario pengujian menggunakan smallflow.PCAP (p= 0,002) dan bigflow.PCAP (p=0,003). Pada pengujian dengan scenario menggunakan smallflow.PCAP didapatkan rata-rata latensi untuk Kafka dan RabbitMQ masing-masing sebesar 8,26 ± 3,51 sekon dan 9,73 ± 0,95 sekon. Sementara itu pada scenario pengujian menggunakan bigflow.PCAP didapatkan rata-rata throughput untuk Kafka dan RabbitMQ masing-masin sebesar 5,06 ± 1,23 sekon dan 7,20 ± 0,47 sekon. ...... This study aims to analyze the throughput and latency of Kafka and RabbitMQ as message brokers in the Mata Elang project. Experiments were conducted with 10 rounds of testing using PCAP files consisting of smallflow.PCAP and bigflow.PCAP. The difference in throughput values in the testing using Kafka and RabbitMQ was found to be significant in both the smallflow.PCAP scenario (p=0.002) and the bigflow.PCAP scenario (p=0.003). In the testing scenario using smallflow.PCAP, the average throughput for Kafka and RabbitMQ was 0.13 ± 0.03 pps and 0.10 ± 0.01 pps, respectively. Meanwhile, in the testing scenario using bigflow.PCAP, the average throughput for Kafka and RabbitMQ was 0.21 ± 0.07 pps and 0.11 ± 0.02 pps, respectively. The difference in latency values in the testing using Kafka and RabbitMQ was found to be significant in both the smallflow.PCAP scenario (p=0.002) and the bigflow.PCAP scenario (p=0.003). In the testing scenario using smallflow.PCAP, the average latency for Kafka and RabbitMQ was 8.26 ± 3.51 seconds and 9.73 ± 0.95 seconds, respectively. Meanwhile, in the testing scenario using bigflow.PCAP, the average latency for Kafka and RabbitMQ was 5.06 ± 1.23 seconds and 7.20 ± 0.47 seconds.

Depok: Fakultas Teknik Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian