Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 4 dokumen yang sesuai dengan query
cover
Diyanatul Husna
"ABSTRAK
Apache Hadoop merupakan framework open source yang mengimplementasikan MapReduce yang memiliki sifat scalable, reliable, dan fault tolerant. Scheduling merupakan proses penting dalam Hadoop MapReduce. Hal ini dikarenakan scheduler bertanggung jawab untuk mengalokasikan sumber daya untuk berbagai aplikasi yang berjalan berdasarkan kapasitas sumber daya, antrian, pekerjaan yang dijalankan, dan banyaknya pengguna. Pada penelitian ini dilakukan analisis terhadapap Capacity Scheduler dan Fair Scheduler. Pada saat Hadoop framework diberikan 1 pekerjaan dengan ukuran data set 1,03 GB dalam satu waktu. Waiting time yang dibutuhkan Capacity Scheduler dan Fair Scheduler adalah sama. Run time yang dibutuhkan Capacity Scheduler lebih cepat 6% dibandingkan Fair Scheduler pada single node. Sedangkan pada multi node Fair Scheduler lebih cepat 11% dibandingkan Capacity Scheduler. Pada saat Hadoop framework diberikan 3 pekerjaan secara bersamaan dengan ukuran data set (1,03 GB ) yang sama dalam satu waktu. Waiting time yang dibutuhkan Fair Scheduler lebih cepat dibandingkan Capacity Scheduler yaitu 87% lebih cepat pada single node dan 177% lebih cepat pada multi node. Run time yang dibutuhkan Capacity Scheduler lebih cepat dibandingkan Fair Scheduler yaitu 55% lebih cepat pada single node dan 212% lebih cepat pada multi node. Turnaround time yang dibutuhkan Fair Scheduler lebih cepat dibandingkan Capacity Scheduler yaitu 4% lebih cepat pada single node, sedangkan pada multi node Capacity Scheduler lebih cepat 58% dibandingkan Fair Scheduler. Pada saat Hadoop framework diberikan 3 pekerjaan secara bersamaan dengan ukuran data set yang berbeda dalam satu waktu yaitu data set 1 (456 MB), data set 2 (726 MB), dan data set 3 (1,03 GB) dijalankan secara bersamaan. Pada data set 3 (1,03 GB), waiting time yang dibutuhkan Fair Scheduler lebih cepat dibandingkan Capacity Scheduler yaitu 44% lebih cepat pada single node dan 1150% lebih cepat pada multi node. Run time yang dibutuhkan Capacity Scheduler lebih cepat dibandingkan Fair Scheduler yaitu 56% lebih cepat pada single node dan 38% lebih cepat pada multi node. Turnaround time yang dibutuhkan Capacity Scheduler lebih cepat dibandingkan Fair Scheduler yaitu 12% lebih cepat pada single node, sedangkan pada multi node Fair Scheduler lebih cepat 25,5% dibandingkan Capacity Scheduler

ABSTRACT
Apache Hadoop is an open source framework that implements MapReduce. It is scalable, reliable, and fault tolerant. Scheduling is an essential process in Hadoop MapReduce. It is because scheduling has responsibility to allocate resources for running applications based on resource capacity, queue, running tasks, and the number of user. This research will focus on analyzing Capacity Scheduler and Fair Scheduler. When hadoop framework is running single task. Capacity Scheduler and Fair Scheduler have the same waiting time. In data set 3 (1,03 GB), Capacity Scheduler needs faster run time than Fair Scheduler which is 6% faster in single node. While in multi node, Fair Scheduler is 11% faster than Capacity Scheduler. When hadoop framework is running 3 tasks simultaneously with the same data set (1,03 GB) at one time. Fair Scheduler needs faster waiting time than Capacity Scheduler which is 87% faster in single node and 177% faster in muliti node. Capacity Scheduler needs faster run time than Fair Scheduler which is 55% faster in single node and 212% faster in multi node. Fair Scheduler needs faster turnaround time than Capacity Scheduler which is 4% faster in single node, while in multi node Capacity Scheduler is 58% faster than Fair Scheduler. When hadoop framework is running 3 tasks simultaneously with different data set, which is data set 1 (456 MB), data set 2 (726 MB), and data set 3 (1,03 GB) in one time. In data set 3 (1,03 GB), Fair Scheduler needs faster waiting time than Capacity Scheduler which is 44% faster in single node and 1150% faster in muliti node. Capacity Scheduler needs faster run time than Fair Scheduler which is 56% faster in single node and 38% faster in multi node. Capacity Scheduler needs faster turnaround time than Fair Scheduler which is 12% faster in single node, while in multi node Fair Scheduler is 25,5% faster than Capacity Scheduler"
2016
T45854
UI - Tesis Membership  Universitas Indonesia Library
cover
Fakhrul Arifin
"Diawali dengan Google File System dan MapReduce dari Google, Apache mengenalkan Hadoop sebagai teknologi pengolah data yang berukuran sangat besar. Karena tujuan awal Hadoop hanya untuk mengolah data yang berukuran besar, masalah keamanan data belum diantisipasi pada Hadoop versi 1.2.1. Pada skripsi ini membahas tentang program enkripsi yang dijalankan pada Hadoop versi 1.2.1. Program mengenkripsi file teks yang ada pada Hadoop Distributed File System(HDFS) dengan cara mengenkripsi setiap kata yang ada pada file. Program menggunakan algoritma enkripsi AES dan DES. Skripsi ini juga membandingkan program enkripsi yang berjalan tanpa Hadoop, Hadoop Standalone, dan Hadoop Distributed. Pada Hadoop Distributed menggunakan dua komputer dan satu virtual komputer. Melalui percobaan, terlihat bahwa program yang berjalan tanpa Hadoop memiliki troughput 0.99 MB/s sedangkan program yang berjalan pada Hadoop Standalone dan Hadoop Distributed masing-masing sebesar 0.53 MB/s dan 0.65 MB/s.

Beginning with the Google File System and MapReduce from Google, Apache introduce Hadoop as large data processing technology. Since the initial purpose of Hadoop for large data processing, data security issues have not been anticipated in the Hadoop version 1.2.1. In this final project discusses encryption programs that run on Hadoop version 1.2.1. The program encrypts text files that exist on the Hadoop Distributed File System (HDFS) by means of encrypting every word in the file. The program uses AES and DES encryption algorithm. This final project also compare the encryption program that runs without Hadoop, Hadoop Standalone, and Distributed Hadoop. Through experiments, it appears that the program is running without Hadoop having throughput 0.99 MB/s while the program is running on Hadoop Standalone and the Hadoop Distributed respectively 0.53 MB/s and 0.65 MB/s."
Depok: Fakultas Teknik Universitas Indonesia, 2014
S56276
UI - Skripsi Membership  Universitas Indonesia Library
cover
Priagung Khusumanegara
"Komputasi terdistribusi merupakan salah satu kemajuan teknologi dalam mengolah data. Penggunaan komputasi terdistribusi memudahkan user untuk mengolah data menggunakan beberapa komputer yang secara fisik terpisah atau terdistribusi. Salah satu teknologi yang menggunakan konsep komputasi terditribusi adalah Hadoop. Hadoop merupakan framework software berbasis Java dan open source yang berfungsi untuk mengolah data yang memiliki ukuran yang besar secara terdistribusi. Hadoop menggunakan sebuah framework untuk aplikasi dan programming yang disebut dengan MapReduce. Enam skenario diimplementasikan untuk menganalisa performa kecepatan MapReduce pada Hadoop. Berdasarkan hasil pengujian yang dilakukan diketahui penambahan jumlah physical machine dari satu menjadi dua physical machine dengan spesifikasi physical machine yang sesuai perancangan dapat mempercepat kecepatan rata-rata MapReduce. Pada ukuran file 512 MB, 1 GB, 1.5 GB, dan 2 GB, penambahan physical machine dapat mempercepat kecepatan rata-rata MapReduce pada masing-masing ukuran file sebesar 161.34, 328.00, 460.20, dan 525.80 detik. Sedangkan, penambahan jumlah virtual machine dari satu menjadi dua virtual machine dengan spesifikasi virtual machine yang sesuai perancangan dapat memperlambat kecepatan rata-rata MapReduce. Pada ukuran file 512 MB, 1 GB, 1.5 GB, dan 2 GB, penambahan virtual machine dapat memperlambat kecepatan rata-rata MapReduce pada masing-masing ukuran file sebesar 164.00, 504.34, 781.27, dan 1070.46 detik. Berdasarkan hasil pengukuran juga diketahui bahwa block size dan jumlah slot map pada Hadoop dapat mempengaruhi kecepatan MapReduce.
......
Distributed computing is one of the advance technology in data processing. The use of distributed computing allows users to process data using multiple computers that are separated or distributed physically. One of technology that uses the concept of distributed computing is Hadoop. Hadoop is a Java-based software framework and open source which is used to process the data that have a large size in a distributed manner. Hadoop uses a framework for application and programing which called MapReduce. Six scenarios are implemented to analyze the speed performance of Hadoop MapReduce. Based on the study, known that the additional the number of physical machines from one to two physical machines with suitable specifications design can speed up the average speed of MapReduce. On file 512 MB, 1 GB, 1.5 GB, and 2 GB size additional the number of physical machines can accelerate MapReduce average speed on each file size for 161.34, 328.00, 460.20, and 525.80 seconds. Meanwhile, additional the number of virtual machines from one to two virtual machines with suitable specifications design can slow down the average speed of MapReduce. On file 512 MB, 1 GB, 1.5 GB, and 2 GB size, additional the number of virtual machines can slow down the average speed of each MapReduce on a file size for 164.00, 504.34, 781.27, and 1070.46 seconds. Based on the measurement result is also known that the block size and number of slot maps in Hadoop MapReduce can affect speed."
Depok: Fakultas Teknik Universitas Indonesia, 2014
S55394
UI - Skripsi Membership  Universitas Indonesia Library
cover
White, Tom
"Get ready to unlock the power of your data. With the fourth edition of this comprehensive guide, you'll learn how to build and maintain reliable, scalable, distributed systems with Apache Hadoop. This book is ideal for programmers looking to analyze datasets of any size, and for administrators who want to set up and run Hadoop clusters.Using Hadoop 2 exclusively, author Tom White presents new chapters on YARN and several Hadoop-related projects such as Parquet, Flume, Crunch, and Spark. You'll learn about recent changes to Hadoop, and explore new case studies on Hadoop's role in healthcare systems and genomics data processing.Learn fundamental components such as MapReduce, HDFS, and YARNExplore MapReduce in depth, including steps for developing applications with itSet up and maintain a Hadoop cluster running HDFS and MapReduce on YARNLearn two data formats: Avro for data serialization and Parquet for nested dataUse data ingestion tools such as Flume (for streaming data) and Sqoop (for bulk data transfer)Understand how high-level data processing tools like Pig, Hive, Crunch, and Spark work with HadoopLearn the HBase distributed database and the ZooKeeper distributed configuration service."
Sebastopol, CA : O'Reilly Media , 2015
005.74 WHI h
Buku Teks  Universitas Indonesia Library