Tugas Akhir Informatika
OPTIMASI RASIO KOMPRESI TEKS PADA ALGORITME HUFFMAN DENGAN MODIFIKASI PEMAMPATAN HURUF BERGANDA
Kompresi data adalah metode untuk mengurangi ukuran file. Pengurangan ini juga akan mempercepat pengiriman data antar perangkat. Algoritme Huffman adalah salah satu metode lossless data compression, yang menghitung kemunculan karakter sebagai referensi untuk mengkonversi karakter ke string bit terkait. Semakin sering kejadian, semakin pendek string bit yang dikonversi diperoleh. Dalam file teks, urutan karakter (atau huruf) berganda dapat sering terjadi. Urutan ini terdiri dari karakter kembar atau kombinasi dua konsonan (misalnya. 'aa', 'gg', 'ny', dan 'ng'), sebagai bagian dari sebuah kata. Jika urutan diganti dengan simbol baru di luar alfabet, kosakata akan meningkat. Namun, jika simbol sering muncul dalam teks, mereka akan dikodekan ke string bit pendek yang kami percaya akan meningkatkan kompresi rasio teks Huffman. Kami melakukan percobaan dengan mengubah beberapa urutan karakter dalam file teks menjadi simbol baru. Untuk menemukan urutan yang disarankan, kami hanya mengonversi urutan yang probabilitasnya lebih tinggi dari ambang yang diamati. Oleh karena itu, kami mengamati beberapa ambang batas untuk menemukan urutan mana yang berpotensi dikonversi menjadi simbol. Data pengujian kami terdiri dari lima file teks: tiga file ekstensi txt dan dua file ekstensi doc. Untuk memverifikasi apakah konversi beberapa karakter urutan meningkatkan kompresi rasio Huffman, kompresi Huffman diimplementasikan pada data uji asli dan pada data uji yang dikonversi. Hasil percobaan menunjukkan bahwa ambang 1% adalah yang terbaik. Evaluasi pada data uji asli menghasilkan kompresi rasio Huffman sebesar 44,87% dan 88,84% masing-masing untuk file ekstensi txt dan doc. Eksperimen ini membuktikan bahwa konversi beberapa karakter urutan ke simbol bermanfaat bagi Algoritme Huffman dengan memperoleh 45,97% dan 89,19% masing-masing untuk file ekstensi txt dan doc masing-masing. Diperoleh peningkatan persentase kompresi sebesar 1.1% dan 0.35% masing-masing untuk file ekstensi txt dan doc
Tidak ada salinan data
Tidak tersedia versi lain