Transcript
MAKALAH PENGANTAR DATA MINING
WORD CLOUD OF CORRUPTION ERADICATION COMMISSION
(Studi kasus : Akun twitter Komisi Pemberantasan Korusi !KPK"RI#
Disusun $%e&:
Ark&amsia'ustina& )*+,
-NI.ERSITAS ISLAM IND$NESIA
/-R-SAN STATISTIKA
0AK-LTAS MATEMATIKA DAN ILM- PENGETAH-AN ALAM
1$G1AKARTA
2*3
WORD CLOUD OF CORRUPTION ERADICATION COMMISSION
1
Arkhamsiagustinah (11611083)
1
Jurusan Statistika, Universitas Islam Indonesia
arkhamsiagustinah@gmail!om
A4STRAK
Word cloud
meru"akan visualisasi kata #ang "ada umumn#a meru"akan ke#$ord dari se%uah $e%site, akun,
dll
Word cloud
da"at digunakan untuk mengetahui kata a"a #ang "aling sering mun!ul "ada suatu akun t$itter
&rinsi" dari
word cloud
ini adalah memvisualisasikan kata %erdasarkan kata dengan intensitas "enggunaan
tertinggi hingga terendah &enera"an metode data mining
word cloud
"ada akun t$itter resmi '&' ini %ertuuan
untuk menggali dan mengetahui "ola katakata #ang "aling umum di gunakan oleh akun t$itter resmi '&'
*erdasarkan uraian terse%ut, "enulis ingin mem%uat
word cloud
akun t$itter resmi '&' untuk mengetahui kata
a"a #ang "aling sering mun!ul atau digunakan "ada akun t$itter resmi '&' terse%ut +leh karena itu, dalam
"enelitian ini digunakan "lot, g"lot, assosiasi, dan $ord!loud untuk melihat "ola"ola kata #ang ter%entuk
%erdasarkan akun t$itter terse%ut -asil "enelitian ini adalah se%uah
word cloud
dari akun t$itter resmi '&'
dengan ma#oritas kata #ang "aling sering mun!ul adalah koru"si, antikoru"si, savek"k, grati.ikasi, dan
kanalk"k
Kata kunci : data mining, w!d c"ud, ana"i#i# $a!ingan ##ia" , twitt%!, KPK
PENDAH-L-AN
Latar 4e%akan'
/edia sosial meru"akan se%uah media online dimana "ara "enggunan#a da"at dengan mudah
%er"artisi"asi, %er%agi, dan men!i"takan isi meli"uti %log, earing sosial, $iki, .orum dan dunia virtual /edia
sosial adalah "enggunaan teknologi %er%asis $e% dan mo%ile untuk mengu%ah komunikasi menadi dialog
interakti. Andreas 'a"lan dan /i!hael -aenlein mende.inisikan media sosial
se%agai se%uah kelom"ok
a"likasi %er%asis internet #ang mem%angun di atas dasar ideologi dan teknologi e% 20 , dan #ang
memungkinkan "en!i"taan dan "ertukaran konten #ang di%uat "engguna ('a"lan, Andreas / /i!hael
-aenlein 420105
Users of the world, unite! The challenges and opportunities of Social Media
*usiness
-orions 73(1) 79:68)
Jearing sosial meru"akan salah satu %agian dari media sosial #ang digunakan &ada saat ini situs
microblogging
telah menadi alat komunikasi #ang sangat "o"uler di kalangan "engguna internet ;imana utaan
"esan #ang mun!ul setia" hari di situs $e% "o"uler #ang men#ediakan la#anan
microblogging
se"erti <$itter,
a, 2013) Salah satu situs
microblogging
#ang "o"uler di Indonesia saat ini adalah
Twitter
<$itter se%agai salah satu situs
microblogging
dengan "engguna le%ih dari 700 uta dan ?00 uta
tweet
"erhari (=ar%er, 2012), memungkinkan "engguna untuk %er%agi "esan menggunakan teks "endek dise%ut
Tweet
(<$itter, 2013)
Twitter
"ada a$aln#a han#a digunakan se!ara "ersonal amun seiring dengan %eralann#a
$aktu,
twitter
telah digunakan untuk %er%agai ke"entingan #ang salah satun#a adalah se%agai media untuk
melakukan
update
in.ormasi dari %er%agai instansi
Saat ini t$itter "engguna t$itter %erasal dari %er%agai kalangan /ulai dari remaa, orang de$asa,
"erusahaan, %ahkan instansi "emerintahan t /ining
Media Sosia% Twitter
/edia sosial adalah media untuk interaksi sosial menggunakan teknik mudah dan da"at di"erluas /edia
sosial menggunakan teknologi $e% untuk %erkomunikasi melalui dialog #ang interakti. Andreas 'a"lan dan
/i!hael -aenlein (2010) uga mende.inisikan media sosial se%agai kelom"ok "ada a"likasi internet #ang
di%angun dengan menggunakan .ondasi teknologi $e% 20
<$itter adalah se%uah mi!ro%logging atau %log mikro atau da"at dikatakan se%uah earing sosial se"erti
haln#a =a!e%ook <$itter meru"akan salah satu media sosial dengan konse" "en#e%aran in.ormasi "esan se!ara
singkat, "adat dan real time di dalam kalimat kurang dari 1?0 karakter ke"ada "em%a!an#a diseluruh dunia
'arena kandungan "esan #ang singkat, <$itter dimasukkan dalam kategori mi!ro%log, #aitu se%uah media
online #ang memungkinkan "enggunan#a menuliskan in.ormasi "esan se!ara singkat <$itter didirikan oleh 3
orang #aitu Ja!k ;orse#, *i Stone, dan Cvan illiams di San =ran!is!o dan go "u%li! "ada Agustus 2006
Te7t Minin'
t /ining adalah suatu "roses #ang %ertuuan untuk menemukan in.ormasi atau tren ter%aru #ang
se%elumn#a tidak terungka", dengan mem"roses dan menganalisa data dalam umlah %esar ;alam menganalisa
se%agian atau keseluruhan unstru!tured te>t, te>t mining men!o%a untuk mengasosiasikan satu %agian teks
dengan #ang lainn#a %erdasarkan aturanaturan tertentu Selain itu te>t mining uga diartikan se%agai kegiatan
menam%ang data dari data #ang %eru"a teks atau dokumen, dengan tuuan men!ari katakata #ang da"at
me$akili a"a #ang ada dalam dokumen sehingga da"at dilakukan analisa keterhu%ungan antar dokumen
Eangkahlangkah #ang dilakukan dalam te>t mining adalah se%agai %erikut
'am(a! )*)
Tahapan dalam Text Mining
•
t
mining
Word cloud
da"at menam"ilkan kata #ang "aling sering mun!ul atau "aling sering digunakan "ada suatu
$e% atau"un teks 'ata #ang "aling sering mun!ul akan memiliki ukuran #ang le%ih %esar dari kata #ang lain
ord Bloud sering digunakan untuk men#oroti istilah "o"uler atau tren %erdasarkan .rekuensi "enggunaan kata
(&*B, 2013) ord Bloud meru"akan "endekatan #ang da"at menelaskan "ertan#aan "enelitian dengan sangat
!e"at dan mudah, kita da"at menelaahi
Word Cloud
se!ara singkat dan da"at melakukan analisis #ang
kom"rehensi. (Fraham, I /illigan, S eingart)
Te7t 8%usterin'
/enurut =ung, (2001), !lustering meru"akan "roses "engelom"okan isi %erdasarkan in.ormasi .u#,
se"erti katakata atau .rase kata dalam satu set dokumen ;engan kata lain, !lustering adalah "roses
"engelom"okan set o%ek .isik atau a%strak ke dalam kelas o%ek #ang sama
K9Means 8%usterin'
Algoritma '
‐
/eans adalah algoritma !lustering #ang "aling "o"ular dan%an#ak digunakan dalam dunia
industri Algoritma ini disusun atas dasar ide #ang sederhana Ada a$aln#a ditentukan %era"a !luster #ang
akandi%entuk Se%arang o%#ek atau elemen "ertama dalam !luster da"at di"ilih untuk diadikan se%agai titik
tengah (!entroid "oint) !luster Algoritma '
‐
/eans selanutn#a akan melakukan "engulangan langkah
‐
langkah
%erikut sam"ai teradi kesta%ilan (tidak ada o%#ek #ang da"at di"indahkan)
1 menentukan koordinat titik tengah setia" !luster,
2 menentukan arak setia" o%#ek terhada" koordinat titik tengah,
3 mengelom"okkan o%#ek
‐
o%#ek terse%ut %erdasarkan "ada arak minimumn#a
'ele%ihan dan 'elemahan algoritma '
‐
means Algoritma '
‐
means dinilai !uku" e.isien, #ang ditunukkan
dengan kom"leksitasn#a +(tkn), dengan !atatan n adalah %an#akn#a o%#ek data, k adalah umlah !luster #ang
di%entuk, dan t %an#akn#a iterasi *iasan#a, nilai k dan t auh le%ih ke!il dari"ada nilai n Selain itu, dalam
iterasin#a, algoritma ini akan %erhenti dalam kondisi o"timum lokal -al #ang diangga" se%agai kelemahan
algoritma ini adalah adan#a keharusan menetukan %an#akn#a !luster #ang akan di%entuk, han#a da"at
digunakan dalam data #ang mean
‐
n#a da"at ditentukan, dan tidak mam"u menangani data #ang mem"un#ai
"en#im"angan
‐
"en#im"angan (nois# data dan outlier)
erkhin
men#e%utkan %e%era"a kelemahan algoritma '
‐
means adalah (1) sangat %ergantung "ada "emilihan nilai a$al !entroid, (2) tidak elas %era"a %an#ak !luster k
#ang ter%aik,(3) han#a %ekera "ada atri%ut numerik
RE0RENSI PENELITIAN
=ran!e Bheong dan Bhristo"her Bheong melakukan analisis "ada t$itter mengenai %anir #ang teradi di
Australia se"anang tahun 20102011 &enelitian ini dilakukan untuk melihat se%era"a %esar "eran "emerintah
dalam mem%erikan u"date in.ormasi mengenai %en!ana %anir terse%ut *erdasarkan hasil "enelitian,
mas#arakat umum dan rela$anrela$an %anir meru"akan "ihak #ang !uku" %er"eran dalam melakukan u"date
in.ormasi se"utar %anir dan %antuan%antuan
/arion C -am%riek dkk melakukan analisis terhada" akun t$itter atlit untuk melihat tema a"a #ang
"aling sering dikomunikasikan antara atlit dengan "enggemar mereka &ada "enelitian ini ditemukan tern#ata
atlit le%ih sering mem%i!arakan hal diluar %idang ke atlit ann#a, sedangkan han#a 17Q dari
tweets
mereka #ang
mem%i!arakan se"utar olahraga "ro.esional #ang mereka lakukan
Jordan Johnston
melakukan "enelitian #ang %erkaitan dengan isi t$eets dari tim *A dengan tim =E
&enelitian terse%ut mem%agi t$eets menadi enam kategori, #aitu keterli%atan, in.ormasi, statistik tim, iklan,
keterli%atan "emain, dan "romosi iklan -asil "enelitian ini menam"ilkan dengan elas "er%edaan strategi dari
kedua tim t mining adalah se%agai %erikut
Men'ambi% Teks dari Twitter
<$eets da"at diam%il dari t$itter dengan "eritah
userTimeline"
, atau
searchTwitter"
dalam "aket t$itte
(Fentr#, 2012) &enelitian ini menggunakan "erintah
userTimeline"
karena #ang ingin diteliti adalah
timeline
dari akun
twitter
@'&'I
> library(twitteR)
> load("twitteR_credentials")
> registerTwitterOAuth(twitCred)
> # mengambil 5 tweets teratas mili! a!un resmi
>
rdmTweets ! userTimeline("KPK_RI", n=500,cainfo="cacert.pem")
2Trans;ormasi Teks
# !on$ersi men%adi !ata turunan (inggris)
> myCor&us ' tm_ma&(myCor&us tolower)
> # mengha&us tanda baca
> myCor&us ' tm_ma&(myCor&us remo$eunctuation)
> # mengha&us ang!a
> myCor&us ' tm_ma&(myCor&us remo$e*umbers)
> # menhga&us +R,
> remo$e+R, ' -unction(.) gsub("htt&//0alnum0112" "" .)
> myCor&us ' tm_ma&(myCor&us remo$e+R,)
> # menambah!an satu sto&word 0 " "
> my3to&words ' c(sto&words(4english4) "")
>
m-topwords! c(stopwords(enlis*),"teman","$amu","lai","e%ent","$pd",
"1anan","ala","sesuai","$onser","len$apna","sandiwararadio$p$","'ai",
"sp","r*a","melalui","fa$s","atas","per","terus","ana$","setiap","soal",
"sedi$it","serta","adl","topen","ismlau","se1a$","a$un","dindin","teru
lan","tentan","download","sendiri","$antor","siaran","meni$uti","sila$a
n","ada","te*adap","'erlansun","ala","se1a$","lalu","1n","atas","toppin
","d$$p$","lapor$an","ole*","elar","adala*","denan","semua","satuna",
"cari","selama","sesuai","'ana$","*a$i","'isa","eps","wa$et","'rsm","pend
apatmu","se'elum","adi$","didi$","'ai","sampai","dimili$i","mela$u$an","d
isini","tanpa","palin","tt","disini","a$an","u$","didownload","len$ap"
,"menutup","pada","mari","dapat","ide","$li$","1am","*ari","1ua","saa","
$er1a","rati","'aaimana","film","mas","1am","'u$an","anda","lewat","sec
ara","'aaimana","muda*","sama","di*adiri","sd*","a$u","cara","lain","sore
","dari","ini","$epada","sian","masu$","des","umur","$arena","dua","'aran
","le'i*","ratis","desem'er","masi*","'erla$u","terupdate","lau","'ila"
,"ames","di1amin","teater","siswa","memili$i","la$u$an","sa1a","s'","tan
is","la$u$an","ao","$ami","'uat","'u$u","'enar","'aren","luar","pai","
rencana","ut$","li%e","undu*","satu","lelan","1adwal","lan1ut","di$ena$an
","'ersama","ta*un","saat","selamat","andri$","duma","tetap$an","resolusi
mu","lansun","email","'a*as","untu$","se'aai","'entu$","$ita","streamin
","seminar","i$ut","a$*ir","tata","du$un","'a","aen","timeline","tetap
","ter$ait","ran$a","'ai$","'e'erapa","para","i'u","se$aran","tema","men
urut","pelani","rapat","telp","nanti","pasal","sala*","'ersi*","i$uti","d
an","star1o1a","um","1o1a","ta*un","an","$ita","dalam","datan","or"
,"mrp$n","tlpn","undu*","diterima","'e'erapa","lansun","pandananmu","*a
ra","streamin","*ina","apa","namun","siap","aen","*as*ta","terse'ut"
,"dalam","ropo$an$orupsi","ran$amen1elan","ran$a","men1elan","inform
asi","fasilitas","$p$","'eri$ut","info","ta*un$p$","sistem","salam","li*at
","sanat","lan1utan","wa1i'","pi*a$","tida$","per1alanan","wi'","'a*wa","
$em'ali","oran","anota","tida$","lom'a","festi%","'erita","lom'a","stre
am","p$l","perna*","made","mem'eri$an","wor$s*op","'eso$","pandu","spump
u'li$","spuum","'era$ti%ita","dilinduni","mem'eri$an","demi","sms","mus
i$","selalu","nonton","media","rena$si","masara$attelp","menudara","se'e
sar","narasum'","seputar","'oot*","era$an","1umla*","nurani","$anal","s'*
a","itu","peran","calon","$ws","narasum'er","pintu","sa$si$an","$eiatan",
"dimulai","'era$ti%itas","lawan","$anal","s*are","menari$","umarisuma","
edun","suda*","daera*","$era*asiaan","ter*adap","pu$ul","tal$s*ow","uan"
,"1u1ur'arenan","1u1ur","'arenan","lawan","$anal","daera*","serta$an","d
isampai$an","sesi","resmi","'iaa","$ws","capaian","oa$arta","perempuan
","'era$si","acara","tp$","t$i","riau","1i$a","mau","podcast","td$","festi
%alanti$orupsi","sema$in","%ideo","a$ses","stand","seoran","antara","*asi
l","menari$","madin","adl","dulu","ma$a","festi%al","lupa","dalam","diatu
r","men1adi","aitu","terima$asi*","perinatan","$eras","a$si","identitas"
,"seumur","men1adi","se$itar","atau","ini","itu","a$an","'a*wa","di","$rid
osono","$a1ian","pem'anunan","adl*","sima$","aenda","diri","ta*u","$asus
","penaduanat","dila$u$an","matana1wa","t*d","''rp","spum","'er*asil","
dprd","menola$","streaminna","massal","perinati","dlm","%ia","tela*","p
enelenara","$reatif","diri","per$ara","dn","dila$u$an","ran$aian","$o
rsup","pu'li$","neeri")
> # mengha&us !ata sesuai sto&word
&m+orpus ! tm_map(m+orpus, remo%e2ords, m-topwords)
*St%mming w!d
Stemming
meru"akan "roses #ang dilakukan untuk mengu%ah se%uah kata turunan menadi kata dasarn#a
dengan menggunakan aturanaturan tertentu Bontohn#a kata OditunukP menadi kata OmenunukP, kemudian
kata OmenunukP akan di
stem
menadi kata dasarn#a #aitu OtunukP
> # menyim&an salinan !or&us untu! diguna!an sebagai !amus !ata untu! stem
com&letion
> myCor&usCo&y ' myCor&us
> # stem words
> myCor&us ' tm_ma&(myCor&us stemocument)
Setelah itu, menggunakan
stemCom&letion ()
untuk men#elesaikan
stem
dengan kor"us #ang
%elum di
stem
,
myCor&usCo&y
se%agai kamus ;engan "engaturan
default
, di%utuhkan ke!o!okan #ang
"aling sering dalam kamus se%agai
completion
& stem completion!!&peru'*n $ata dasar
&m+orpus ! tm_map(m+orpus, stem+ompletion, dictionar=m+orpus+op)
<
/ui"ding T%!m#0Dcum%nt Mat!i1 2TDM3
F!%4u%nt T%!m# and A##ciatin#
&erintah #ang digunakan untuk melihat kata "o"uler (ter%an#ak) dan asosiasi antar kata adalah
-ind6re7Terms()
> # melihat -re!uensi terms dengan -re!uensi minimal 8 dari T9
> -ind6re7Terms(myTdm low-re7:8)
Untuk menampilkan kata#kata $ang paling populer dari akun resmi %&'&()*, dapat dibentuk sebuah
barplot dari T+M erdasarkan terms matriks dokumen T+M" dapat diperoleh frekuensi terms dengan
rowSums()
&emudian dapat dipilih memunculkan beberapa dokumen dan menampilkann$a dalam bentuk
barplot menggunakan paket
ggplot2
Wickham, -../"
> term6re7uency ' row3ums(as;matri.(myTdm))
> term6re7uency ' subset(term6re7uency term6re7uency>:8)
> library(gg&lot<)
> 7&lot(names(term6re7uency) term6re7uency geom:"bar" .lab:"Terms")=
coord_-li&()
>
'arplot(term3re4uenc, las=)
3Membuat
W!dC"ud
Setelah mem%uat library(wordcloud)
> m ' as;matri.(myTdm)
> # menghitung -re!uensi !ata dan mengurut!annya berdasar!an -re!uensi
terbanya!
> word6re7 ' sort(row3ums(m) decreasing:TR+)
> # word cloud
> set;seed(?@5) # to ma!e it re&roducible
> gray,e$els ' gray( (word6re7=8) (ma.(word6re7)=8) )
> wordcloud(words:names(word6re7) -re7:word6re7 min;-re7:?
random;order:6
= colors:gray,e$els)
)Membuat Assosiasi Kata
/en!ari assosiasi tertinggi antar kata da"at dilakukan dengan menggunakan .ungsi
-indAssocs()
*erikut !ontoh untuk men!ari kata #ang %erasosiasi dengan Okoru"siP, Oantikoru"siP, Ograti.ikasiP, Osavek"kP,
dan Okanalk"kP
& Kata apa an 'erasosiasi denan "$orupsi" "anti$orupsi" "ratifi$asi"
"sa%e$p$" "$anal$p$"6
&find7ssocs(mTdm, $orupsi, 0.0)
&find7ssocs(mTdm, anti$orupsi, 0.0)
&find7ssocs(mTdm, ratifi$asi, 0.0)
&find7ssocs(mTdm, sa%e$p$, 0.05)
&find7ssocs(mTdm, $anal$p$, 0.89)
&ada sintaks diatas, t$eet Osavek"kP men!ari kata terkait dengan korelasi ke!il dikarenakan ma#oritas t$eet
dengan kata Osavek"kP %erdiri sendiri tan"a ada kata lanutan Sehingga korelasin#a le%ih ke!il %ila
di%andingkan dengan kata #ang lainn#a
=Me%akukan K%asterin' Kata
'lastering "ada "enelitian ini menggunakan
hierarchical clustering
'arena "ada langkah se%elumn#a
katakata #ang arang digunakan telah diha"us maka, "ada
plot clustering
tidak terda"at %an#ak kata Jarak antar
kata dihitung dengan "erintah
dist()
'emudian, kata #ang telah diklaster dengan
hclust()
dan
dendogram di%uat menadi %e%era"a klaster
> # mengha&us !ata yang %arang diguna!an
> myTdm< ' remo$e3&arseTerms(myTdm s&arse:;B5)
> m< ' as;matri.(myTdm<)
> # cluster terms
> dist9atri. ' dist(scale(m<))
> -it ' hclust(dist9atri. method:"ward")
> &lot(-it)
> # dibuat men%adi ? !laster
> rect;hclust(-it !:?)
> (grou&s ' cutree(-it !:?))
5*
Me%akukan K%asterin' Tweets Den'an A%'oritma K9Means
> # trans&ose the matri. to cluster documents (tweets)
> m? ' t(m<)
> # set a -i.ed random seed
> set;seed(8<<)
> # !means clustering o- tweets
> ! ' <
> !meansResult ' !means(m? !)
> # cluster centers
> round(!meansResultcenters digits:?)
> # 3ee to& Three word in each cluster
> -or (i in 80!) D
> cat(&aste("cluster " i "0 " se&:""))
> s ' sort(!meansResultcenters/i1 decreasing:T)
> cat(names(s)/80?1 "En")
> # &rint the tweets o- e$ery cluster
> # &rint(rdmTweets/which(!meansResultcluster::i)1)F
HASIL DAN PEM4AHASAN
*erikut meru"akan histogram dari kata #ang terda"at "ada akun t$itter @'&'I
'am(a! +*)
&ata populer pada akun twitter %&'&()*
-istogram diatas mem"erlihatkan %ah$a "eringkat kata #ang "aling sering digunakan adalah, Okoru"siP,
Oantikoru"siP, Ograti.ikasiP, Osavek"kP, Pkanalk"kP, O"em%erantasanP, dst
Word cloud
akun t$itter @'&'I di %a$ah ini menggunakan kata dengan minimal
fre0uenc$
(minimal
%an#akn#a kata #ang akan mun!ul di $ord!loud) se%an#ak se"uluh
'am(a! +*)
WordCloud %&'&()*
;ari $ord !loud @'&'I di atas, da"at dilihat %ah$a to"ik atau kata #ang "aling sering diki!aukan oleh akun
t$itter resmi milik '&' adalah kata koru"si, antikoru"si, grati.ikasi, kanalk"k, dan savek"k
'am(a! +*+
1sosiasi kata 2korupsi3
;engan korelasi le%ih dari 0,19 (minimal 0,20), da"at ;ilihat %ah$a kata Okoru"siP "aling kuat %erasosiasi
dengan kata "em%erantasan (0,?2), %erantas (0,32), !egah (0,29), "en!egahan (0,23) dst ;ari asosiasi terse%ut,
da"at tergam%arkan %ah$a '&' saat ini sedang dalam masa menggalakkan atau .okus untuk "em%erantasan,
"en!egahan, "enindakan koru"si dengan %er%agai strategi
'am(a! +*
1sosiasi kata 2antikorupsi3
;engan korelasi diatas 0,20, kata Oantikoru"siP %erasosiasi dengan %e%era"a kata se"erti kata %ogorkam"an#e,
digelar, dimana"un, di"adati, indernasional, dst Asosiasi terse%ut menggam%arkan %ah$a %an#ak mas#arakat
#ang mendukung gerakan antikoru"si dengan mengadakan kam"an#ekam"an#e di%e%era"a daerah Selain itu
gerakan antikoru"si #ang dilakukan oleh '&' uga telah menarik "erhatian kalangan internasional, dimana
menurut isi ki!auan (t$eet) '&', salah satu negara #ang tertarik dengan kegiatan '&' adalah negara Australia
'am(a! +*-
1sosiasi kata 2kanalkpk3
'analk"k meru"akan salah satu %entuk sarana #ang disediakan oleh '&' se%agai salah satu !ara agar
mas#arakat da"at %elaar mengenai antikoru"si dengan !ara #ang le%ih seru ;idalam kanalk"k terda"at adio
dan sa?ekk
-an#a %e%era"a ki!auan saa #ang
meli%atkan %e%era"a kata se"erti O"utarkanP, OsesaatP, PkasihP, PmalamP, P"enahananP, O"endukungP,
P$idoantoP, dan Pkon.erensiP 'atakata terse%ut %erkaitan erat dengan "enangka"an $akil ketua '&'
*am%ang idoanto "ada tanggal 23 Jenuari 2017
'am(a! +*7
Clustering %&'&()*
;ari out"ut di atas, da"at dilihat %ah$a ter%entu 3 klaster 'laster "ertama terdiri dari to"ik Okoru"siP, klaster
kedua terdiri dari to"ik Oantikoru"siP, dan klaster ketiga terdiri dari to"ik Ograti.ikasiP, Okanalk"kP,
O"em%erantasanP, dan Osavek"kP
KESIMP-LAN DAN SARAN
Kesimu%an
;ata #ang %erasal dari earing sosial t$itter da"at dianalisis dengan menggunakan metode data mining,
salah satun#a adalah te>t mining &enggunaan metode te>t mining "ada data t$itter da"at dianalisis dengan
menggunakan "erangkat lunak (so.t$are) #ang %er%asis o"en sour!e, salah satun#a dengan menggunakan
so.t$are t /ining in <$eets Using SAS and , and Anal#sis o. Bhange in
Sentiments to$ard R%o> +ne +ne Using SAS Sentiment Anal#sis StudioP
htt"NNsu""ortsas!omNresour!esN"a"ersN"ro!eedings1?N1LL7201?"d.
4A!!esed Januar# 23, 20175
/osle#, oosevelt B (2012) OSo!ial /edia Anal#ti!s
;ata /ining A""lied to Insuran!e <$itter &ostsP
htt"NN$$$!asa!torgN"u%sN.orumN12$.orum"t2Nmosle#"d.
4A!!esed Januar# 23, 20175
;i"lo (201?) Otmining o. the IF=201? +"ening SessionAn +vervie$P 4+nline5 Availa%le .rom
htt"NN$$$di"loma!#eduNsitesNde.aultN.ilesNIF=201?Q20+"eningQ20SessionQ20Anal#sis"d.
4A!!esed
Januar# 23, 20175
/a.rur, et al (201?) O<$itter /ining tNdm$hiteNdm$hitehtm
4A!!esed Januar# 2L, 20175
'aur, , Aggar$al, S (2013) t ;o!uments
*nternational 7ournal of Computer
1pplications ./89 : ;;;8"
, Holume 66: o18,
/oone#, J (2007) t /ining $ith In.ormation C>tra!tion
Multilingualism and 5lectronic 2"d.
4A!!esed Januar#
2L, 20175
Bheong, =, Bheong, B (2011) So!ial /edia ;ata /ining A So!ial et$ork Anal#sis +. <$eets ;uring t ;o!uments
*nternational 7ournal of Computer
1pplications ./89 : ;;;8"
, Holume 66: o18,
Eama, & (2013)
C? S@ST5M 1S5+ A> T5BT M*>*>? US*>? T5 M51>S 1t /ining $ith In.ormation C>tra!tion
Multilingualism and 5lectronic t /ining
M1chine e"
consumerKe !"m?'@ciAs0Bn24/s#CD8EoDF"
consumer-ecret ! "BD:Bn2>G2'HRHKT%@prcF:+E5f7;;>BtD2JTHCEPum?"
twit+red ! D7ut*3actornew(consumerKe = consumerKe,
consumer-ecret = consumer-ecret,
re4uest:R; = re4:R;,
access:R; = access:R;,
aut*:R; = aut*:R;)
twit+red !
D7ut*3actornew(consumerKe=consumerKe,consumer-ecret=consumer-ecret,re4u
est:R;=re4:R;,access:R;=access:R;,aut*:R;=aut*:R;)
download.file(url="*ttp<curl.*a//.secacacert.pem",
destfile="cacert.pem")
twit+red*ands*a$e(cainfo = sstem.file("+url--;", "cacert.pem", pac$ae =
"R+url"))
reisterTwitterD7ut*(twit+red)
sa%e(list="twit+red", file="twitteR_credentials")
li'rar(twitteR)
load("twitteR_credentials")
reisterTwitterD7ut*(twit+red)
li'rar(tm)
rdmTweets ! userTimeline("KPK_RI", n=500,cainfo="cacert.pem")
rdmTweets
nHocs ! lent*(rdmTweets)
for (i in 88<85) L
cat(paste("MM", i, "NN ", sep=""))
write;ines(strwrap(rdmTweetsMMiNNetTe/t(), widt*=@?))
O
con%ert tweets to a data frame
df ! do.call("r'ind", lappl(rdmTweets, as.data.frame))
dim(df)
li'rar(tm)
'uild a corpus, and specif t*e source to 'e c*aracter %ectors
m+orpus ! +orpus(ector-ource(dfte/t))
con%ert to lower case
m+orpus ! tm_map(m+orpus, tolower)
remo%e punctuation
m+orpus ! tm_map(m+orpus, remo%ePunctuation)
remo%e num'ers
m+orpus ! tm_map(m+orpus, remo%eEum'ers)
remo%e :R;s
remo%e:R; ! function(/) su'("*ttpMM