Pembelajaran mesin memungkinkan komputer meniru perilaku manusia dengan mengajari mereka data historis dan pengetahuan tentang potensi peristiwa di masa depan. Bagian ini akan mengeksplorasi pendekatan pembelajaran mesin yang menarik seperti perayapan web terdistribusi, algoritma pemilihan, dan algoritma pengurutan.
Perayapan web terdistribusi
Perayapan web terdistribusi adalah teknologi komputer di mana mesin pencari Internet menggunakan banyak komputer untuk merayapi Internet. Pengguna dapat menawarkan pemrosesan dan sumber daya bandwidth mereka untuk menjelajahi halaman web dalam sistem tersebut. Akibatnya, biaya yang terkait dengan pengoperasian kluster komputer besar berkurang dengan mendistribusikan beban pekerjaan ini ke banyak prosesor.
Dengan pendekatan ini, server pusat secara dinamis memberikan URL baru ke robot yang berbeda. Ini memungkinkan server pusat untuk menyeimbangkan beban setiap perayap, misalnya secara dinamis. Dengan penugasan dinamis, sistem biasanya dapat menambah atau mengurangi proses pengunduhan. Namun, untuk perayapan besar, server pusat bisa menjadi penghambat. Oleh karena itu, sebagian besar beban kerja harus dialihkan ke proses penambangan terdistribusi.
Algoritma seleksi
Algoritma pemilihan dalam ilmu komputer adalah algoritma untuk menentukan bilangan bulat terkecil ke-k dalam sebuah daftar atau larik; angka ini dikenal sebagai k-order statistik. Ini mencakup skenario ketika Anda perlu menemukan elemen minimum, maksimum, dan median. Ada teknik pemilihan dalam waktu O(n) (waktu linier kasus terburuk), dan data terstruktur dapat mencapai kinerja sub-linier; secara ekstrim, larik data yang diurutkan dapat mencapai kinerja O(1). Seleksi adalah submasalah dari masalah yang lebih besar seperti tetangga terdekat dan jalur terpendek. Banyak algoritme seleksi dihasilkan dengan menggeneralisasi algoritme pengurutan, sementara kita dapat memperoleh beberapa algoritme pengurutan dengan menerapkan seleksi berulang kali.
Algoritme pemilihan yang paling sederhana adalah mengulang daftar, mengikuti minimum saat ini (atau maksimum) dan menghubungkannya ke urutan pemilihan. Menemukan median, di sisi lain, adalah situasi yang paling sulit dari metode seleksi. Bahkan, kita dapat menggunakan metode pemilihan median khusus untuk mengembangkan algoritma pemilihan umum seperti pada median median. Quickselect, terkait dengan Quicksort, adalah algoritme pemilihan yang paling terkenal; seperti Quicksort, ia (secara asimtotik) memiliki kinerja rata-rata yang sangat baik tetapi kinerja terburuk yang buruk, tetapi dapat di-tweak untuk memberikan kinerja terburuk yang optimal juga.
Algoritma pengurutan
Sebuah algoritma pengurutan dalam ilmu komputer adalah algoritma yang mengatur elemen daftar. Urutan yang paling umum adalah numerik dan leksikografis, dan bisa naik atau turun. Penyortiran yang efisien sangat penting untuk meningkatkan efisiensi algoritme lain yang membutuhkan data input untuk berada dalam daftar yang diurutkan (seperti algoritme pencarian dan penggabungan). Penyortiran juga sering digunakan untuk mengkanonikalisasi data dan menghasilkan keluaran yang dapat dibaca manusia.
Secara formal, hasil dari setiap algoritma pengurutan harus memenuhi dua persyaratan:
- Outputnya dalam urutan monoton (setiap elemen tidak lebih kecil/lebih signifikan dari elemen terakhir dalam urutan yang ditentukan).
- Outputnya adalah permutasi (mengatur ulang input sambil mempertahankan semua elemen asli).
“Ninja internet yang tak tersembuhkan. Ahli daging. Sangat introvert. Analis. Pakar musik. Pendukung zombie.”