Cara Kerja Search Engine - Machine Learning - Saat ini ada ribuan search engine yang tersedia di Internet. Masing-masing memiliki kelebihan dan kekurangan. Search engine yang pertama kali dibuat adalah Archie, yang hanya dapat digunakan untuk menemukan file-file pada server FTP. Sedangkan web search engine pertama berbasis teks adalah Veronica. Beberapa search engine yang populer saat ini yaitu: Google, Yahoo, AOL, Ask.com, Baidu, Bing.
Search engine bekerja dan memproses keywords menjadi tiga tahap, yaitu:
Seperti halnya yellow page yang sudah berisi daftar telepon, sebuah search engine pun akan mengumpulkan informasi secara terus-menerus dari berbagai website. Search engine akan menugaskan sebuah software robot untuk melakukan pencarian. Software robot ini disebut spiders atau web robot atau web spider. Pada Google, program spider ini disebut Google Bots.
Informasi yang berhasil ditemukan oleh web spider akan disimpan pada database khusus. Hanya informasi tertentu saja yang disimpan, seperti kapan dibuat/ di-update, title, deskripsi dari halaman, tipe content, associated keywords, incoming dan outgoing links, dan paramater-parameter lain yang dibutuhkan oleh algoritma search engine.
Indexing
Web spider saja masih belum cukup untuk membentuk sebuah search engine. Informasi yang sudah diidentifikasi oleh crawler harus dikelompokkan, di-sorting, dan disimpan agar dapat diproses oleh algoritma search engine, sebelum disajikan kepada pengguna.
Setelah proses crawling dilakukan, maka tahap berikutnya adalah mengolah dan mengelompokkannya menjadi sesuatu yang lebih bermakna. Misalkan mengelompokka hasil pencarian berdasarkan link analysis (URI importance, popularity, trustworthiness dan sebagainya).
Ranking/Scoring
Pada saat pengguna mencari sesuatu maka search engine akan melakukan pencarian pada database yang merupakan hasil kerja web spider. Kemudia search engine menampilkannya dalam bentuk list (baris demi baris) pada halaman SERP (Search Engine Result Page). Apa yang dimunculkan sudah dalam bentuk urutan berdasarkan rangking, mulai dari yang paling atas (relevan) hingga yang paling bawah (kurang relevan).
Jika kita mengamati hasil pencarian dengan keyword "Buya Hamka", yang ditampilkan oleh salah satu search engine, misal Google, maka kita dapat dilihat beberapa informasi menarik sebagai berikut:
Cukup menarik bukan, ternyata search engine dapat menemukan informasi yang diinginkan oleh pengguna. Bahkan memberi lebih banyak dari harapan pengguna.
Nah, yang menarik untuk kita ketahui adalah bagaimana caranya search engine dapat menemukan informasi, foto, video yang sesuai? Tidak tertukar dengan foto tokoh lain, gambar mobil, foto pemandangan, atau klip dari film Star Wars!
Sepertinya ada sesuatu yang mampu berpikir, melihat, dan memberi saran kepada search engine. Ada sesuatu yang cerdas yang ditanamkan di dalam setiap search engine, dan sesuatu itu bekerja secara diam-diama. Apahak itu? Itulah dia kecerdasan buatan yang ditanamkan pada search engine, atau yang populer disebut Artificial Intelligence (AI).
AI merupakan sebuah konsep umum tetang bagaimana membuat mesin-mesin yang mampu "berpikir" secara cerdas (smart machine) seperti layaknya manusia, atau mesin yang mampu belajar dari berbagai input yang diberikan kepadanya. Sehingga menghasilkan outcome yang "akurat".
Sebenarnya mesin hanya dapat belajar sesuatu karena ada software dengan algoritma tertentu yang ditanamkan padanya. Jadi tidak ada mesin ajaib yang mampu berpikir sendiri. Algoritma ini disebut dengan istilah Machine Learning Algorithm atau cukup Machine Learning (ML) saja.
Dalam kaitannya dengan search engine, algoritma machine learning dapat dijumpai pada:
Mungkin sebagain besar pengguna Internet tidak pernah menyadari sama sekali bahwa saat ini kita sedang hidup di "abad machine learning".
Sebagian besar pengguna Internet telah menjadi "kontributor informasi" yang memicu kemajuan teknologi machine learning. Coba saja ingat-ingat kembali, pada saat kita mendaftar ke salah satu sosial media atau membuat account baru di Gmail.com, maka kita akan diminta memasukkan data pribadi, seperti: nama, alamat, usia, dan informasi lainnya. Informasi yang sudah diterima oleh server tidak akan dibiarkan begitu saa disimpan tanpa disentuh sama sekali.
Ada sesuatu yang akan dilakukan oleh mesin terhadap "tonan" data yang ada. Data-data tersebut dapat dipelajari untuk maksud dan tujuan tertentu. Entah bagaimana dan seperti apa, yang pasti informasi yang sangat tidak akan dibiarkan sia-sia.
Mesin pencari web adalah sistem perangkat lunak yang dirancang untuk mencari informasi di world wide web. Hasil pencarian umumnya disajikan dalam line of results yang sering disebut sebagai halaman hasil mesin pencari (SERPs). Tidak seperti web directories, yang dikelola hanya oleh editor manusia, mesin pencari juga memelihara informasi secara real-time dengan menjalankan algoritma pada web crawler.
Lalu apakah semua informasi dapat ditemukan dengan search engine? Jawabnya tidak! Berbagai Internet yang tidak dapat dicari dan ditemukan oleh webserach engine disebut sebagai deep web.Search engine bekerja dan memproses keywords menjadi tiga tahap, yaitu:
- Tahap Crawling
- Tahap Indexing
- Tahap Ranking/ Scoring
Seperti halnya yellow page yang sudah berisi daftar telepon, sebuah search engine pun akan mengumpulkan informasi secara terus-menerus dari berbagai website. Search engine akan menugaskan sebuah software robot untuk melakukan pencarian. Software robot ini disebut spiders atau web robot atau web spider. Pada Google, program spider ini disebut Google Bots.
Informasi yang berhasil ditemukan oleh web spider akan disimpan pada database khusus. Hanya informasi tertentu saja yang disimpan, seperti kapan dibuat/ di-update, title, deskripsi dari halaman, tipe content, associated keywords, incoming dan outgoing links, dan paramater-parameter lain yang dibutuhkan oleh algoritma search engine.
Indexing
Web spider saja masih belum cukup untuk membentuk sebuah search engine. Informasi yang sudah diidentifikasi oleh crawler harus dikelompokkan, di-sorting, dan disimpan agar dapat diproses oleh algoritma search engine, sebelum disajikan kepada pengguna.
Setelah proses crawling dilakukan, maka tahap berikutnya adalah mengolah dan mengelompokkannya menjadi sesuatu yang lebih bermakna. Misalkan mengelompokka hasil pencarian berdasarkan link analysis (URI importance, popularity, trustworthiness dan sebagainya).
Ranking/Scoring
Pada saat pengguna mencari sesuatu maka search engine akan melakukan pencarian pada database yang merupakan hasil kerja web spider. Kemudia search engine menampilkannya dalam bentuk list (baris demi baris) pada halaman SERP (Search Engine Result Page). Apa yang dimunculkan sudah dalam bentuk urutan berdasarkan rangking, mulai dari yang paling atas (relevan) hingga yang paling bawah (kurang relevan).
Jika kita mengamati hasil pencarian dengan keyword "Buya Hamka", yang ditampilkan oleh salah satu search engine, misal Google, maka kita dapat dilihat beberapa informasi menarik sebagai berikut:
- Google akan menampillkan foto Abdul Malik Karim Amrullah (di sebelah kanan halaman). Google menganggap pengguna hendak mencari seorang tokoh yang populer. Sehingga fotonya layak untuk ditampilkan.
- Google akan mengurutkan hasil pencarian berupa list, berdasarkan relevansinya dengan query, mulai dari ranking tertinggi sampai rangking terendah.
- Jika kita klik pada link Gambar, maka Google akan menampilkan foto-foto orang bernama Abdul Malik Karim Amrullah.
- Jika kita klik pada ling Video, maka Google akan menampilkan orang bernama Abdul Malik Karim Amrullah.
Cukup menarik bukan, ternyata search engine dapat menemukan informasi yang diinginkan oleh pengguna. Bahkan memberi lebih banyak dari harapan pengguna.
Nah, yang menarik untuk kita ketahui adalah bagaimana caranya search engine dapat menemukan informasi, foto, video yang sesuai? Tidak tertukar dengan foto tokoh lain, gambar mobil, foto pemandangan, atau klip dari film Star Wars!
Sepertinya ada sesuatu yang mampu berpikir, melihat, dan memberi saran kepada search engine. Ada sesuatu yang cerdas yang ditanamkan di dalam setiap search engine, dan sesuatu itu bekerja secara diam-diama. Apahak itu? Itulah dia kecerdasan buatan yang ditanamkan pada search engine, atau yang populer disebut Artificial Intelligence (AI).
AI merupakan sebuah konsep umum tetang bagaimana membuat mesin-mesin yang mampu "berpikir" secara cerdas (smart machine) seperti layaknya manusia, atau mesin yang mampu belajar dari berbagai input yang diberikan kepadanya. Sehingga menghasilkan outcome yang "akurat".
Sebenarnya mesin hanya dapat belajar sesuatu karena ada software dengan algoritma tertentu yang ditanamkan padanya. Jadi tidak ada mesin ajaib yang mampu berpikir sendiri. Algoritma ini disebut dengan istilah Machine Learning Algorithm atau cukup Machine Learning (ML) saja.
Dalam kaitannya dengan search engine, algoritma machine learning dapat dijumpai pada:
- Search rangking
- Query understanding
- Query classification
- Spelling suggestion/correction
- Synonyms/Query expansion
- Intent disambiguation
- URI/ document undetstanding
- Page classification
- Span detection
- Junk/low-quality url detection
- Sentiment analysis
- Entity/relationship detection
- dan masih banyak lagi
Mungkin sebagain besar pengguna Internet tidak pernah menyadari sama sekali bahwa saat ini kita sedang hidup di "abad machine learning".
Sebagian besar pengguna Internet telah menjadi "kontributor informasi" yang memicu kemajuan teknologi machine learning. Coba saja ingat-ingat kembali, pada saat kita mendaftar ke salah satu sosial media atau membuat account baru di Gmail.com, maka kita akan diminta memasukkan data pribadi, seperti: nama, alamat, usia, dan informasi lainnya. Informasi yang sudah diterima oleh server tidak akan dibiarkan begitu saa disimpan tanpa disentuh sama sekali.
Ada sesuatu yang akan dilakukan oleh mesin terhadap "tonan" data yang ada. Data-data tersebut dapat dipelajari untuk maksud dan tujuan tertentu. Entah bagaimana dan seperti apa, yang pasti informasi yang sangat tidak akan dibiarkan sia-sia.
Tidak ada komentar:
Posting Komentar