사이드바 영역으로 건너뛰기

검 색 엔 진 을 믿 지 말 지 어 다

검 색 엔 진 을 믿 지 말 지 어 다

원낙연
다른과학 편집위원

인터넷을 사용하는 여러분은 검색엔진을 적어도 한번은 이용해본 적이 있을 것이다.
야후, 라이코스, 알타비스타처럼 국내에도 진출한 세계적인 검색엔진이나 요즘 시쳇말로 뜨는 노던라이트나 구굴 같은 곳 말이다.
그곳에서 여러분들이 겪는 일은 다음과 같다.
자신이 찾고자 하는 웹사이트의 종류에 따라 적당한 단어를 일단 입력한다. 뭐가 뭔지 알 수 없는 온갖 사이트가 줄줄이 이어져 그 속에서 목적 사이트를 어찌 찾을까 그저 황당하다. 할 수 없이 좀 더 구체적인 키워드를 입력하거나 연산자(AND, OR)를 이용해보기도 한다. 그렇지만 여전히 우리 맘을 딱 알아채고 한 방에 떡 하니 목적 사이트를 내놓진 못한다. 그것이 운명이거니 참는 이들도 있을테고 십원짜리 몇 개와 함께 포기하는 이들도 있을테다.
하지만 검색엔진을 바보라고 생각해 본 이는 거의 없을 것이다. 이따금 용케 찾아낼 때면 너무 예쁘고 신기하다. 아니더라도 엔진(engine)이라는 단어에다 로봇(robot)이라는 단어까지, 왠지 첨단 기술의 하나인 것 같아 제대로 된 키워드 하나 떠올리지 못하는 나를 원망하는 게 더 나을 것 같다.
하지만 검색엔진이 바보라는 증거가 나왔다. 지난 7월 8일 과학전문지 네이쳐(Nature)에 실린 한 논문을 보자. 미국 뉴저지주 프린스턴에 위치한 NEC 연구소가 조사, 발표한 이 논문은 검색엔진에 경도된 우리를 번쩍 깨우치게 한다.
인터넷의 규모는 그에 연결되어 있는 컴퓨터의 숫자로 대충 미루어 짐작하는 것이 보통이다. 인터넷에 만들어진 웹사이트나 각종 정보는 너무나 동적인 것이라 누구도 따져볼 수 없기 때문이다. 이에 NEC 연구소의 스티브 로렌스 박사와 리 자일즈 박사는 재미있는 실험을 해봤다. 이들은 먼저 무작위로 인터넷의 IP주소 2천5백개를 뽑은 다음 이 주소에서 서비스되고 있는 웹 컨텐츠들의 종류와 양을 계산해 냈다. 이 샘플들을 기준으로 현재 인터넷에 연결되어 있는 컴퓨터 숫자와 비교하여 계산했더니 와우~
현재 인터넷에서 작동하고 있는 웹 서버의 숫자는 약 2백80만개이며 각 서버는 평균 2백89페이지(page)에 해당하는 정보를 제공, 전체 정보량이 약 8억 페이지가 넘는 것으로 추산되었다. 이들 컨텐츠의 내용을 따져보니 83%가 상업적인 내용을 포함하고 있었으며, 과학정보나 교육정보를 담고 있는 곳은 6%에 불과했다. 그런데 포르노 사이트는 의외로 1.5%에 불과해 그 동안 언론 등에서 와글와글 떠들었던 포르노 사이트 천지론은 과장된 것임을 알 수 있었다.
그러면 샘플로 뽑은 2천5백 IP주소의 웹 컨텐츠에 대하여 각종 검색엔진은 얼마나 많은 정보를 가지고 있을까. 여러분들이 가장 많이 알고 있는 야후(http://www.yahoo.com)는 7.4%에 불과했다. 1백개중에 겨우 7개만을 찾을 수 있는 것이다. 야후가 아니라 아이구다. 라이코스(http://www.lycos.com)는 더 한심한 2.5%에 불과했다. 그나마 알타비스타(http:// www.altavista.com)가 15.5%로 체면치레를 했고, 최근 가장 뛰어난 검색엔진으로 각광받는 노던라이트(http://www.northernlight.com)가 16.0%로 1위를 차지했다. 겨우 16.0%로. 지난해 12월에 1위를 차지했던 핫봇(http://www.hotbot.com)의 34%와 비교하면 절반에도 미치지 못하는 결과다.
어떻게 이런 일이 생겼을까. 이유는 간단하다. 급증하는 웹사이트의 양을 검색엔진이 따라잡질 못해서다. 늘어난 웹사이트들을 일일이 검색하려면 훨씬 더 많은 시간이 걸릴텐데 이용자는 더 빠른 검색을 원하고, 결국 대부분의 검색엔진들은 이용률이나 사이트 링크율이 높은 것을 골라 검색대상으로 삼기 시작했다. 그리고 이같이 선별된 검색은 검색엔진의 이익과 입장을 위해 오용되고 있었다.
자일즈 연구원은 "새로운 사이트를 검색하기 어려워짐에 따라 검색 리스트에 끼기 위해서 '게재료'를 지불하는 것이 일반화되고 있다"고 지적했다.
즉, 검색엔진의 결과에 들어가기 위해 돈이 오간다는 말이다. 검색엔진이 지극히 객관적이고 불편부당한 것으로 믿어온 이용자들에겐 황당한 현실이다.
뿐만 아니라 검색엔진들은 자신에게 보다 우호적인(상업적으로나 지역적으로나 정치적으로나!) 사이트들을 인덱스에 집어넣고 있다. 예를 들어 미국의 검색엔진은 다른 국가보다 미국의 사이트를 우선적으로 다루고, 결국 전 세계의 네티즌들은 미국 중심의 검색결과를 전부인 것처럼 오해하고 있는 셈이다.
사실 검색엔진의 원리를 이해하고 나면 편파당파적인 이유를 알 수 있다.
대부분의 검색엔진은 검색로봇, 색인기, 검색기 등 크게 3부분으로 구성되어 있다.
대부분의 대규모 검색엔진의 경우 자신들의 고유한 검색로봇을 가진다. 이들 로봇들은 웹 공간을 무작정 돌아다니며 홈페이지를 방문한다. 그 방문의 규칙은 별달리 뾰족한 수가 있는 게 아니라 상당히 우연성에 의존하는 방식이므로 위와 같이 10% 전후에 불과한 결과를 낳고 있는 것이다.
색인기는 색인화 작업을 수행한다. '색인화(indexing)'는 어떤 단어가 어떤 문서에 나타났는지를 빠르게 알아 낼 수 있도록 구조화시키는 작업이다. 문서들에 나타나는 단어들의 분포나 연관 관계, 위치 관계를 사용하여 어느 문서가 요청된 검색어에 가장 적합한지를 판단하는 것이다. 판단의 원칙은 개발자(사람)가 부여할 뿐이다. 사람의 다양한 입장과 편견, 의식이 담겨지고 그 결과 우선순위(rank)까지 매겨 표시해주는 검색엔진도 있다.
검색기는 특정한 키워드의 검색요청이 들어오면 구축되어 있는 색인을 이용해 검색, 결과를 보여준다.
결국 검색엔진의 작업은 상당부분 우연에 의존한다. 누군가 새로운 홈페이지를 만들었을 경우 검색로봇이 그 홈페이지를 방문해 색인화할 지는 보장할 수 없다. 그래서 많은 홈페이지 제작자들이 야후와 같은 웹 디렉토리 서비스에 자신의 홈페이지를 직접 등록한다. 이렇게 되다보니 심지어 돈을 받고 각종 웹 디렉토리 서비스에 등록을 대행하는 업체들마저 경쟁적으로 등장하게 된 것이다.
특히 최근에 인기를 모으고 있는 이들 웹 디렉토리 서비스는 수많은 관리자를 두고 인위적으로 디렉토리를 관리하고 있다. 전혀 불편부당하지 않은 검색엔진의 결과를 진짜 편파당파적인 사람이 직접 조작하는 셈이다. 돈을 받고 우선순위를 잔뜩 높여 디렉토리에 집어넣고, 제3 세계의 사이트는 무시하고, 정치적으로 다른 입장 또한 홀대하는 것은 당연하지 않겠는가.
그렇다면 우린 어떻게 해야 하나. 뭐 달리 수가 있는 것도 아니다. 필요에 따라 이용하는 거니 규제할 방법이 있는 것도 아니다. 그저 다양한 검색엔진을 교차 이용하면서 특정 검색엔진의 의존도를 줄이는 정도가 아닐까.
하지만 더 효과적인 실천방법이 있다. 감시와 토론. 혹시라도 검색결과에 인위적인 조작의 혐의가 없는지 유심히 살피고 뉴스그룹이나 웹 게시판을 이용해 지적하는 노력 말이다. 그 노력이 모여 거대 검색엔진을 압박하고 변화시킬 것이다. 그것이 바로 사이버 공간이나 현실 공간 어디에서나 필요한 시민참여의 기본인 것이다.

진보블로그 공감 버튼트위터로 리트윗하기페이스북에 공유하기딜리셔스에 북마크