최근 글 목록
-
- 트위터 맞팔 논쟁
- 레니
- 2010
-
- 21세기판 골드러시 - 데이터...(1)
- 레니
- 2008
-
- 이런 스팸메일
- 레니
- 2008
-
- 구글의 새 브라우저, 크롬 (...(6)
- 레니
- 2008
-
- 다크 나이트 (The Dark Knig...(5)
- 레니
- 2008
포스트 쓰기 옵션 중에 "검색불가"라는 옵션이 있습니다. 이 말만 따지고 보면 "모든 검색로봇의 옵션을 막아준다"라는 의미로 받아들일 수도 있죠. 하지만 (뭔가 사기치는 기분이지만-_-) 꼭 그렇지만은 않습니다. 바로 다음과 같은 이유 때문이죠. (여기서 사용하는 "인덱싱"이라는 단어는 검색로봇이 가져온 결과를 모아서 특정 기준에 의해 정렬하고 배치하는 일을 말합니다.)
검색로봇을 이용한 검색이 아니라면 인덱싱이 가능합니다.
전에 다음RSS넷의 문제에 대해 쓴 적이 있는데, 다음RSS넷이 검색로봇을 쓰지 않고도 검색을 해 가는 대표적인 케이스입니다. 다음RSS넷의 경우 RSS 요청을 통해 블로거가 생성한 XML을 가져가 데이터를 축적하고, 이 데이터를 활용해서 검색결과를 만들어냅니다. 따라서 굳이 검색로봇이 발아프게 돌아다니지 않더라도 RSS로 출판하는 블로거들의 컨텐츠를 검색에 활용할 수 있는 거죠.
그리고 아직은 현재진행형이지만 진보넷에서 검색서비스를 하게 된다면, 진보넷 내에 있는 컨텐츠들은 검색로봇을 쓰지 않고도 검색이 가능합니다. 따라서 포스트 검색불가 옵션에 대한 별도의 처리를 하지 않는다면, 진보넷 블로그의 포스트에 대해 "검색불가" 옵션을 선택했더라도 검색결과에 포함될 가능성이 높습니다.(물론 그 "별도의 처리"를 하겠지만요.ㅎㅎ)
정리하면, 검색로봇을 이용하지 않는 검색에 대해서는 막을 수 없다...정도가 되겠군요.
"ROBOTS" 메타 태그는 표준이 아닙니다.
검색로봇의 인덱싱을 막기 위해 "검색불가" 옵션이 표시된 글에는 "ROBOTS" 메타태그를 자동으로 붙여줍니다. 이 메타태그는 HTML 소스를 보면 들어가 있지만 실제로 페이지를 브라우저에서 볼 때 표시되지 않습니다. 검색로봇이 웹을 돌아다니다가 이 메타태그를 만나면 인덱싱하지도 말고 페이지의 링크를 더 따라가지도 말라는 의미로 받아들이라는 거죠.
그런데 문제는 "ROBOTS" 메타태그가 표준이 아니라는 데에 있습니다. 이는 다시 말해, 모든 검색엔진이 이 법칙을 따라야 하는 것은 아니란 얘기이고, 이 메타태그를 무시하는 검색로봇이 있을 것이라는 뜻이죠. 실제로 수개월-_-간의 실험 결과를 보면, 이 메타태그를 무시하는 검색로봇이 분명히 존재합니다. 그리고 그러한 검색엔진을 사용하는 검색포털에 인덱싱되어 검색결과에 포함될 수도 있다는 것이죠.
그러나 대부분의 대형 검색 엔진들은 이 메타태그를 준수하는 것으로 알고 있습니다. 구글, MSN, Inktomi 등이 "ROBOTS" 메타태그를 지키는 검색엔진으로 알고 있었는데, 최근에 확인된 바로는 Inktomi를 사용하는 검색포탈 중에 지키지 않는 곳도 있는 것 같기도 하구요. 그래도 구글은 아직까지 이 메타태그를 지키고 있는 것 같습니다.
정리하면, "검색불가" 옵션을 체크하더라도 검색엔진의 종류에 따라 검색결과에 포함될 수도 있다...정도가 되겠습니다.
이미 인덱싱된 결과는 계속 남습니다.
현재 제 포스트는 구글의 검색을 통해 거의 발굴되진 않는데, 아주 가끔 과거의 데이터가 나타나는 경우가 있습니다. 이들은 "ROBOTS" 메타태그를 적용하지 않은 포스트들인데, 이미 과거에 구글의 검색로봇에 의해 데이터가 인덱싱되었기 때문에 계속 검색결과에 포함되는 것이죠. 이 포스트들의 경우에는 구글에 삭제를 요청하지 않는 한 일정 기간동안 남아있을 것으로 생각됩니다.
역시 정리하면, 과거에 쓴 포스트에 "검색불가" 옵션을 체크한다 하더라도, 검색로봇에 의해 그 전에 데이터가 수집되었다면 검색결과로 나올 수 있다...정도가 되겠습니다.
트랙백리스트, 덧글리스트 등의 페이지가 검색될 수도 있습니다.
현재 포스트의 전체가 나오는 페이지는 "검색불가" 옵션이 체크된 경우 "ROBOTS" 메타태그를 넣어주지만, 트랙백리스트 페이지나 덧글리스트 페이지 등은 메타태그를 넣지 않고 있습니다. 그런데 문제는 이들 페이지 역시 검색로봇이 접근할 수 있기 때문에 검색 결과에 포함되기도 한다는 것입니다.
따라서 내 블로그의 모든 컨텐츠에 대해 검색로봇의 접근을 허용하지 않으려면, 스킨에 "ROBOTS" 메타태그를 넣어주는 것이 가장 확실한 방법입니다. 스킨에 메타태그를 넣으면 표시되는 어떤 페이지에도 "ROBOTS" 메타태그가 표시되기 때문에 모든 페이지를 보호할 수 있습니다.(제 블로그에도 그렇게 하고 있습니다.ㅎㅎ "ROBOTS" 메타태그에 대해서는 이전에 쓴 포스트를 참조하세요.)
뭔가 산만하게 떠든 것 같은데. 마지막으로 정리하면.
"검색불가" 옵션 뿐만 아니라 어떠한 기술적인 방법으로든 모든 검색을 막아줄 수는 없습니다. 사실 검색을 피하기 위한 방법은 모든 링크/역링크를 가지지 않는 것인데, 블로그는 이것이 불가능하죠. 진보블로그에서 제공하는 "검색불가" 옵션은 검색을 피할 가능성을 높여주는 것(특히 구글 검색 엔진에 대해) 정도를 해 줄 뿐입니다.
이 포스트를 옵션 추가 이후에 곧장 썼어야 했는데, 역시 미적거리다 스머프님의 포스트를 보고 쓰게 되었습니다. 저의 게으름을 용서해 주세요. :)
+ 진보네의 공지사항에도 트랙백합니다.
댓글 목록
머프
관리 메뉴
본문
자세한 설명 너무 고맙습니다.^^검색을 완전히 피할수는 없는거군요..잘 알겠습니다.
오늘 어떤 분이 그러더군요..레니 방에 우연히 들어갔는데, 음악이 너무 좋다고..그래서 내가 나두 아는 사람이야. 그랬더니 그래?? 하면서 앞으론 이 방의 팬이 될거라는 선언을..하하~
인기 많으셔서 좋겠어요..ㅎ
부가 정보
happyalo
관리 메뉴
본문
친절한 포스트 감사합니다. ^^부가 정보
개울
관리 메뉴
본문
진보네 블로그에서 검색불가 옵션을 새로 만드셨나 보군요~ 우와~다음 검색에서 검색이 된다는 것은 RSS넷에 구독자가 있다는 뜻인가요? 위의 링크를 보니 그런 뜻인 것 같은데, 맞는지... 그런데 "ROBOTS" 태크를 넣기 전에 올린 글이라면 RSS넷에 구독자가 없어도 검색이 될지도 모르겠군요.
저는 이글루스 사용자인데, 요즘 검색이 참 난감한 점이 많아서 방법을 찾고 있는 중이거든요. 야후도 "ROBOTS" 태그가 소용이 없나봅니다. 아, 글구 위에 "이전에 쓴 포스트" 링크는 깨져 있네요.
happyalo님이 레니님 블로그에 친절한 글이 있다고 말씀해주셔서 왔습니다. ^_^
부가 정보
레니
관리 메뉴
본문
머프//인기는 무슨-_- 부끄럽습니다요.ㅎㅎ근데 음악은 저작권법 단속이 본격화되는 7월이 되면 일단 링크를 끊을 생각이에요. 이후에는 아마 인증을 붙일 것 같기도 하구요.
happyalo//친히 블로그에 링크를 걸어주셨군요. 덕분에 오늘 방문자 수가 현저히 증가-_-V
개울//일단 달군이 (구독은 아니겠지만) 리스트에 넣고 있어서-_- 빼달라고 했어요.ㅎㅎ 야후는 메타태그를 무시하는 것 같아요. 요즘 의심이 많이 들고 있음.
참 링크는 복구했습니다. 알려주셔서 고마워요. :)
부가 정보