robots.txt 프로토콜 또는 로봇 제외 표준이라고 불리는 이것은, 웹 스파이더나 웹 로봇등으로부터 웹사이트의 전부 혹은 특정부분의 접근을 제한합니다. 그렇지 않다면, 접근이 가능합니다. 로봇은 검색엔진이 웹사이트들을 범주화하고 수록화할 때 자주 사용됩니다. 웹마스터에 의해 소스코드를 교정할 때도 사용됩니다.

robots.txt가 효력을 가지기 위해서는 URL의 최상위 공간에 위치해야 합니다. 당신이 자신의 웹사이트에 모든 접근을 허용할 시에는 간단히 robot.txt에 아무것도 쓰지 않으면 됩니다.
robots.txt에는 다음과 같은 항목이 있습니다.

* User-agent  : 수집하는 주체의 범위를 정합니다. *으로 설정할 경우 모든 봇의 접근이 격리됩니다. naver의 경우 봇 이름은 Naverbot입니다. 'User-agent : * '와 같은 꼴로 사용합니다.
* Allow : 뜻 그대로 허락할 디렉토리를 설정합니다.
* Disallow : 뜻 그대로 불허할 디렉토리를 설정합니다.  Disallow: 뒤에 아무것도 표시하지 않을 경우에도, 모든 접근을 허락한다는 뜻이 되므로 유의하세요. 만약 모든 디렉토리의 접근을 막고 싶다면 'Disallow: /'와 같이 쓰면 됩니다.

naver 안에서의 robots.txt를 구글을 이용하여 찾아본 결과
http://blog.naver.com/robots.txt 에서
User-agent: *
Disallow: /

http://cafe.naver.com/robots.txt 에서
User-agent: *
Disallow: /
http://kin.naver.com/robots.txt 에서
User-agent: *
Disallow: /browse
Disallow: /db
Disallow: /editor
Disallow: /expert
Disallow: /ing
Disallow: /kinac
Disallow: /knowhow
Disallow: /list
Disallow: /nboard
Disallow: /ngc
Disallow: /open100
Disallow: /openkr
Disallow: /poll
Disallow: /qna
Disallow: /search
Disallow: /wizard
Disallow: /xfile

가 나오는 군요. 네이버 지식인 등에서 robots.txt를 통해서 닫힌 지식도 구현할 수 있네요. :)
Reference. http://en.wikipedia.org/wiki/Robots_Exclusion_Standard
http://green-beast.com/blog/?p=56
http://www.robotstxt.org/wc/exclusion-admin.html
http://help.naver.com/delete_main.asp?page_id=2

Posted by 세레

댓글을 달아주세요:: 네티켓은 기본, 스팸은 사절


카테고리

분류 전체보기 (447)
Science (283)
ars boni et aequi (55)
Routine (83)
Language (23)
Q&A (1)
me2day (1)

달력

«   2019/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31