'robots.txt'에 대해서
Science/Computational반응형
robots.txt가 효력을 가지기 위해서는 URL의 최상위 공간에 위치해야 합니다. 당신이 자신의 웹사이트에 모든 접근을 허용할 시에는 간단히 robot.txt에 아무것도 쓰지 않으면 됩니다.
robots.txt에는 다음과 같은 항목이 있습니다.
* User-agent : 수집하는 주체의 범위를 정합니다. *으로 설정할 경우 모든 봇의 접근이 격리됩니다. naver의 경우 봇 이름은 Naverbot입니다. 'User-agent : * '와 같은 꼴로 사용합니다.
* Allow : 뜻 그대로 허락할 디렉토리를 설정합니다.
* Disallow : 뜻 그대로 불허할 디렉토리를 설정합니다. Disallow: 뒤에 아무것도 표시하지 않을 경우에도, 모든 접근을 허락한다는 뜻이 되므로 유의하세요. 만약 모든 디렉토리의 접근을 막고 싶다면 'Disallow: /'와 같이 쓰면 됩니다.
naver 안에서의 robots.txt를 구글을 이용하여 찾아본 결과
http://blog.naver.com/robots.txt 에서
User-agent: *
Disallow: /
http://cafe.naver.com/robots.txt 에서
User-agent: *
Disallow: /
http://kin.naver.com/robots.txt 에서Reference. http://en.wikipedia.org/wiki/Robots_Exclusion_Standard
User-agent: *
Disallow: /browse
Disallow: /db
Disallow: /editor
Disallow: /expert
Disallow: /ing
Disallow: /kinac
Disallow: /knowhow
Disallow: /list
Disallow: /nboard
Disallow: /ngc
Disallow: /open100
Disallow: /openkr
Disallow: /poll
Disallow: /qna
Disallow: /search
Disallow: /wizard
Disallow: /xfile
가 나오는 군요. 네이버 지식인 등에서 robots.txt를 통해서 닫힌 지식도 구현할 수 있네요. :)
http://green-beast.com/blog/?p=56
http://www.robotstxt.org/wc/exclusion-admin.html
http://help.naver.com/delete_main.asp?page_id=2
반응형
댓글을 달아 주세요