Robots.txt

Robots.txt 파일은 사이트의 루트에 위치하며 사이트에서 검색엔진 크롤러가 엑세스하지 않기를 바라는 부분을 표시할때 쓰인다.

http://domain.com/robots.txt

파일에서는 로봇 배제 표준 프로토콜의 명령을 사용하여 섹션별, 웹 크롤러 종류별(모바일,데스크톱)로 사이트에 대한 액세스 권한을 표시 한다.

사이트에 google 또는 다른 검색엔진이 색인을 생성하지 않기를 바라는 콘텐츠가 포함되어 있는 경우에 만 Robots.txt 파일이 필요하다.

Robots.txt를 작성하기 전에 이 URL차단 메소드의 위험에 대해 주의해야 하며 웹에서 내 URL이 검색되지 않도록 하는 다른 메커니즘을 고려 할 수도 있다.

Robots.txt 파일의 명령은 사이트에 대한 크롤러의 동작을 강요할 수 없으며 사이트에 액세스하는 크롤러에 대한 지침 역할을 한다.
Googlebot및 기타 잘 제작된 웹 크롤러는 robotx.txt파일의 지침을 준수하지만 그렇지 않는 크롤러도 있다.
정보를 웹 크롤러로부터 안전하게 보호하려면 서버에서 비공개파일을 비밀번호로 보호하는 등 다른 차단 메소드를 사용하는것이 좋다.
크롤러 마다 구문을 다르게 해석한다. 완벽하게 제작된 웹 크롤러는 robots.txt 파일의 지침을 따르지만 크롤러마다 지침을 다르게 해석할 수 도 있다.
특정 지침을 이해하지 못하는 크롤러도 있으므로 다양한 웹 크롤러에 적용될 수 있는 적절한 구문을 알아야 한다.
Robots.txt 지침은 다른 사이트에서 내 URL 을 참조하지 못하게 차단할 수 없다.
Google은 robots.txt를 통해 차단된 콘텐츠를 크롤링하거나 콘텐츠의 색인을 생성하지 않지만 웹의 다른곳에서 허용되지 않는 URL에 대한 정보를 찾아 색인을 생성할 수 있다.
서버에서 파일을 비밀번호로 보호하거나 HTML에 색인 생성 지침 메타태그를 삽입하는 등 기타 URL 차단 메소드를 robots.txt와 함께 사용하면 Google 검색결과에 내 URL이 표시되지 않도록 완전히 차단할 수 있다.
보안이 필요한 페이지를 보안 작업 없이 robots.txt를 통하여 검색 엔진만 차단되며 누구나 확인기 가능한 파일이므로 검색 엔진만을 차단할 뿐 오히려 보안의 허점을 드러내게 된다.
프록시 서비스 등의 결과물로 생성된 URL 등의 크롤링을 허용한다.

다음은 robots.txt 파일의 샘플 이다.

User-agent: *
Disallow: /order/
Disallow: /register/
Disallow: /cart/
Disallow: /remittance/
Disallow: /loyalty/
Disallow: /interest/
Disallow: /tns/
Disallow: /csagent/
Disallow: /community/
Disallow: /openapi/
Disallow: /commons/
Disallow: /jsp/
Disallow: /wingBanner/
Disallow: /chatping/

User-agent: Mediapartners-Google
Allow: /order/
Allow: /cart/
Allow: /loyalty/
Allow: /interest/
Disallow: /register/
Disallow: /remittance/
Disallow: /tns/
Disallow: /csagent/
Disallow: /community/
Disallow: /openapi/
Disallow: /commons/
Disallow: /jsp/
Disallow: /wingBanner/
Disallow: /chatping/

Content

Space Tools