Robots.txt 파일은 서버의 루트에 위치하며 사이트에서 검색엔진 크롤러가 엑세스하지 않기를 바라는 부분을 표시할때 쓰인다.
Robots.txt 파일은 검색엔진 크롤러의 요청(request)으로 인해 사이트 과부하되는 것을 방지하기 위해 사용한다.
참고로 아틀라시안 컨플루언스의 경우 robots.txt 설정은 필수다.
왜? 컨플루언서는 wiki 기반으로 페이지 마다 히스토리, 비교, 휴지통 등의 쓰레드가 남아있기때문에 사용되지 않는 URL 들 마저 검색엔진이 인지하고 있다.
파일에서는 로봇 배제 표준 프로토콜의 명령을 사용하여 섹션별, 웹 크롤러 종류별(모바일,데스크톱)로 사이트에 대한 액세스 권한을 표시 한다.
사이트에 google 또는 다른 검색엔진이 색인을 생성하지 않기를 바라는 콘텐츠가 포함되어 있는 경우에 만 Robots.txt 파일이 필요하다.
다음은 robots.txt 파일의 샘플 이다.
User-agent: * Disallow: /order/ Disallow: /register/ Disallow: /cart/ User-agent: Mediapartners-Google Allow: /order/ Allow: /cart/ Disallow: /register/ Disallow: /remittance/ |
robots.txt는 사람이 아닌 검색엔진 크롤러가 읽고 인식해야 하는 파일이기 때문에 정해진 형식과 문법에 따라 작성해야함.
robots.txt 는 기본적으로 두 가지의 정보를 포함해야 한다.
어떤 검색엔진 크롤러를 지정할 것인지 (User-agent 값),
어떤 디렉토리를 제한할 것인가? (Disallow 값)
robots.txt 기본 형식 예시는 모든 검색엔진 크롤러를 (User-agent: *) 모든 /디렉토리/ 서브 폴더 이하 디렉토리의 크롤링을 제한한다. (Disallow: /forbidden/)
User-agent 는 반드시 포함되어야 합니다.
# 대상: 모든 크롤러 # 제한 디렉토리: /top folder/ # 대상: 네이버 크롤러 (Yeti) # 제한 디렉토리: /not-for-naver/ 이하 User-agent: Yeti Disallow: /not-for-naver/ |
Disallow: /pages/viewpageattachments.action Disallow: /pages/diffpagesbyversion.action Disallow: /pages/viewpreviousversions.action Disallow: /spaces/createrssfeed.action Disallow: /collector/pages.action |
이것만 잡아도.. 아래 색인에 크게 개선될 기대..
