Robots.txt 파일은 서버의 루트에 위치하며 사이트에서 검색엔진 크롤러가 엑세스하지 않기를 바라는 부분을 표시할때 쓰인다.

Robots.txt 파일은 검색엔진 크롤러의 요청(request)으로 인해 사이트 과부하되는 것을 방지하기 위해 사용한다.

참고로 아틀라시안 컨플루언스의 경우 robots.txt 설정은 필수다.

왜? 컨플루언서는 wiki 기반으로 페이지 마다 히스토리, 비교, 휴지통 등의 쓰레드가 남아있기때문에 사용되지 않는 URL 들 마저 검색엔진이 인지하고 있다.

domain/robots.txt

파일에서는 로봇 배제 표준 프로토콜의 명령을 사용하여 섹션별, 웹 크롤러 종류별(모바일,데스크톱)로 사이트에 대한 액세스 권한을 표시 한다.

사이트에 google 또는 다른 검색엔진이 색인을 생성하지 않기를 바라는 콘텐츠가 포함되어 있는 경우에 만 Robots.txt 파일이 필요하다.

Robots.txt를 작성하기 전에 이 URL차단 메소드의 위험에 대해 주의해야 하며 웹에서 내 URL이 검색되지 않도록 하는 다른 메커니즘을 고려 할 수도 있다.

Robots.txt 파일의 명령은 사이트에 대한 크롤러의 동작을 강요할 수 없으며 사이트에 액세스하는 크롤러에 대한 지침 역할을 한다.
Googlebot및 기타 잘 제작된 웹 크롤러는 robotx.txt파일의 지침을 준수하지만 그렇지 않는 크롤러도 있다.
정보를 웹 크롤러로부터 안전하게 보호하려면 서버에서 비공개파일을 비밀번호로 보호하는 등 다른 차단 메소드를 사용하는것이 좋다.
크롤러 마다 구문을 다르게 해석한다. 완벽하게 제작된 웹 크롤러는 robots.txt 파일의 지침을 따르지만 크롤러마다 지침을 다르게 해석할 수 도 있다.
특정 지침을 이해하지 못하는 크롤러도 있으므로 다양한 웹 크롤러에 적용될 수 있는 적절한 구문을 알아야 한다.
Robots.txt 지침은 다른 사이트에서 내 URL 을 참조하지 못하게 차단할 수 없다.
Google은 robots.txt를 통해 차단된 콘텐츠를 크롤링하거나 콘텐츠의 색인을 생성하지 않지만 웹의 다른곳에서 허용되지 않는 URL에 대한 정보를 찾아 색인을 생성할 수 있다.
서버에서 파일을 비밀번호로 보호하거나 HTML에 색인 생성 지침 메타태그를 삽입하는 등 기타 URL 차단 메소드를 robots.txt와 함께 사용하면 Google 검색결과에 내 URL이 표시되지 않도록 완전히 차단할 수 있다.
보안이 필요한 페이지를 보안 작업 없이 robots.txt를 통하여 검색 엔진만 차단되며 누구나 확인기 가능한 파일이므로 검색 엔진만을 차단할 뿐 오히려 보안의 허점을 드러내게 된다.
프록시 서비스 등의 결과물로 생성된 URL 등의 크롤링을 허용한다.

다음은 robots.txt 파일의 샘플 이다.

User-agent: *
Disallow: /order/
Disallow: /register/
Disallow: /cart/

User-agent: Mediapartners-Google
Allow: /order/
Allow: /cart/
Disallow: /register/
Disallow: /remittance/

Robots.txt 작성하기

robots.txt는 사람이 아닌 검색엔진 크롤러가 읽고 인식해야 하는 파일이기 때문에 정해진 형식과 문법에 따라 작성해야함.

robots.txt 는 기본적으로 두 가지의 정보를 포함해야 한다.

어떤 검색엔진 크롤러를 지정할 것인지 (User-agent 값),

어떤 디렉토리를 제한할 것인가? (Disallow 값)

robots.txt 기본 형식 예시는 모든 검색엔진 크롤러를 (User-agent: *) 모든 /디렉토리/ 서브 폴더 이하 디렉토리의 크롤링을 제한한다. (Disallow: /forbidden/)

User-agent 는 반드시 포함되어야 합니다.

User-agent: robots.txt 에서 지정하는 크롤링 규칙이 적용되어야 할 크롤러를 지정
Allow: 크롤링을 허용할 경로 (/ 부터의 상대 경로)
Disallow: 크롤링을 제한할 경로 (/ 부터의 상대 경로)
Sitemap: 사이트맵이 위치한 /sitemap.xml 까지의 전체 절대경로 URL

# 대상: 모든 크롤러
# 제한 디렉토리: /top folder/

# 대상: 네이버 크롤러 (Yeti)
# 제한 디렉토리: /not-for-naver/ 이하

User-agent: Yeti
Disallow: /not-for-naver/

그렇다면 SEO 에 최악인 컨플루언스는 어떻게 설정하는가?

Disallow: /pages/viewpageattachments.action
Disallow: /pages/diffpagesbyversion.action
Disallow: /pages/viewpreviousversions.action
Disallow: /spaces/createrssfeed.action
Disallow: /collector/pages.action

이것만 잡아도.. 아래 색인에 크게 개선될 기대..

SEO > Robots.txt > image2023-3-21_14-40-7.png