검색엔진 최적화로 방문율 높이기 - 검색엔진 로봇 최적화 robots.txt

[검색엔진 최적화로 방문율 높이기 - 검색엔진 로봇 최적화 robots.txt]

robots.txt 검색엔진 최적화에 대한 설명

robots.txt 최적화는 검색로봇이 잘 찾아와서 검색해 갈 수 있도록 내 사이트에 안내페이지를 작성하는 방법입니다.

간혹 보안 때문이라며 robots.txt의 내용을 접근금지로 해 놓는 대형 사이트도 많은데 무식한 방법이라 하겠습니다.

사이트를 방문하는 사용자를 불편하게 만드는 행위이기 때문입니다.

그런 사이트의 관리자는 보안과 컨텐츠 복사 보호를 핑계로 삼지만, 정말 보안과 컨텐츠 복사를 보호하고 싶다면 사이트 해킹차단과 저작권 표시로 보호를 하는 것이 정상입니다. robots.txt를 이용해서 검색엔진이 접근하지 못하게 하는 것은 사이트를 폐쇄적으로 만들어서 정보가 필요한 사용자를 불편하게 만드는 것입니다.

robots.txt은 사이트를 폐쇄적으로 운영하기 위함이 아니라 오픈할 부분을 선택적으로 허용하기 위함입니다.

단, 보안을 목적으로 몇몇 페이지에만 접근을 차단하는 것에서 사용의 효율성이 높겠으나... 차단하는 페이지를 최소한의 개수로 하는 것이 좋습니다.

robots.txt 최적화에 의한 검색엔진 최적화는 검색엔진에 맞도록 최적화하여 방문자를 늘리기 위한 방법일 수도 있겠습니다. 검색엔진의 로봇이 마음껏 검색엔진에서 사용할 목록을 가져갈 수 있도록 하는 것입니다.

검색엔진에서 가져간 목록은 사용자들이 검색엔진을 검색하면 검색어에 검색돼서 보이게 됩니다.

하지만, 어쩔 수 없이 robots.txt파일을 이용해서 검색엔진 로봇의 활동을 막아야 하는 경우가 있는데, 바로 과다 트래픽 발생일 경우입니다. 지나치게 검색엔진이 마구 들어와서 한정된 트래픽양을 다 소진해 버린다면 중소 사이트는 트래픽 초과로 방문자를 못 받게 됩니다. 이럴 때는 robots.txt가 검색엔진 로봇의 접근을 막기 위해 사용되기도 합니다.

그러나 로봇을 완전히 막는 것이 아니라 아래 소개하는 딜레이 시간 등을 조절하여 검색엔진 로봇의 방문량을 정해 주는 것이 가장 좋은 방법입니다.

호스팅계정의 ROOT디렉터리에 파일 만들기

먼저 컴퓨터상에서 메모장이나 에디터를 실행합니다.

아래에 나오는 내용을 입력하고 파일이름을 robots.txt로 저장합니다.

이 파일을 FTP를 이용하여 웹호스팅의 루트디렉토리에 업로드 합니다.

robots.txt는 반드시 루트(root)디렉터리에 업로드 되어야 합니다.

예를 들어 홈페이지 주소가 http://www.A.com이라면 http://www.A.com/robots.txt와 같이 되는 것이 맞습니다. http://www.A.com/admin/robots.txt처럼 되면 루트디렉토리가 아니기 때문에 인식 못합니다.

ROBOTS.TXT 작성 방법

User-agent: 검색엔진 로봇 이름

Allow: 해당 디렉터리

Disallow: 해당 디렉터리

Crawl-delay: 초

기본적으로 위와 같은 형식으로 입력합니다.

User-agent: 검색로봇의 종류를 명시합니다. 여기에 명시된 로봇들이 명령대로 합니다. 모든 로봇에게 명령을 내리고 싶다면 *를 사용합니다.
Allow: 검색자료로 긁어가도록 허용할 디렉터리를 지정합니다. /를 붙이면 모든 디렉터리를 허용하는 것입니다.
Disallow: 검색자료를 가져가지 못하도록 합니다. /를 붙이면 모든 디렉터리를 막는 것입니다.
Crawl-delay: 다음 방문까지의 간격을 명령합니다. 초단위로 하며 60은 1분을 뜻합니다. 너무 자주 방문하여 서버에 부담을 주지 않도록 설정할 때 사용합니다.
Allow와 Disallow는 서로 반대개념이므로 둘 중의 하나만 써도 됩니다.

사용 예제

User-agent: *

Allow: /

모든 로봇에게 모든 문서에 접근할 수 있도록 허용하는 경우입니다.

User-Agent: * , Disallow: 라고 해도 같은 경우입니다.(Disallow로 바뀌고 /가 빠졌음)
"Allow: /" - 이하의 디렉터리를 허용함. "Allow:" - 어디를 허용할 것인지가 적혀 있지 않음. 즉 비허용.
"Disallow: /" - 이하의 디렉터리를 비허용함. "Disallow:" - 어디를 비허용할지 적혀 있지 않음. 즉 허용.
이해가 안 간다면, 허용하고 싶다면 "Allow: /"를, 비허용하고 싶다면 "Disallow: /"를 쓰면 됨.
* : 모든이라는 뜻, Allow : 허용, Disallow : 비허용, / : 하위 디렉터리

User-agent: *

Disallow: /

모든 로봇에게 모든 문서의 접근을 금지하는 경우입니다.

User-agent: Googlebot

Allow: /download/

Disallow: /admin/

Disallow: /data/

구글검색 로봇에게 download 디렉토리에는 접근이 가능하지만 admin 디렉토리와 data 디렉토리는 접근을 하지 말라는 경우입니다.

User-agent: Daumoa

Disallow:

Crawl-delay: 60

다음로봇만 접근해서 검색을 긁어가도록 하고 다른 검색로봇들은 접근을 제한할 경우입니다. 단 구글로봇도 60초 안에는 다시 방문하지 못합니다.

User-Agent: NaverBot

Disallow: /aaa.html

Disallow: /*.jpg$

네이버 검색로봇에게 aaa.htm이라는 페이지와 모든 사진(.jpg는 이미지의 확장자를 뜻함)에 접근하지 말라고 하는 경우입니다.

주의사항

robots.txt은 강제규약이 아닙니다. 그러므로 이를 무시하는 검색엔진도 있습니다. 반드시 지켜지는 것은 아닙니다.

robots.txt를 무시하는 검색엔진은 그 포털로 가서 직접 방문량 조절을 신청해야 합니다.

대표적인 경우는 구글의 웹마스터도구, 네이버의 웹마스터도구가 있습니다.

또한 아래와 같은 제작 중 주의사항도 있으니 참고 합니다.

공백은 허용되지 않습니다.
모두 소문자로 작성해야 합니다.
주석(검색로봇이 인식 못하는 문장)을 달고 싶으면 #로 시작하는 줄에 메모를 넣는 것이 가능합니다.
더 자세한 사항은 www.robotstxt.org에 방문하여 확인할 수 있습니다.
추가로 자신의 사이트의 내부를 안내하는 파일인 Sitemap xml파일을 공개할 수도 있습니다.
"Sitemap: http://www.A.com/sitemap.xml"처럼 작성해서 마지막에 붙여 놓으면 됩니다.

참고

User-agent에 적을 수 있는 로봇의 이름들입니다.

구글 : Googlebot

네이버 : Naverbot

다음 : Daumoa

야후 : Yahoo! Slurp

Microsoft : Msnbot

Bing : Bingbot

★ 이 정보가 도움이 된다면 아래의 공감을 부탁드립니다! ^^

(로그인 필요없음)

키스세븐지식은 키스세븐과 그룹 사이트입니다.

저작자표시 비영리 동일조건 (새창열림)

검색엔진 최적화로 방문율 높이기 - 검색엔진 로봇 최적화 robots.txt

관련글

티스토리툴바