AdminID.kr (어드민아이디) - Apache - robots.txt 파일(로봇배제 표준)

로봇배제 표준이란?
구글등 검색 로봇이 정보수집을 위해 사이트를 방문할 경우를 대비하여, 검색로봇에 대한 웹사이트의 디렉토리 및 파일 들에 대한 검색조건을 명시해 놓은 국제 규약이다.

• 정상적인 검색로봇은 사이트 방문시 가장 먼저 웹사이트의 로봇배제 표준파일(robots.txt)를 확인하고, 파일에 명시된 사항을 준수하면서 웹사이트의 컨텐츠를 수집한다.
• robots.txt 화일에는 최소한 한개의 Disallow 필드(field)가 있어야 한다.

로봇 배제 표준은 방지기술이 아닌 사이트 및 검색로봇 운영자간의 단순한 약속(규약)이므로 악의적인 로봇이 로봇 배제 표준을 무시하고 사이트의 컨텐츠를 수집할 수 도 있다.

robots.txt의 내용은 다음과 같은 의미로 사용된다.

User-agent:	*은 모든 User-agent이고, 특정 user-agent를 지정할 경우 해당 로봇 이름을 지정
Allow or Disallow:	disallow에서 /은 모든 하위 문서에 대해 배재를 의미하고, 아무것도 지정하지 않으면 허가를 의미 /arirang/는 arirang 디렉토리만, /arirang은 arirang 디렉토리와 그 디렉토리내의 파일이 적용대상임

노출 허용/금지 의도	robots.txt 타이틀	robots.txt 내용
홈페이지 전체 내용을 모든 검색엔진에 노출을 허용	User-agent:	*
홈페이지 전체 내용을 모든 검색엔진에 노출을 허용	Disallow:
홈페이지 전체 내용을 모든 검색엔진에 노출을 방지	User-agent:	*
홈페이지 전체 내용을 모든 검색엔진에 노출을 방지	Disallow:	/
홈페이지 디렉토리가 information인 것에 대한 노출을 방지	User-agent:	*
홈페이지 디렉토리가 information인 것에 대한 노출을 방지	Disallow:	/information/
특정 검색엔진(abcbot)의 접근만을 거부	User-agent:	abcbot
	Disallow:	/
	User-agent:	*
	Disallow:
특정 검색엔진(abcbot)의 접근만을 허용	User-agent:	abcbot
	Disallow:
	User-agent:	*
	Disallow:	/
모든 검색엔젠에 대해 /directory/a.html의 접근을 거부	User-agent:	*
모든 검색엔젠에 대해 /directory/a.html의 접근을 거부	Disallow:	/directory/a.html
홈페이지의 디렉토리가 information인 것에 대한 노출을 허가	User-agent:	*
홈페이지의 디렉토리가 information인 것에 대한 노출을 허가	Disallow:	/information/
홈페이지의 디렉토리 또는 파일명이 information인 것에 대한 접근을 허가	User-agent:	*
홈페이지의 디렉토리 또는 파일명이 information인 것에 대한 접근을 허가	Disallow:	/information

【예제】
# pwd
/export/home/apache2/htdocs
# ls
favicon.ico     index.html      left.html       right.html      sounds
images          lecture         netsarang.html  robots.txt
# cat robots.txt
user-agent:*
disallow:
#

http://www.robotstxt.org/ 참조

출처 : http://radiocom.kunsan.ac.kr/lecture/home_page/robots_txt.html

로그인

소프트웨어(Software)

robots.txt 파일(로봇배제 표준)

단축키

단축키

아파치 httpd.conf 재시작 없이 설정 적용하기

톰캣 8 소개

리눅스 아파치 로그 뷰어 webalizer, utf-8로 변환하기

Webalizer Configuration – Configure Webalizer for SEO

Webalizer, AWStats에서 국가 정보 확인하기

Webalizer에서 국가별 로그 출력하기

Apache: A good Webalizer.conf for the Webalizer Apache Log Analyzer utility

아파치 로그분석 webalizer 설치

Permission denied: .htaccess pcfg_openfile: unable to check htaccess file, ensure it is readable

Permission denied: /home/.htaccess pcfg_openfile: unable to check htaccess file

pcfg_openfile: unable to check htaccess file, ensure it is readable

Tomcat 버전별 설명

Apache 실행환경을 nobody 사용자로 변경

리눅스 사용자 계정별 웹서버 운영하기

Apache 서버에서 확장자 .htm 파일 내의 php 코드가 실행되지 않는 문제 해결 방법

php 웹사이트에서 파일을 업로드 하는중 100%에서 멈춰버리는 현상 해결

Apache Struts 버전 확인 방법

robots.txt를 현명하게 사용하는 방법

robots.txt 파일(로봇배제 표준)

Windows / apache_2.4.3 + php_5.4.10 + mod_fcgid_2.3.7

Recent Articles

Recent Comment

Recent Tag

나눔글꼴 설치 안내

이 PC에는 나눔글꼴이 설치되어 있지 않습니다.