Robots.txt를 SEO 기법
이 게시물 오래지만 중요한 하나입니다. 난 당신이 시작하기 전에 핫 초콜릿 한 잔 들고 좋습니다 ![]()
당신은 robots.txt 파일 들어본 적이 없다면, 그것은 단순히 그들이하고 할 수 수에 검색 엔진을 지시 웹사이트 루트 디렉토리에있는 작은 파일입니다. 엄격하게 시행하지 않지만, 검색 엔진 봇은 일반적으로 robots.txt 파일에 전달 설정된 규칙을 존중합니다. 제대로 구성된 robots.txt 파일을 사용하면 예를 들어, 스팸 봇을 지키기 위해 시도, 색인 이미지를 Google을하지 말 또는 중복 콘텐츠가 포함되어있을 수 있습니다 페이지를 건너 로봇 지시하실 수 있습니다.
봇은 신규 또는 수정된 콘텐츠를 찾기 위해 인터넷을 크롤 링하는 검색 엔진 회사, 스패머 및 콘텐츠 accumulators에서 사용하는 소프트웨어의 조각입니다. 로봇의 작업 페이지에서 사이트 페이지와 사이트를 크롤 링 웹사이트에 링크를 따라하는 것입니다. 그것은 케빈 베이컨 것들 여섯 학위 같은거야. 충분한 링크를 따라하고 결국 인터넷에있는 모든 콘텐츠를 찾을 수 있어야합니다. 이것은 뒤로 그렇게 중요한 이유입니다. 당신이 가진 더 뒤로는 쉽게 그것은 귀하의 콘텐츠를 찾기 위해 검색 엔진입니다. 한 번에 그물을 trawling 봇 인스턴스의 수백만 그대로있다. 로봇에 대한 공식적인 용어는 수천가있는 사용자 에이전트입니다. 하자 예를 들어 구글 가져가라. Google이 귀하의 사이트를 색인하는 데 사용되는 여러 user - agent를 가지고, 이미지 및 비디오를 추출 뉴스 피드를 찾아, 휴대폰 콘텐츠를 찾을 수 애드 센스의 품질 등에 대한 귀하의 사이트를 확인하십시오. 이 사이트는 자세한 내용은 알려진 사용자 에이전트의 전체 목록을.
robots.txt 파일은 연령대 주위되었습니다. 그것은 사실에 의해 도입되었다 알타 비스타 1994 년, 지금은 웹 스파이더에 대한 상식 남아있다. 파일과 표준 표기법의 전체 설명을 보려면 다음 사이트를 방문하시기 바랍니다 여기에 . 즉, robots.txt 파일은 그로 인한 전체 사이트 또는 일부를 크롤 링 특정 로봇을 제한할 수 있습니다. 이렇게하려면 모든 봇은 특별한 서명을했습니다. 예를 들어, Google의 색인 봇이 GoogleBot이라고, 빙의 봇은 MSNbot라고하고, 야후의 야후 봇은 Slurp라고합니다.
robots.txt 파일의 항목은 다음과 같이 보일 수 있습니다 :
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
여기서 우리는 "공개"로 시작하는 모든 디렉토리에있는 모든 페이지에 액세스할 수있는 Slurp 사용자 에이전트를 이야기하고, URI에서 "_print"와 페이지에 대한 접근도가 없습니다.
아래에있는 내 실험 워드 프레스 사이트 (제가 하루 더 실험 사이트에서 무슨 뜻인지 설명 기사를 게시해 드리겠) 중 하나에 대한 완벽한 robots.txt 파일입니다. 기민한 독자 내가 특정 디렉터리에서 모든 사용자 에이전트를 disallowing, 그리고 일부 특정 사용자 에이전트가 내 사이트의 나머지 영역에 액세스할 수 있도록임을 유의 있습니다. 표준에 대한 최신 업데이 트가 또 검색 엔진이 내 모든 페이지를 찾을 수 있도록 내 사이트지도의 위치를 목록을 표시할 수 있습니다.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
소비를위한 것이 아닙니다 콘텐츠를 액세스 로봇 Disallowing하면 따라서 검색 엔진 순위 내에 귀하의 사이트를 홍보 있도록 귀하의 사이트가 모든 페이지에 최적화된 키워드 남아있게됩니다하는지 확인합니다. 당신이 키워드 "체중 증가"와 다양한 긴 꼬리에 대한 모든 페이지를 최적화에서 열심히 근무 예를 들어 말한다. 그것이 로그인 페이지, 개인 정보 보호 페이지와 문의 양식을 크롤링할 수있다면 작업은 검색 엔진의 눈을 아래로 필터링 수 있습니다.
일부 SEO 전문가는 또한 Google이 이전보다 설립 사이트의 부탁 젊은 웹사이트를 처벌 것이라고 주장한다. 구글은 분명히 인터넷 아카이브 (찾을 수 없음 사용 여기 사이트의 나이를 결정하기 위해). 그것은 아카이브에 사이트를 찾을 수 없다면, 그것은 분명히 사이트들이 어느 정도 나이가있다 가정합니다. 이러한 이유로, 많은 사람들이 적극적으로 자신의 사이트를 색인에서 인터넷 아카이브 사용자 에이전트를 중지합니다. 이것은 다음과 같은 라인을 포함하여 수행할 수 있습니다 :
User-agent: ia_archiver-web.archive.org
Disallow: /
당신은 그들이 다른 사이트에서 이외의 이미지를 빌려 주식이있다면 사진을 액세스 이미지 로봇도를 중지 할 수 있습니다. 이것은 이렇게 할 수 있습니다 :
User-agent: Googlebot-Image
Allow: /
마지막으로, robots.txt에 다른 사이트 또는 페이지에 사용할 수있는 콘텐츠를 표시하는 데 사용할 수 있습니다 특정 페이지에서 로봇을 제외하는 데 사용할 수 있습니다. 그것은 종종 Google은 중복 콘텐츠를 표시에 대한 평가를 처벌됩니다 주장이다. 개인적으로 큰 문제로 이것을보고 중복된 내용이 실제로 어떤 경우에는 귀하의 사이트 평가 (이것에 대한 자세한 또 다른 하루) 도울 수 있다고 생각하지 않습니다. 어쨌든, 특정 페이지에 접근하는 로봇을 중지하려면, 다음 줄을 추가 :
User-agent: *
Disallow: */my-duplicate-page.html
이 바보 - 증거 방법되지 않습니다. 귀하의 허용 페이지가 다른 사이트에서 링크를 가지고있다면, 그것은 여전히 로봇에 의해 크롤 링합니다.
나는 계속 할 수 있겠지만, 난 당신이 지금 쯤은 지루라고 확신 해요. 아래의 댓글 또는 더 알고 싶다면 저에게 직접 문의하시기 바랍니다.
해피 roboting.



















