새 페이지를 정성껏 만들어 올렸는데, 몇 주가 지나도 검색 결과 어디에도 보이지 않는 경우가 있습니다. 디자인이 잘못된 것도, 글이 부실한 것도 아닙니다. 검색엔진이 그 페이지의 존재 자체를 아직 모르고 있을 가능성이 큽니다. 검색에 노출되려면 먼저 검색엔진의 수집 로봇(크롤러)이 우리 페이지를 찾아 읽고 색인에 담아야 합니다. 페이지를 '만드는 것'과 '발견되게 하는 것'은 전혀 다른 일입니다.
이 수집 과정을 안내하는 두 개의 작은 파일이 사이트맵(sitemap.xml)과 robots.txt입니다. 작은 회사 웹사이트가 검색엔진에 빠짐없이 수집되도록 챙겨야 할 다섯 가지 원칙을 정리했습니다.
1. 사이트맵으로 페이지 목록을 직접 건넨다
크롤러는 링크를 따라가며 페이지를 발견합니다. 그래서 메뉴에서 몇 단계 깊이 들어가야 나오는 페이지나, 어디서도 링크되지 않은 페이지는 영영 발견되지 못할 수 있습니다. 사이트맵은 "우리 사이트에 이런 페이지들이 있습니다"라고 검색엔진에 목록을 직접 건네는 파일입니다.
- 모든 페이지의 주소(URL)를 한곳에 모아 sitemap.xml로 만들어 사이트 최상위 경로에 둡니다.
- 각 페이지의 마지막 수정일을 함께 적으면, 바뀐 페이지를 우선 다시 확인합니다.
- 페이지가 수십 개 안 되는 작은 사이트라도, 사이트맵이 있으면 수집이 빠르고 누락이 줄어듭니다.
2. robots.txt로 '봐도 되는 곳'과 '막을 곳'을 나눈다
robots.txt는 크롤러에게 건네는 출입 안내문입니다. 관리자 페이지, 로그인 화면, 미리보기처럼 검색에 뜰 필요가 없는 곳은 막고, 사이트맵 위치를 알려 수집을 돕습니다.
- 검색에 노출하고 싶지 않은 경로만 Disallow로 지정합니다.
- 파일 안에 사이트맵 주소를 한 줄 적어 두면 크롤러가 곧장 목록을 찾아갑니다.
- 주의: robots.txt는 '권고'일 뿐 비밀번호가 아닙니다. 진짜 숨겨야 할 정보는 접근 권한으로 막아야 합니다.
3. 검색엔진 도구에 사이트맵을 등록한다
파일을 만들어 두는 것만으로는 부족합니다. 구글 서치 콘솔과 네이버 서치어드바이저에 사이트를 등록하고 사이트맵 주소를 직접 제출하면, 수집 속도가 눈에 띄게 빨라집니다.
- 두 도구 모두 무료이며, 어떤 페이지가 색인됐는지·검색에서 어떤 검색어로 들어오는지까지 보여 줍니다.
- 국내 고객이 많다면 네이버 등록을 빠뜨리지 마세요. 구글만 해 두면 네이버 검색에선 한참 늦게 잡힙니다.
4. 페이지가 바뀌면 사이트맵도 자동으로 갱신되게 한다
사이트맵을 한 번 손으로 만들어 두면, 새 글을 올리거나 페이지를 지울 때마다 실제 사이트와 어긋나기 시작합니다. 없는 페이지가 목록에 남고, 새 페이지는 빠집니다.
- 페이지를 추가·삭제하면 사이트맵이 자동으로 다시 만들어지도록 설정해 두는 편이 가장 안전합니다.
- 블로그처럼 글이 자주 늘어나는 사이트라면 자동 갱신은 선택이 아니라 필수입니다.
5. 색인을 막는 흔한 실수를 점검한다
의외로 많은 사이트가 스스로 검색 노출을 막아 둔 채 방치됩니다. 제작 단계에서 임시로 막아 둔 설정이 오픈 후에도 그대로 남아 있는 경우가 대표적입니다.
- 페이지에 noindex 태그가 남아 있으면, 사이트맵에 넣어도 검색에서 빠집니다.
- robots.txt에서 사이트 전체(Disallow: /)를 막아 두지 않았는지 확인합니다.
- 오픈 직후엔 서치 콘솔의 색인 현황을 한 번 점검해, '잘 만든 페이지가 정말 검색에 담겼는지'를 눈으로 확인하세요.
잘 만드는 것만큼, 잘 발견되게 하는 것
사이트맵과 robots.txt는 화면에 보이지 않는 파일이라 가장 나중으로 밀리기 쉽지만, 이 둘이 빠지면 공들인 페이지가 검색이라는 출입구 앞에서 멈춰 섭니다. CYAN은 작은 회사 웹사이트를 만들 때 사이트맵 자동 생성과 검색엔진 등록까지 기본 절차에 포함합니다. 만들어 둔 페이지가 손님에게 제대로 가닿는 것, 거기까지가 한 세트라고 보기 때문입니다.