Crawl Sitemap

JavaScript

import ContextDev from 'context.dev';

const client = new ContextDev({
  apiKey: process.env['CONTEXT_DEV_API_KEY'], // This is the default and can be omitted
});

const response = await client.web.webScrapeSitemap({ domain: 'xxx' });

console.log(response.domain);

import os
from context.dev import ContextDev

client = ContextDev(
    api_key=os.environ.get("CONTEXT_DEV_API_KEY"),  # This is the default and can be omitted
)
response = client.web.web_scrape_sitemap(
    domain="xxx",
)
print(response.domain)

package main

import (
	"context"
	"fmt"

	"github.com/context-dot-dev/context-go-sdk"
	"github.com/context-dot-dev/context-go-sdk/option"
)

func main() {
	client := contextdev.NewClient(
		option.WithAPIKey("My API Key"),
	)
	response, err := client.Web.WebScrapeSitemap(context.TODO(), contextdev.WebWebScrapeSitemapParams{
		Domain: "xxx",
	})
	if err != nil {
		panic(err.Error())
	}
	fmt.Printf("%+v\n", response.Domain)
}

require "context_dev"

context_dev = ContextDev::Client.new(api_key: "My API Key")

response = context_dev.web.web_scrape_sitemap(domain: "xxx")

puts(response)

<?php

require_once dirname(__DIR__) . '/vendor/autoload.php';

use ContextDev\Client;
use ContextDev\Core\Exceptions\APIException;

$client = new Client(apiKey: getenv('CONTEXT_DEV_API_KEY') ?: 'My API Key');

try {
  $response = $client->web->webScrapeSitemap(
    domain: 'xxx',
    headers: ['foo' => 'J!'],
    maxLinks: 1,
    sitemapURL: 'https://example.com',
    tags: ['production', 'team-alpha'],
    timeoutMs: 1,
    urlRegex: '^https?://[^/]+/blog/',
    zdr: 'enabled',
  );

  var_dump($response);
} catch (APIException $e) {
  echo $e->getMessage();
}

context-dev web web-scrape-sitemap \
  --api-key 'My API Key' \
  --domain xxx

curl --request GET \
  --url https://api.context.dev/v1/web/scrape/sitemap \
  --header 'Authorization: Bearer <token>'

HttpResponse<String> response = Unirest.get("https://api.context.dev/v1/web/scrape/sitemap")
  .header("Authorization", "Bearer <token>")
  .asString();

{
  "success": true,
  "domain": "<string>",
  "urls": [
    "<string>"
  ],
  "meta": {
    "sitemapsDiscovered": 123,
    "sitemapsFetched": 123,
    "sitemapsSkipped": 123,
    "errors": 123
  },
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

{
  "message": "<string>",
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

{
  "message": "<string>",
  "error_code": "UNAUTHORIZED",
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

{
  "message": "<string>",
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

{
  "message": "<string>",
  "error_code": "REQUEST_TIMEOUT",
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

{
  "message": "<string>",
  "error_code": "RATE_LIMITED",
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

{
  "message": "<string>",
  "error_code": "INTERNAL_ERROR",
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

GET

web

scrape

sitemap

JavaScript

import ContextDev from 'context.dev';

const client = new ContextDev({
  apiKey: process.env['CONTEXT_DEV_API_KEY'], // This is the default and can be omitted
});

const response = await client.web.webScrapeSitemap({ domain: 'xxx' });

console.log(response.domain);

import os
from context.dev import ContextDev

client = ContextDev(
    api_key=os.environ.get("CONTEXT_DEV_API_KEY"),  # This is the default and can be omitted
)
response = client.web.web_scrape_sitemap(
    domain="xxx",
)
print(response.domain)

package main

import (
	"context"
	"fmt"

	"github.com/context-dot-dev/context-go-sdk"
	"github.com/context-dot-dev/context-go-sdk/option"
)

func main() {
	client := contextdev.NewClient(
		option.WithAPIKey("My API Key"),
	)
	response, err := client.Web.WebScrapeSitemap(context.TODO(), contextdev.WebWebScrapeSitemapParams{
		Domain: "xxx",
	})
	if err != nil {
		panic(err.Error())
	}
	fmt.Printf("%+v\n", response.Domain)
}

require "context_dev"

context_dev = ContextDev::Client.new(api_key: "My API Key")

response = context_dev.web.web_scrape_sitemap(domain: "xxx")

puts(response)

<?php

require_once dirname(__DIR__) . '/vendor/autoload.php';

use ContextDev\Client;
use ContextDev\Core\Exceptions\APIException;

$client = new Client(apiKey: getenv('CONTEXT_DEV_API_KEY') ?: 'My API Key');

try {
  $response = $client->web->webScrapeSitemap(
    domain: 'xxx',
    headers: ['foo' => 'J!'],
    maxLinks: 1,
    sitemapURL: 'https://example.com',
    tags: ['production', 'team-alpha'],
    timeoutMs: 1,
    urlRegex: '^https?://[^/]+/blog/',
    zdr: 'enabled',
  );

  var_dump($response);
} catch (APIException $e) {
  echo $e->getMessage();
}

context-dev web web-scrape-sitemap \
  --api-key 'My API Key' \
  --domain xxx

curl --request GET \
  --url https://api.context.dev/v1/web/scrape/sitemap \
  --header 'Authorization: Bearer <token>'

HttpResponse<String> response = Unirest.get("https://api.context.dev/v1/web/scrape/sitemap")
  .header("Authorization", "Bearer <token>")
  .asString();

{
  "success": true,
  "domain": "<string>",
  "urls": [
    "<string>"
  ],
  "meta": {
    "sitemapsDiscovered": 123,
    "sitemapsFetched": 123,
    "sitemapsSkipped": 123,
    "errors": 123
  },
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

{
  "message": "<string>",
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

{
  "message": "<string>",
  "error_code": "UNAUTHORIZED",
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

{
  "message": "<string>",
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

{
  "message": "<string>",
  "error_code": "REQUEST_TIMEOUT",
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

{
  "message": "<string>",
  "error_code": "RATE_LIMITED",
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

{
  "message": "<string>",
  "error_code": "INTERNAL_ERROR",
  "key_metadata": {
    "credits_consumed": 123,
    "credits_remaining": 123
  }
}

1 Credit

Authorizations

Authorization

string

header

required

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Query Parameters

domain

string

required

Domain to build a sitemap for

Minimum string length: 3

maxLinks

integer

default:10000

Maximum number of links to return from the sitemap crawl. Defaults to 10,000. Minimum is 1, maximum is 100,000.

Required range: 1 <= x <= 100000

sitemapUrl

string<uri>

Optional explicit sitemap URL. When provided, exactly this sitemap is crawled instead of discovering the domain's sitemaps.

urlRegex

string

Optional RE2-compatible regex pattern. Only URLs matching this pattern are returned and counted against maxLinks.

Maximum string length: 256

Example:

"^https?://[^/]+/blog/"

headers

object

Optional outbound HTTP headers forwarded only to the target URL, sent as deep-object query params such as headers[X-Custom]=value. When provided, caching is bypassed: the result is neither read from nor written to cache.

Show child attributes

timeoutMS

integer

Optional timeout in milliseconds for the request. If the request takes longer than this value, it will be aborted with a 408 status code. Maximum allowed value is 300000ms (5 minutes).

Required range: 1 <= x <= 300000

zdr

enum<string>

default:disabled

Set to enabled to bypass shared caches and omit request and response content from retained usage logs. Requires zero data retention to be enabled for your organization (contact [email protected]), otherwise the request fails with ZDR_NOT_ENABLED. Successful ZDR responses include X-Context-ZDR: true.

Available options:

enabled,

disabled

Response

Successful response

success

enum<boolean>

required

Indicates success

Available options:

true

domain

string

required

The normalized domain that was crawled

urls

string[]

required

Array of discovered page URLs from the sitemap (max 500)

Web Extraction

Brand Intelligence

Entity Enrichment

Monitor Infrastructure

Utility

Authorizations

Query Parameters

Response