• 日常搜索
  • 百度一下
  • Google
  • 在线工具
  • 搜转载

使用纽约时报API抓取元数据

使用纽约时报API抓取元数据  第1张您将要创建 的内容

介绍

上周,我写了一篇关于抓取网页以收集元数据的介绍,提到无法抓取纽约时报网站。泰晤士报付费墙会阻止您收集基本元数据的尝试。但是有一种方法可以使用New York Times api来解决这个问题。

最近我开始在 Yii 平台上建立一个社区站点,我将在以后的教程中发布。我想让添加与网站内容相关的链接变得容易。虽然人们很容易将 URL 粘贴到表单中,但同时提供标题和来源信息变得很耗时。

因此,在今天的教程中,我将扩展我最近编写的抓取代码,以便在添加 Times 链接时利用 New York Times API 来收集头条新闻。

请记住,我参与了下面的评论线程,所以告诉我你的想法!您也可以在 Twitter @lookahead_io上与我联系。

入门

注册 API 密钥

使用纽约时报API抓取元数据  第2张

首先,让我们注册申请一个 API 密钥

使用纽约时报API抓取元数据  第3张

提交表单后,您将通过电子邮件收到您的密钥:

使用纽约时报API抓取元数据  第4张

探索纽约时报 API

使用纽约时报API抓取元数据  第5张

The Times 提供以下类别的 API:

  • 档案

  • 文章搜索

  • 图书

  • 社区

  • 地理

  • 最受欢迎

  • 电影评论

  • 语义

  • 时代新闻专线

  • 时代标签

  • 头条新闻

很多。并且,在 Gallery 页面中,您可以单击任何主题以查看各个 API 类别文档:

使用纽约时报API抓取元数据  第6张

The Times 使用 LucyBot 来 支持他们的 API 文档,并且有一个有用的常见问题解答

使用纽约时报API抓取元数据  第7张

他们甚至向您展示了如何快速获得 API 使用限制(您需要插入密钥):

 curl --head 
   https://api.nytimes.com/svc/books/v3/lists/overview.json?api-key=<your-api-key>
    2>/dev/null | grep -i "X-RateLimit"
    X-RateLimit-Limit-day: 1000
    X-RateLimit-Limit-second: 5
    X-RateLimit-Remaining-day: 180
    X-RateLimit-Remaining-second: 5

我最初很难理解文档——它是基于参数的规范,而不是编程指南。但是,我将一些问题作为问题发布到了纽约时报 API GitHub 页面,它们得到了快速而有益的回答。

使用文章搜索

对于今天的剧集,我将专注于使用《纽约时报》文章搜索。基本上,我们将从上一个教程中扩展创建链接表单:

使用纽约时报API抓取元数据  第8张

当用户单击 Lookup时,我们将通过 to 发出ajax请求Link::grab($url)这是jquery

$(document).on("click", '[id=lookup]', function(event) {
  $.ajax({
     url: $('#url_prefix').val()+'/link/grab',
     data: {url:   $('#url').val()},
     success: function(data) {
       $('#title').val(data);
       return true;
     }
  });
});

这是控制器和模型方法:

// Controller call via AJAX Lookup request
public static function actionGrab($url) {
  Yii::$app->response->format = Response::FORMAT_JSON;
  return Link::grab($url);
}
...
// Link::grab() method
public static function grab($url) {
  //clean up url for hostname
  $source_url = parse_url($url);
  $source_url = $source_url['host'];  
  $source_url=str_ireplace('www.','',$source_url);
  $source_url = trim($source_url,' \\');
  // use the NYT API when hostname == nytimes.com 
  if ($source_url=='nytimes.com') {
   ...

接下来,让我们使用我们的 API 密钥发出文章搜索请求:

    $nytKey=Yii::$app->params['nytapi'];    
    $curl_dest = 'http://api.nytimes.com
        /svc/search/v2/articlesearch.json?fl=headline&fq=web_url:%22'.
        $url.'%22&api-key='.$nytKey;
    $curl = curl_init();
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($curl, CURLOPT_URL,$curl_dest);
    $result = json_decode(curl_exec($curl));
    $title = $result->response->docs[0]->headline->main;
  } else {
    // not NYT, use the standard metatag scraper from last episode
         ...
    }
  }
  return $title;
}

它很容易起作用——这是由此产生的标题(顺便说一句, 气候变化正在杀死北极熊,我们应该关心):

使用纽约时报API抓取元数据  第9张

如果您想从 API 请求中获得更多详细信息,只需在 ?fl=headline 请求中添加其他参数,例如keywordslead_paragraph

Yii::$app->response->format = Response::FORMAT_JSON;
$nytKey=Yii::$app->params['nytapi'];
$curl_dest = 'http://api.nytimes.com/svc/search/v2/articlesearch.json?'.
  'fl=headline,keywords,lead_paragraph&fq=web_url:%22'.$url.'%22&api-key='.$nytKey;
$curl = curl_init();
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_URL,$curl_dest);
$result = json_decode(curl_exec($curl));
var_dump($result);

结果如下:

使用纽约时报API抓取元数据  第10张

也许我会编写一个 php 库,以便在接下来的剧集中更好地解析 NYT API,但这段代码将关键字和前导段落分开:

Yii::$app->response->format = Response::FORMAT_JSON;
$nytKey=Yii::$app->params['nytapi'];
$curl_dest = 'http://api.nytimes.com/svc/search/v2/articlesearch.json?'.
  'fl=headline,keywords,lead_paragraph&fq=web_url:%22'.$url.'%22&api-key='.$nytKey;
$curl = curl_init();
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_URL,$curl_dest);
$result = json_decode(curl_exec($curl));
echo $result->response->docs[0]->headline->main.'<br />'.'<br />';
echo $result->response->docs[0]->lead_paragraph.'<br />'.'<br />';
foreach ($result->response->docs[0]->keywords as $k) {
  echo $k->value.'<br/>';
}

这是它为这篇文章展示的内容:

Polar Bears’ Path to Decline Runs Through Alaskan Village

The bears that come here are climate refugees, on land because
the sea ice they rely on for hunting seals is receding.

Polar Bears
Greenhouse Gas Emissions
Alaska
Global Warming
Endangered and Extinct Species
International Union for Conservation of Nature
National Snow and Ice Data Center
Polar Bears International
United States Geological Survey

希望这开始扩展您对如何使用这些 API 的想象。现在可能发生的事情非常令人高兴。

结束时

New York Times API 非常有用,我很高兴看到他们将它提供给开发者社区。通过 GitHub 获得如此快速的 API 支持也令人耳目一新——我只是没想到会这样。请记住, 它适用于非商业项目如果您有一些赚钱的想法,请给他们发一封信,看看他们是否会与您合作。出版商渴望新的收入来源。

我希望您发现这些网络抓取片段很有帮助,并将它们用于您的项目中。如果您想观看今天的剧集,您可以在我的网站Active Together上尝试一些网络抓取。


文章目录
  • 介绍
  • 入门
    • 注册 API 密钥
  • 探索纽约时报 API
  • 使用文章搜索
  • 结束时