面对twitter的网络爬虫的一些设计思路（1）

unbounder

浏览: 171674 次
性别:
来自: 北京

最近访客更多访客>>

eplang

huaairen

NullMoneyException

bogeit

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

Twitter 网络协议 json 数据挖掘 GAE

正在做关于twitter的数据挖掘的研究，先期需要获取一定量的数据，尝试做了一个小的爬虫。
几个碰到的问题和自己的解决思路,和大家交流一下，第一次先谈谈一些基本问题

1 由于众所皆知的原因，twitter不能直接访问

解决方法无外乎代理。笔者尝试过利用gae假设一个api的方法，但是速度并不理想，如今使用puff做代理直接访问，这个软件会在本机1984端口设立代理
基于httpclient的简单代码如下：

		HttpClient client = new HttpClient();
		client.getHostConfiguration().setProxy("127.0.0.1", 1984);
		client.getParams().setAuthenticationPreemptive(true);

2 选择爬取对象

常规意义的爬虫是面对网页的爬取，不过twitter由于其api的开放性，完全可以面对api来做爬取。这样做的好处很多，不用抽取网页内容、每次请求的http包长度减小，当然，twitter对于api的使用是有一定限制的，官方文档里提及每小时只能请求150次，这个对于高性能的爬虫来说是一个很致命的缺点。对于这点，笔者打算采取分布式架构，从多个客户端去爬取信息，虽然每个爬虫的爬取速度受限，但数量多了，应该能满足要求。

3 获取好友列表

twitter官网的api文档给定了请求response的格式分为xml、json、rss三种，这里笔者选用了json。
对于单一用户的好友，有两种请求方法
http://twitter.com/statuses/friends.json?screen_name=xxx
http://twitter.com/statuses/friends/xxx.json?cursor=-1
前者请求前100个好友，返回jsonarray
而后者则采用分页方式请求，返回jsonobject,其中cursor是请求的起始标志位，在回复的json中会有next_cursor_str这一属性表示下一次分页请求的起始标志位，当这一属性为0，表示好友已经请求完了。

附上获取全部friends的简单代码

	String pageString = "http://twitter.com/statuses/friends/xxx.json?cursor=";
List<String> friendsList = new ArrayList<String>(200);
	private void getList(String str) {
		GetMethod get = new GetMethod(pageString + str);
		try {
			client.executeMethod(get);
			String responseString = get.getResponseBodyAsString();
			JSONObject object;
			JSONArray array;
			object = JSONObject.fromObject(responseString);
			array = object.getJSONArray("users");
			String crusor = object.getString("next_cursor_str");
			for (int i = 0; i < array.size(); i++) {
				object = array.getJSONObject(i);
				friendsList.add(object.getString("screen_name"));
				// System.out.println(object.getString("id"));
			}
			if (!crusor.equals("0")) {
				getList(crusor);
			}
		} catch (HttpException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}

其中用到了json-lib这个json解析库，效率、便捷性方面都有缺陷，后期再找寻替代品。

4 获取特定好友的time_line

关于这个需求，api的基本限制是最多只能获取单一用户的前3200条twitter，当然对于以获取研究数据为目的的简单爬虫来说已经够用了。

基本请求格式为
http://twitter.com/statuses/user_timeline/xxx.json?page=x&count=x
其中count最多为200，没有标志位，但是可以通过用户状态获取用户的tweet总数，然后知道分页的信息。

简单获取用户time_line的代码

	String stautsString = "http://twitter.com/statuses/user_timeline/xxx.json?count=x&page=x";
	private void getStauts() {
		GetMethod get = new GetMethod(stautsString);
		try {
			client.executeMethod(get);
			String responseString = get.getResponseBodyAsString();
			System.out.println(responseString);

			JSONObject object;
			JSONArray array;
			array = JSONArray.fromObject(responseString);
			System.out.println(array.size());
			for (int i = 0; i < array.size(); i++) {
				object = array.getJSONObject(i);
				System.out.println(object.getString("text"));
			}

		} catch (HttpException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}

11
顶

0
踩

分享到：

关于hashcode | 多线程间通信：多生产者-多消费者实例

2010-01-28 16:36
浏览 8957
评论(5)
分类:编程语言
查看更多

5 楼卡拉阿风 2010-02-02

关于2次抓取怎么设置
例如：好友又有新增的情况下。等等

4 楼 johnson.lee 2010-01-29

看到LZ对json-lib不满意，在下自己实现的JSON API：

Java实现

http://johnson-lee.iteye.com/blog/583287

C#实现

http://johnson-lee.iteye.com/admin/blogs/580780

望LZ指点

3 楼 johnson.lee 2010-01-29

前些日子不久，自己写了个爬虫玩玩，开始用的URL的openConnection方法打开一个连接，然后从getInputStream()读取网页的内容，然后从页面中查找URL，这样就碰到了一个问题：http://johnson-lee.iteye.com/blog/566320，实在是没想出招，没办法只好自己用Socket实现HTTP协议，来读取响应内容。找了个网站实验了一下，不过性能上还是比不了URLConnection，自己用Socket实现的请求与响应，在遇到resion服务器响应完成后，有一段时间阻塞，可能是等待流结束的标记，但是同一个URL，用URLConnection就不会，响应完了就立即断开了，后来反编译rt.jar看看sun的源码，还是没找出原因。而且有些服务器响应的<HTML>...</HTML>内容的上一行和下一行分别有个数字，不知道是怎么回事。但是看HTTP协议规范，没看到响应头和主体内容之间，以及响应内容末尾有数字。

见LZ你研究过爬虫，不知道遇到过这种情况没？

2 楼风小却 2010-01-29

关注后续的数据挖掘部分。

1 楼蜗牛创业网 2010-01-28

呵呵。文字写的不错！

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论