书籍介绍
本书将教会你如何获取、分析和汇总散落于社交网站的数据,涉及Facebook、Twitter、Linkedin、Google+、GitHub、邮件、网站和博客等。涉及的内容包括:借助IPython Notebook、自然语言工具包、NetworkX和其他科学计算工具挖掘主流社交网站;使用高级文本挖掘技术如聚类和TF-IDF来提取人类语言数据中有价值的知识;通过发现GitHub上人、编程语言和代码工程间的亲密性,构建兴趣图谱;利用D3.js进行交互式可视化,充分发挥HTML5和JavaScript工具包的灵活特性;利用几十份Twitter代码方案的优势,深入挖掘O’Reilly公司流行的“问题、解决方案与讨论”实用指南格式。