YouTube自助下单网站--youtube最新新闻
不论你是想在某一的 YouTube 电视频道上展开预测,却是只想练互联网食腐专业技能,责任编辑都将协助你同时实现这三个最终目标。
虽然 Youtube 不能一场读取大部份文章,因而你须要慢速到网页顶部就可以读取更多文章。所以,我的设想是采用Selenium来智能化那个操作过程。
就要采用 selenium 来撰写两个JAVA,该JAVA将:
1、慢速至网页顶部
2、截取新读取的注解
3、在可以慢速的情况下重复该操作过程
之后,我将采用Pandas将截取到的数据存储在Dataframe中。
如果要安装这些包,还须要运行后续命令。
让我们从导入库开始,读取Selenium的 chrome 驱动程序,并初始化变量。
为了理解创建这些变量的目的,我留下了一些注解。
每次慢速到网页顶部,Youtube 都会读取 20 条新文章。因而,我们要做的是创建两个函数来定位大部份文章,并仅截取最后 20 条文章,以避免创建重复项,减慢JAVA的速度。
此函数将查找文章部分中的大部份用户名和大部份文章,并且它将仅选择最后 20 条文章和用户名。之后,我们将循环查看最后 20 条文章和用户名,创建两个存储用户名和文章的字典,并将其附加到列表中。最后,函数将返回包含最后 20 条文章的列表。
接下来我们要做的是创建两个 while 循环,该循环将一直慢速,直到它到达网页顶部,并在每次慢速时截取最后 20 条文章。数据预测优质社群,等你加入哦~
之后,我将网页上的新位置保存在new_height变量中,然后将网页上的新位置与网页上的最后两个位置展开比较。这样做是为了检查我们的JAVA是否仍在读取新文章或已到达网页顶部。一旦它到达网页顶部,我就通过将慢速变量设置为False来中断while 循环。
我们现在要做的就是将大部份数据存储在Pandas Dataframe中。
以上就是采用Selenium智能化截取内容的两个简单例子。我们还可以采用自然语言处理技术来预测和理解人们的情绪以及人们在文章中所说的内容,或者你可以尝试将这些文章分类为真实的文章和垃圾文章。
须要完整代码的可以在文章区留言或者后台私信我们。