ao3怎么调成中文

写在前面:就在昨天,豆酱的某乎在第二次15天禁言之后,又被有计划的禁言了15天,也就是说截止昨天(2020/3/27),豆酱因为之前的评论已经被禁言过7+15天,并将再加未来15天。可见这个并不是一时

写在前面:

就在昨天,豆酱的某乎在第二次15天禁言之后,又被有计划的禁言了15天,也就是说截止昨天(2020/3/27),豆酱因为之前的评论已经被禁言过7+15天,并将再加未来15天。可见这个并不是一时冲动的行为,而是有计划的。首先我相信某乎的公正性,也感谢做这个事情的人没对我的号做什么。 但是作为对豆酱昨天被禁言的回应,今天我的文章会调整一下。原计划是给大家科普自然语言处理(NLP)和文本分类,但今天我会先放出我B站视频展示的约600篇文章是如何爬取的技术文。

最后我想对那些不喜欢我的人说:我是个技术人,我开始尝试做内容是希望让大家展示好玩的技术,吸引大家学习知识。虽然我写的文章和视频引起了争议,但是我一直希望跟大家讲解的如何获得和爬取数据,如何分析,我的结论是如何获得的,希望大家喜欢这样探讨问题的方法。我虽然有自己的观点,我夫人也喜欢肖战,但我们并不想针对或死磕任何人。 你们正在使用你们所不齿的方法针对我们。 古话有云:己所不欲勿施于人。

文章无图有料,不懂技术的各位也应该仔细瞧瞧。

在之前的文章中,我已经和大家分享了如何直接爬取AO3的文章,那么如何找到文章的关联关系是一件比较头疼的问题。如果自己去写爬虫会比较浪费资源。最省事的方法就是借助搜索引擎进行资料获取。这里,我们就以 lofter 到 AO3 的外链为例。

加载的函数库还是与之前相同,这里我不再复述。

这里和大家科普一下搜索引擎的高级搜索模式,平时大家使用搜索引擎,可能都是一整句话放进去搜索。但实际上搜索引擎是支持一定的高级语法以方便获取到更高级的内容。我们以谷歌为例:

“”精确匹配

使用引号来搜索一个完全匹配的字词或一组字词。在搜索歌词或文学作品中的一段文字时,此选项很实用。建议您只在查找非常确切的字词或词组时使用该功能,否则可能会无意中排除掉有用的搜索结果。

例如“见与不见” 搜索结果精确匹配“见与不见”,不能拆分成“见”与“不见”。

-排除字词

在某个字词前添加短横 (-) 可排除所有包含该字词的搜索结果。

例如:大熊猫 -百科 搜索结果中不出现“百科”

OR选择性字词搜索

例如:奥运会 2014 OR 2018 搜索结果中会出现 “奥运会 2014”或者“奥运会 2018”的结果

site在特定网站或域名中搜索

在搜索中加入“site:”可以限定在某个特定网站中搜索信息

例如:LOFTER site:lofter.com

“site:”后面跟的站点域名,不要带“http://”。site:和站点名之间,不要带空格。

inurl在特定url链接中搜索

在搜索中加入“inurl:”可以限定在网站url链接中搜索网站信息

例如:auto视频教程 inurl:video

搜索词“auto视频教程”是可以出现在网页的任何位置,而“video”则必须出现在网页url中。

ao3怎么调成中文

site:lofter.com inurl:ao3

这条语句的含义是,在 lofter.com 中 搜索 含有 ao3 链接 的结果。这里需要注意,实际搜索过程中,&34; 需要换成该网站的实际域名。这里因为不想透露真实网站地址所以使用了 &34; 替代。

分析url 的思路我在 《我是怎样得到AO3内容的》 有介绍过,这里直接给结论。谷歌的url 由 search?后的内容构成:

hl=en 表示搜索语言为英文

q= 后跟搜索内容

safe= 跟的是是否为安全搜索,这里使用images参数关闭安全搜索也就是可以搜索到不好的信息~

num= 表示每页展示的搜索条数

start= 表示从第几条开始显示,所以翻页的计算方法为 start = page*num

这里说明一下,我确实专门搜索了语言为英文的页面,但搜索引擎的模糊性使得结果依然有大部分是中文文章。但是我可以证明两点:

之前有说在ao3 看英文或学英语是真实的;

我还没有开始做文本分析,但就我看过的几篇英文文章中,以我留过学的经历来衡量,文章中确实含有书本上一般学不到的东西和词汇;【手动狗头】

言归正传看代码:

39;;base_loc += &34;+str(num)base_loc += &34;+str(page*num) #搜索页return base_loc

39;html.parser&39;div&39;id&39;search&39;div&39;class&39;g&39;div&39;class&39;r&39;a&39;href'])return old_list

最后就是判断 lofter 的页面中是否含有 有效的 ao3 链接。按照之前的经验,判定含有 works 的 url 才考虑为有外链文章。但是在后来实践过程中 发现含有 users 的外链也非常有意思,就一并保存了。

注意,目前目前我只是保存了 ao3 用户介绍页(如果有)。并没有进行二次爬取或分析。

另外相比 《我是怎样得到AO3内容的》中的函数,这里进行了优化,当出现“Retry later”时,函数会自动重试,而不会想之前就直接把这一页放过不保存了。

代码中 ao3 站点地址我使用 xxx 代替。

def find_ao3_from_lofter(lofter_url_list,browser,path):for url in lofter_url_list:print(url)dir_name = (url.replace(&34;,&34;).replace(&34;,&34;).replace(&34;,&34;).replace(&34;,&34;))dir_path = os.path.join(path,dir_name)isExists = os.path.exists(dir_path)if isExists:print(&34;)continue34;xxx&34;/works/&34;/users/& 如果url 直接跳转ao3_links.append(currurl)lhtml = &34;else:34;html.parser&34;a&34;rel&34;nofollow&34;href&34;xxx&34;/works/&34;/users/& 判断路径是否存在isExists = os.path.exists(dir_path)34;\n& 遍历ao3链接links_str += work_url + &34;print(os.path.join(dir_path,&34;))fh = open(os.path.join(dir_path,&34;),&34;) 写入内容fh.close()34;lofter.html&34;lofter.html&34;w& 保存页面fh.write(lhtml) 关闭for work_url in ao3_links:browser.get(work_url)if need_agree:try:time.sleep(3)browser.find_element_by_id(&34;).click()time.sleep(1)browser.find_element_by_id(&34;).click()time.sleep(1)need_agree = Falseexcept NoSuchElementException:need_agree = Falsework_html_text = browser.page_source34;https://&34;&34;http://&34;&34;xxx&34;&34;.com/&34;&34;.org/&34;&34;/&34;_&34;.&34;_&34;34;,&34;))work_path = os.path.join(dir_path,work_name + &34;)if (&34;Proceed&39;in work_html_text):34;Proceed&34;Retry later&34;Retry later&34;w& 保存页面fh.write(&34;) 关闭print(&34;)time.sleep(3)browser.get(& 调用Chrome浏览器browser.get(&34;tos_agree&34;accept_tos& 获得页面代码if (&34;Proceed&39;in work_html_text):34;Proceed& if &34; in work_html_text:print(work_path)fh = open(work_path,&34;) 写入内容fh.close() 随机延时return browser

设置起止页

start_p = 0end_p = 4

如果平凡使用谷歌,谷歌会启动防机器人机制,这是函数会暂停等待我人工解锁的。

所以这里我也相当于解释了我为什么没有翻墙,因为如果我使用翻墙软件爬取,是会被谷歌发现并封杀掉的,而如何绕过呢?卖个关子,看看有没有懂行的朋友帮大家解释一下。

c_service = webdriver.chrome.service.Service(&34;)c_service.command_line_args()c_service.start()chrome_options = webdriver.ChromeOptions()39;--proxy-server=socks5://localhost:1080& 调用Chrome浏览器for page in range(start_p,end_p):print(&34; * 30)print(&34; + str(page))print(&34; * 30)google_search_url = make_google_search_url(page)browser.get(google_search_url)html_text = browser.page_source34;Our systems have detected unusual traffic&34;Google Robot!& 获得页面代码auto_quit_cnt += 1if auto_quit_cnt > 30:breakauto_quit_cnt = 0lofter_list = get_url_from_search(html_text)browser = find_ao3_from_lofter(lofter_list,browser,&34;)

写在最后:

关于AO3这个系列,我还剩最后两篇文章:

基于深度学习的 NLP 文本分类器;

基于OpenCV 的图像视频制作.

这个话题做了快一个月了,我希望能够将我想讲的技术安安静静讲完。然后再带着大家探索其他有意思的编程技术,而不是揪着这个话题不放。

所以再次申明,我只是分析 AO3 其他事情我不做探讨和引申,也恳请大家理性思考和探讨。上文中我已经有限扩大了讨论范围。我的下一篇文章会按照我的规划来,我的下一个视频会是另一个好玩的技术。

我也希望即使你不喜欢我,也不要讨厌技术,不要讨厌学习。

在这段时间之前我是没有做Python数据分析的相关知识的;虽然同属深度学习,NLP不是我的专业,所以我也是第一次实践,但是通过这个热点,我收获了很多新知识,也有很多人给我点赞鼓励交流探讨。我收获了很多。

但是。

你收获了什么呢?

上一篇 2022年12月29 22:49
下一篇 2023年01月22 05:01

相关推荐

  • 平板怎么设置动态壁纸

    平板支撑的5种变式1.动态平板支撑训练要领:①双手撑地,收紧核心,背部挺直,全身保持稳定状态;②双手依次屈肘并撑起,使身体在标准平板支撑与直臂支撑动作间依次切换全程尽量减少身体的晃动。训练目的:锻炼核

    2023年02月06 276
  • 绿植怎么养,自己养的绿植心情说说

    春光明媚、莺飞草长,我想要把绿色植物都给“搬”回家!植树节到啦,宅家只需动动手,顷刻打造专属于你的“秘密花园”!打造家居绿色小森林有讲究,一起听听专家怎么说!医学顾问上海市疾病预防控制中心杨思佳、李嘉

    2023年05月26 270
  • 怎样的阳光,AA什么的阳光

    这个冬天,AA什么的阳光,异常寒冷;这个冬天,没有大喜大悲;这个冬天,没有雪中送炭的温暖;这个冬天,没有惊天地泣鬼神的大举;这个冬天,有的只是努力从冷漠中挤出的一丝金光。或许根本不会有人注意到,角落里

    2022年12月26 266
  • 怎样让女朋友开心,女朋友和家里人吵架了怎么安慰她

    如何高贵优雅地哄女朋友开心?在日常人际关系中同样适用的“哄”法,就靠这三步:第一步,表达理解,肯定对方情绪;第二步,付出行动,提供解决办法;第三步,乐观化解,憧憬美好未来。以上这三步,未必需要按部就班

    2022年12月28 299
  • au怎么消除人声,au怎么彻底消除人声

    整理|Just出品|AI科技大本营(ID:rgznai100)疫情期间,在家待着闲来无事,一些技术人员就喜欢以技术的方式找点乐子,顺带赚钱最好了。1、将要去除人声的声音,导入au中。用户在效果里面找到

    2023年01月22 205
  • 怎么盘核桃,核桃盘玩的十大禁忌

    盘文玩核桃,有方法,如何盘出一对晶莹剔透,包浆浑厚的极品文玩核桃?下面的原则很重要:1、选核桃:选皮质好的核桃很关键,这是基础,跟盖房子一样,基础没有打好,白瞎,如何选核桃,笔者另有文章描述;1、揉亮

    2023年02月09 220
  • 破壁机怎么选,几百元的破壁机和几千元区别

    买破壁机,要记住这“3选”,既好用,又不会让你花冤枉钱!很多朋友都会选择购买破壁机,破壁机不仅可以用来制作果汁、豆浆等物品,同时也可以用来打碎花生,豆类等硬物,功能比较多,使用起来也比较方便。在我看来

    2023年02月04 207
  • ps怎么改照片尺寸,ps怎么改照片尺寸为二寸

    修改照片尺寸是一种通过调整照片像素大小来改变图片尺寸的技术操作。调整图片尺寸可以使图片更适合不同的使用需求。不同的应用场景和平台可能需要不同尺寸的图片,比如在社交媒体上发布图片,需要遵循特定的推荐尺寸

    2023年05月31 231
  • 君子兰烂根怎么处理,君子兰只剩下根疙瘩了

    君子兰只剩下根疙瘩了,君子兰是石蒜科君子兰属植物,原产于非洲南部的热带地区。其花如兰,文雅俊秀,既有君子之风姿,又有足以睥睨群花的气质。君子兰优雅高贵是一种高品味的名贵花卉,人们喜欢在家养殖君子,装点

    2023年01月29 207
  • 黄金万年草怎样扦插,剪下来的黄金草能直接扦插吗

    它仿佛路边的一丛野草,金黄中带着些许嫩绿,没有树的伟岸、也没有花的芳香,即使只是不起眼的点缀,剪下来的黄金草能直接扦插吗,依然默默地生长!它就是黄金万年草。,黄金万年草属于景天科景天属多肉植物,也叫黄

    2023年01月07 283
  • 怎么去推广产品,怎么更好的推广产品

    飞瓜快数发布2022年12月19日-12月25日快手直播热门商品排行榜及快手品牌排行榜,实时追踪爆款商品和发现优质品牌。飞瓜快数统计了2022年12月19日-12月25日的热门商品榜:六和美食鸡排、O

    2023年01月11 249
  • vpro键盘灯怎么调,vpro键盘灯怎么关闭

    一款近期以性价比折服所有人的键盘--游戏动力VGNV98Pro,在配置上近乎拉满不说,价格还压到400元左右,对一些中高端Gasket量产键盘越级压制,所以直接卖爆断货……387.5*136.7*41

    2023年02月01 297
  • 次梁加筋怎么设置,广联达主次梁加筋怎么设置

    (1)手动布置的方法以梁为例:场景一:整栋楼全部设置次梁加筋。方法:在工程设置---钢筋设置---计算设置---计算规则---设置次梁两侧共增加箍筋数量,广联达主次梁加筋怎么设置,进行设置即可,如图:

    2023年01月30 265
关注微信