学习使用网页抓取工具 IDE 的最佳实践,包括优化性能、处理错误、管理重试和编写高效的抓取工具代码。
dead_page
condition.navigate
指令时,应添加 dead_page
条件以检查是否未找到该页面。这将防止自动重试。 虽然当响应状态为 404 时,我们会自动处理此问题,但在某些情况下,网站可能会使用其他各种状态代码进行响应:
Here are good and bad practices examples (you can navigate between them by clicking on the “不好” “Good” tabs)
rerun_stage()
rerun_stage()
,而不是从每个页面调用。这使系统能够并行处理请求并提高抓取工具的速度。
close_popup()
to close popupsclose_popup('popup_selector', 'close_button_selector')
关闭弹出窗口。弹出窗口可以随时出现,在大多数情况下,在每个交互指令之前添加验证检查是不可取的。
不好
wait_for_parser_value()
with tag_response()
tag_response
指令并需要确保在从页面采集数据之前完成请求时,应使用 wait_for_parser_value()
:
try-catch
块即可有效地管理潜在的 “空”值 或“未定义”值。
toArray()
和 map()
方法,而非传统的 each()
循环。 这可增强代码的可读性并保持声明样式。