shanwei_spider 个人主页

@shanwei_spider

shanwei_spider

2025-06-16 23:01:34 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Transformer 推理加速实战：ONNX、TensorRT、vLLM 哪个更快？

本文介绍了三种主流的Transformer推理加速方案（ONNX、TensorRT、vLLM），通过对比测试分析其适用场景。ONNX轻量通用但缺乏动态生成支持；TensorRT在NVIDIA设备上性能最优但部署复杂；vLLM专为LLM优化，支持高并发且性能卓越。测试显示vLLM吞吐量最高达1600+ token/s，TensorRT次之，ONNX适合小模型及边缘设备。根据需求推荐：轻量级选ONNX

#transformer #深度学习 #人工智能

2025爬虫合规红线：Cloudflare新政下，AI爬虫合法采集的3个关键原则（附违规案例与合规工具）

2025年的爬虫对抗，已从“技术攻防”升级为“规则博弈”。Cloudflare新政的核心不是禁止爬虫，而是规范爬虫行为——AI爬虫的精准提取能力、动态适配能力，本应成为合规采集的优势（减少无效请求、精准过滤敏感数据），而非规避规则的工具。记住：合法采集的核心是“与网站共赢”——既满足自身数据需求，又不影响网站正常运营，不侵犯数据权属。做到这一点，即使面对最严格的反爬措施，也能保持长期稳定的数据采集

#爬虫 #人工智能 #c++ +3

第37天：Python数据结构算法：链表与树

本文介绍了链表和树两种基础数据结构。链表是一种线性结构，包含单向、双向和循环链表，适用于动态数据集合和内存管理；树是一种层次结构，包括二叉树、平衡二叉树和二叉搜索树，适用于层级数据存储。文章分别用Python实现了链表和二叉树的插入、删除、查找等操作，并分析了时间复杂度。最后对比了两种结构的特性，并提出了用链表管理任务顺序、用树快速查找任务的应用示例。

#python #数据结构 #算法

基于 YOLOv8 和 PyTorch 的人体坐姿检测系统实战：深度学习与可视化技术全解析

摘要：本文提出了一种基于YOLOv8和PyTorch的实时人体坐姿检测系统，旨在帮助用户纠正不良坐姿以减少健康问题。系统通过摄像头采集视频流，利用YOLOv8模型识别人体关键点，分析坐姿状态，并实时反馈检测结果。文章详细介绍了技术挑战、应用场景、系统架构及实现步骤，包括数据采集、姿态检测、数据处理与可视化展示等模块。该系统可广泛应用于办公、教育和老年人健康管理等领域，未来可通过模型优化和多摄像头支

#深度学习 #pytorch #python

Firecrawl智能解析实战：AI自动识别网页结构，彻底告别CSS选择器维护噩梦（附电商/新闻/评论解析案例）

当自动识别的字段不够精确（如需要提取“产品保修期”“新闻来源媒体”），可通过custom模式定义提取规则，让AI按你的需求定位元素。# 自定义提取规则：告诉AI需要提取哪些字段"name": "warranty", # 字段名：保修期"description": "产品的保修期限，如'3年保修'、'整机1年，核心部件3年'" # 详细描述（关键）},"name": "afterSales", #

#人工智能 #css #前端 +4

2025浏览器指纹绕坑指南：从Selenium到Playwright，防检测配置让爬虫伪装率达99%（附指纹检测工具）

浏览器指纹伪装的核心不是“完美模仿某一个用户”，而是“让自己的指纹落在真实用户指纹分布的主流区间”。比如90%的真实用户使用Chrome 124、时区Asia/Shanghai、Canvas指纹带轻微扰动，那么你的爬虫也应落在这个区间内。2025年的反爬已进入“概率判定”时代——网站不会因单一指纹异常封你，但会通过几十项特征的“异常概率总和”来决策。与其追求“100%逼真”，不如确保“没有明显异常

#selenium #爬虫 #测试工具 +3

别再用requests爬了！aiohttp+asyncio实战：从同步阻塞到异步并发，效率提升6.6倍的底层逻辑

异步虽好，但不是银弹。请求量少（<10个）：异步的启动开销（事件循环初始化）可能比同步还大；CPU密集型任务：比如爬取后需要复杂计算（解析大量数据），异步无法利用多核，此时用多进程更合适；目标网站反爬极严：需要严格控制请求间隔（10秒/次），异步的并发优势体现不出来。但只要是IO密集型、请求量大（>50个）的爬虫（比如爬电商商品列表、新闻聚合页），aiohttp+asyncio就是最优解——这也是

#php #开发语言 #python +2

爬了10万条数据一半是垃圾？用Transformers自动清洗，效率直接翻6倍（附实战案例）

以前数据清洗是“体力活”——盯着屏幕删重复、改格式；现在用Transformers，机器搞定80%的重复和噪声，人只需要处理剩下20%的复杂案例（如语义模糊的边界数据）。这不是说AI能解决所有问题，而是它把我们从机械劳动中解放出来，去做规则设计、模型调优这种更有价值的事。2025年的爬虫工程师，早就不拼“能写多少正则”，而是拼“能用AI解决多少清洗难题”。就像我朋友说的：“以前3天清洗10万条，现

#爬虫 #python #开发语言 +2

告别XPath地狱！用Crawl4ai+LLM做爬虫，页面结构变了也不怕（附实战案例）

传统爬虫是“按图索骥”，AI爬虫是“按意索骥”——前者依赖页面的“形”（标签、结构），后者理解页面的“意”（内容、语义）。新手门槛降低了：不会写XPath也能爬数据，懂自然语言就行；维护成本锐减了：页面小改不用动代码，调整prompt即可；适用范围拓宽了：从结构化表格到非结构化文本，都能提取。当然，AI不是万能的，复杂反爬、极致性能场景还是需要传统技术兜底。但对80%的爬虫需求来说，Crawl4a

#爬虫 #python #开发语言

2025小红书爬虫还能活？破解x-s签名+动态Cookie，亲测爬1000条笔记零封禁（附逆向全过程）

上周帮美妆行业的朋友爬小红书“口红推荐”笔记，刚发30个请求就被403，抓包一看x-s签名不对；换Cookie继续爬，爬50条又被封——小红书的反爬这两年简直是“地狱模式”：动态Cookie每10分钟过期，x-s签名算法季度更新，连请求头的User-Agent顺序错了都会被拦。。这篇文章不藏私，把逆向x-s签名的全过程、动态Cookie的维护技巧、1000条稳定爬取的实战代码全给你，连我踩过的8个

#爬虫 #windows #开发语言 +1

共 50 条

请选择