logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Transformer 推理加速实战:ONNX、TensorRT、vLLM 哪个更快?

本文介绍了三种主流的Transformer推理加速方案(ONNX、TensorRT、vLLM),通过对比测试分析其适用场景。ONNX轻量通用但缺乏动态生成支持;TensorRT在NVIDIA设备上性能最优但部署复杂;vLLM专为LLM优化,支持高并发且性能卓越。测试显示vLLM吞吐量最高达1600+ token/s,TensorRT次之,ONNX适合小模型及边缘设备。根据需求推荐:轻量级选ONNX

文章图片
#transformer#深度学习#人工智能
2025爬虫合规红线:Cloudflare新政下,AI爬虫合法采集的3个关键原则(附违规案例与合规工具)

2025年的爬虫对抗,已从“技术攻防”升级为“规则博弈”。Cloudflare新政的核心不是禁止爬虫,而是规范爬虫行为——AI爬虫的精准提取能力、动态适配能力,本应成为合规采集的优势(减少无效请求、精准过滤敏感数据),而非规避规则的工具。记住:合法采集的核心是“与网站共赢”——既满足自身数据需求,又不影响网站正常运营,不侵犯数据权属。做到这一点,即使面对最严格的反爬措施,也能保持长期稳定的数据采集

文章图片
#爬虫#人工智能#c++ +3
第37天:Python数据结构算法:链表与树

本文介绍了链表和树两种基础数据结构。链表是一种线性结构,包含单向、双向和循环链表,适用于动态数据集合和内存管理;树是一种层次结构,包括二叉树、平衡二叉树和二叉搜索树,适用于层级数据存储。文章分别用Python实现了链表和二叉树的插入、删除、查找等操作,并分析了时间复杂度。最后对比了两种结构的特性,并提出了用链表管理任务顺序、用树快速查找任务的应用示例。

文章图片
#python#数据结构#算法
基于 YOLOv8 和 PyTorch 的人体坐姿检测系统实战:深度学习与可视化技术全解析

摘要:本文提出了一种基于YOLOv8和PyTorch的实时人体坐姿检测系统,旨在帮助用户纠正不良坐姿以减少健康问题。系统通过摄像头采集视频流,利用YOLOv8模型识别人体关键点,分析坐姿状态,并实时反馈检测结果。文章详细介绍了技术挑战、应用场景、系统架构及实现步骤,包括数据采集、姿态检测、数据处理与可视化展示等模块。该系统可广泛应用于办公、教育和老年人健康管理等领域,未来可通过模型优化和多摄像头支

文章图片
#深度学习#pytorch#python
Firecrawl智能解析实战:AI自动识别网页结构,彻底告别CSS选择器维护噩梦(附电商/新闻/评论解析案例)

当自动识别的字段不够精确(如需要提取“产品保修期”“新闻来源媒体”),可通过custom模式定义提取规则,让AI按你的需求定位元素。# 自定义提取规则:告诉AI需要提取哪些字段"name": "warranty", # 字段名:保修期"description": "产品的保修期限,如'3年保修'、'整机1年,核心部件3年'" # 详细描述(关键)},"name": "afterSales", #

文章图片
#人工智能#css#前端 +4
2025浏览器指纹绕坑指南:从Selenium到Playwright,防检测配置让爬虫伪装率达99%(附指纹检测工具)

浏览器指纹伪装的核心不是“完美模仿某一个用户”,而是“让自己的指纹落在真实用户指纹分布的主流区间”。比如90%的真实用户使用Chrome 124、时区Asia/Shanghai、Canvas指纹带轻微扰动,那么你的爬虫也应落在这个区间内。2025年的反爬已进入“概率判定”时代——网站不会因单一指纹异常封你,但会通过几十项特征的“异常概率总和”来决策。与其追求“100%逼真”,不如确保“没有明显异常

文章图片
#selenium#爬虫#测试工具 +3
别再用requests爬了!aiohttp+asyncio实战:从同步阻塞到异步并发,效率提升6.6倍的底层逻辑

异步虽好,但不是银弹。请求量少(<10个):异步的启动开销(事件循环初始化)可能比同步还大;CPU密集型任务:比如爬取后需要复杂计算(解析大量数据),异步无法利用多核,此时用多进程更合适;目标网站反爬极严:需要严格控制请求间隔(10秒/次),异步的并发优势体现不出来。但只要是IO密集型、请求量大(>50个)的爬虫(比如爬电商商品列表、新闻聚合页),aiohttp+asyncio就是最优解——这也是

文章图片
#php#开发语言#python +2
爬了10万条数据一半是垃圾?用Transformers自动清洗,效率直接翻6倍(附实战案例)

以前数据清洗是“体力活”——盯着屏幕删重复、改格式;现在用Transformers,机器搞定80%的重复和噪声,人只需要处理剩下20%的复杂案例(如语义模糊的边界数据)。这不是说AI能解决所有问题,而是它把我们从机械劳动中解放出来,去做规则设计、模型调优这种更有价值的事。2025年的爬虫工程师,早就不拼“能写多少正则”,而是拼“能用AI解决多少清洗难题”。就像我朋友说的:“以前3天清洗10万条,现

文章图片
#爬虫#python#开发语言 +2
告别XPath地狱!用Crawl4ai+LLM做爬虫,页面结构变了也不怕(附实战案例)

传统爬虫是“按图索骥”,AI爬虫是“按意索骥”——前者依赖页面的“形”(标签、结构),后者理解页面的“意”(内容、语义)。新手门槛降低了:不会写XPath也能爬数据,懂自然语言就行;维护成本锐减了:页面小改不用动代码,调整prompt即可;适用范围拓宽了:从结构化表格到非结构化文本,都能提取。当然,AI不是万能的,复杂反爬、极致性能场景还是需要传统技术兜底。但对80%的爬虫需求来说,Crawl4a

文章图片
#爬虫#python#开发语言
2025小红书爬虫还能活?破解x-s签名+动态Cookie,亲测爬1000条笔记零封禁(附逆向全过程)

上周帮美妆行业的朋友爬小红书“口红推荐”笔记,刚发30个请求就被403,抓包一看x-s签名不对;换Cookie继续爬,爬50条又被封——小红书的反爬这两年简直是“地狱模式”:动态Cookie每10分钟过期,x-s签名算法季度更新,连请求头的User-Agent顺序错了都会被拦。。这篇文章不藏私,把逆向x-s签名的全过程、动态Cookie的维护技巧、1000条稳定爬取的实战代码全给你,连我踩过的8个

文章图片
#爬虫#windows#开发语言 +1
    共 50 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择