产品功能

应用市场介绍

这是一款基于langchain+langgraph+rag+llamaIndex+skill+llm+MLLM技术栈,具有视频理解能力的多模态AI agent APP。

曾经有一位朋友和我说,他说:“某个人对在看视频监控的回放录像时,总是能够捕捉到细节,总是能够在看似相同特征的人物或物品中发现不一样的特征,为什么他能够做到这样,而其他人却不行,我想知道差别在哪里?这样的人才为什么不用呢?”
我没有反驳我这位朋友,但我心里的答案已经很清楚了,因为你们的思维都停留在上个世纪,以数字信息化技术产业为基石,人工智能技术为前驱的21世纪是依靠数字算力去推动社会发展的,而不是人力。
如果每个视频分析工作者,每种不同业务的视频工作,没次视频分析工作都要依靠人眼去识别,那么我告诉大家,人眼是会有很大误差的,也会疲倦,更需要耗费大量的人力和时间去完成视频工作。
全世界各行各业对视频分析、处理、以及加工的行业和岗位,小至民间、广至行业、深至生态领域、大至国家支柱,其覆盖面的广度和深度是我们无法想像的。当我们还在用人力去处理,去辨别视频资料时,在如今的大数据时代,当大量的非结构化视频数据向我们迎面扑来的时候,当我们感到疲惫、耗时、再也无力以长时间的人眼精确的捕捉视频中细节的时候。
Whatshappend APP 就这样诞生了,它用21世纪最先进的数字化技术通过计算机来高效率的告诉我们,视频里究竟发生了什么! Whatshappend APP是一款以21世纪数字信息化技术之一的移动应用软件开发为基石,以21世纪人工智能前驱技术agent 架构LLM+Langchain+Langgraph+rag+LlamaIndex+skill+MLLM为技术栈的视频分析应用。
用户上传视频后,通过qwen3-asr-flash-realtime将用户输入的语音转换成文字显示在对话页面,让agent通过deepseek-v3.2-thinking大模型去理解语意。
它根据用户的问题和需求,使用阿里qwen3-vl-plus大模型去分析视频元素,使用yolo12深度学习模型去分析物品和人物姿态,通过qwen3-tts-instruct-flash-realtime转换成语音输出。使用4款大语言模型及1款深度学习模型,以应用软件的形式,完成了从人回看、分析大量、以及长时间的视频,到计算机帮助人类去分析视频数据的数智转型和产业变革。

收起

用户评价

立即分享产品体验

你的真实体验,为其他用户提供宝贵参考

宝石
评论可得 100 宝石
宝石随心兑换应用高级会员,每周更新 前往查看 >>
活动动态 0 人参加
查看更多评论