1. Blealtan/efficient-kan
- 截止发稿星数: 1731
- 仓库语言: Python
- 仓库地址:https://github.com/Blealtan/efficient-kan
本仓库提供了一个高效的Kolmogorov-Arnold网络(KAN)实现。KAN是一种神经网络模型,其原始实现可在KindXiaoming的pykan仓库中找到。原始实现的主要性能瓶颈在于需要将所有中间变量扩展以执行不同的激活函数。例如,对于具有
in_features
输入和out_features
输出的层,原始实现需要将输入扩展为一个形状为(batch_size, out_features, in_features)
的张量。然而,所有激活函数都是一组固定基函数的线性组合,这些基函数是B样条。因此,我们可以重新构造计算过程,即用不同的基函数激活输入,然后线性组合它们。这种重新构造可以显著降低内存成本,并将计算简化为直接的矩阵乘法,同时自然地适用于前向和反向传播。
在KAN的解释性方面,稀疏化被认为是关键的。原始实现中提出了基于输入样本的L1正则化,这需要在(batch_size, out_features, in_features)
张量上进行非线性操作,因此与重新构造不兼容。本实现用更常见的神经网络权重L1正则化替换了这种正则化,这种正则化与重新构造兼容。原始实现确实包含了这种类型的正则化,因此可能会有所帮助。更多的实验需要验证这一点,但至少原始方法在追求效率时是不可行的。
另一个区别是,除了可学习的激活函数(B样条),原始实现还包括每个激活函数的可学习尺度。本实现提供了一个名为enable_standalone_scale_spline
的选项,默认设置为True
,以包含此功能;禁用它将使模型更高效,但可能会影响结果。这需要更多的实验。
2024年5月4日的更新中,xiaol暗示base_weight
参数的常数初始化可能是MNIST上的一个问题。目前,我已经将base_weight
和spline_scaler
矩阵都初始化为kaiming_uniform_
,遵循nn.Linear
的初始化。这在MNIST上似乎效果好得多(从约20%提高到约97%),但我不确定这在一般情况下是否是一个好主意。
2. HVision-NKU/StoryDiffusion
- 截止发稿星数: 2949
- 仓库语言: Jupyter Notebook
- 仓库开源协议:Apache License 2.0
- 仓库地址:https://github.com/HVision-NKU/StoryDiffusion
StoryDiffusion是一个创新的图像和视频生成项目,它通过一致的自注意力机制实现了长距离序列上的角色一致性图像生成,并且能够预测长距离视频生成中的运动。该项目的主要特点包括:一是通过一致的自注意力模块,可以与所有SD1.5和SDXL基础的图像扩散模型兼容,用户只需提供至少3个文本提示即可生成连贯的图像;二是通过运动预测器在压缩图像语义空间中预测条件图像之间的运动,实现更大的运动预测。
项目提供了多种生成示例,包括漫画生成和图像到视频的生成。通过一致的自注意力机制生成的图像可以进一步扩展为视频,实现两阶段的长视频生成。此外,用户可以通过提供一系列用户输入的条件图像来生成视频。项目还提供了使用jupyter notebook和本地gradio demo两种方式来生成漫画。
StoryDiffusion的更新历史、依赖安装、使用方法以及联系方式都在README文件中详细说明。项目鼓励用户通过Discord进行结果分享和讨论,以及代码库和部署相关的讨论。开发者强调,虽然用户可以自由使用该工具创建图像和视频,但应遵守当地法律并负责任地使用,开发者不对用户的潜在滥用行为负责。如果该项目对研究或应用有帮助,建议通过提供的BibTeX进行引用。
3. wandb/openui
- 截止发稿星数: 11120
- 仓库语言: TypeScript
- 仓库开源协议:Apache License 2.0
- 仓库地址:https://github.com/wandb/openui
OpenUI是一个旨在简化UI组件构建过程的开源工具,它使得创建UI组件变得既快速又有趣,同时提供了灵活性。该工具由W&B团队开发,用于测试和原型化下一代基于LLM(大型语言模型)的强大应用程序构建工具。OpenUI的核心功能在于允许用户通过想象力描述UI,并实时渲染出来,用户还可以请求更改,并能够将HTML转换为React、Svelte、Web组件等。虽然它类似于v0.dev,但作为开源项目,它可能没有那么精致。
OpenUI提供了一个在线演示,用户可以尝试其功能。此外,用户还可以在本地运行OpenUI,并使用Ollama提供的模型。安装Ollama并拉取如CodeLlama等模型后,用户可以通过简单的命令在本地运行OpenUI。对于希望使用Docker Compose或Docker的用户,OpenUI也提供了相应的指南,尽管需要注意的是,这可能会比较慢,特别是在没有GPU支持的情况下。
在开发方面,OpenUI仓库配置了一个开发容器,这是开始开发的最快方式。此外,GitHub Codespaces也被支持,用户可以在Codespaces中运行服务器和前端服务,实现自动重载和浏览器中的实时反映。Codespaces还自动安装了Ollama,并下载了llava模型,用户可以通过设置选择不同的Ollama模型。
总的来说,OpenUI是一个强大的开源工具,它通过提供直观的UI描述和实时渲染功能,极大地简化了UI组件的构建过程,同时也为开发者提供了灵活的本地运行和开发选项。
4. AtotheY/saas-landingpage
- 截止发稿星数: 473
- 仓库语言: TypeScript
- 仓库开源协议:MIT License
- 仓库地址:https://github.com/AtotheY/saas-landingpage
在GitHub上,Anthony Sistilli创建了一个专为技术创始人节省时间的SaaS项目模板,旨在提供一个快速启动点,以便创始人能够专注于产品构建和用户沟通。该模板基于Next 14(NextJS + React)构建,UI组件使用shadcn,这是一个轻量级且易于编辑的组件库,底层使用tailwindcss。模板中包含了一些自定义的ESLint配置和设计决策,以及用于灵感启发的示例着陆页。
使用该模板时,用户需要替换网站上的图片、文案、服务条款和隐私政策等内容,以确保网站的独特性。此外,用户还需根据自己的需求替换主题、SEO元数据和链接等。对于希望从该仓库构建完整SaaS的用户,建议进一步设置环境变量、创建登录/注册逻辑、添加组件等。
该模板的设计文件可在Figma上找到,方便用户进行设计上的调整。部署方面,推荐使用Vercel平台,该平台提供了详细的部署文档,使得部署过程简单明了。
社区方面,用户可以加入Tech Founder’s Discord,与创始人交流。此外,Anthony Sistilli还提供了其他社交媒体链接,供用户订阅和了解更多关于创业、编程等内容。
对于贡献者,该仓库欢迎任何建议或更改,并鼓励通过创建Pull Request来参与贡献。
5. VinciGit00/Scrapegraph-ai
- 截止发稿星数: 3436
- 仓库语言: Python
- 仓库开源协议:MIT License
- 仓库地址:https://github.com/VinciGit00/Scrapegraph-ai
ScrapeGraphAI,一款基于Python的网页爬虫库,巧妙融合了大型语言模型(LLM)与直接图逻辑,旨在为用户提供高效、智能的网页、文档及XML文件信息提取解决方案。用户只需指定所需信息,该库即能自动构建爬虫管道,完成数据抓取任务。安装简便,通过pip命令即可完成,同时建议在虚拟环境中进行安装以避免与其他库冲突。库内置多种模型支持,包括Ollama、Docker、Openai、Groq、Azure和Gemini等,用户可根据需求选择合适的模型进行信息提取。此外,ScrapeGraphAI还提供了官方的Streamlit演示和Google Colab在线试用,方便用户快速上手。详细的文档和使用案例可在官方文档中找到,同时,项目鼓励社区贡献,欢迎开发者加入Discord服务器讨论改进建议。ScrapeGraphAI遵循MIT许可证,旨在为数据探索和研究提供帮助,项目团队对所有贡献者和开源社区的支持表示感谢。
6. rasbt/LLMs-from-scratch
- 截止发稿星数: 15822
- 仓库语言: Jupyter Notebook
- 仓库开源协议:Other
- 仓库地址:https://github.com/rasbt/LLMs-from-scratch
本仓库为书籍《Build a Large Language Model (From Scratch)》的官方代码库,旨在指导读者从零开始构建自己的大型语言模型(LLM)。书中详细介绍了LLM的工作原理,并通过逐步指导,帮助读者理解并实现GPT类模型的编码、预训练和微调。代码库包含了各章节的主要代码和补充材料,旨在为教育目的提供一个小型但功能齐全的模型,其开发方法与创建大规模基础模型(如ChatGPT背后的模型)的方法相似。硬件要求方面,代码设计为在常规笔记本电脑上运行,无需特殊硬件,且代码会自动利用GPU(如果可用)。此外,仓库还提供了一些额外的材料,如Python设置技巧、库安装指南、Docker环境设置等,以供有兴趣的读者深入学习。
7. Stirling-Tools/Stirling-PDF
- 截止发稿星数: 25008
- 仓库语言: Java
- 仓库开源协议:GNU General Public License v3.0
- 仓库地址:https://github.com/Stirling-Tools/Stirling-PDF
Stirling-PDF是一个基于Docker的本地托管Web应用程序,专为PDF文件处理而设计。它提供了一系列功能,包括PDF文件的拆分、合并、转换、重新排序、添加图像、旋转、压缩等。该工具不进行任何外向调用,确保用户数据的安全性。所有文件操作均在客户端完成,或在服务器内存中短暂处理,确保用户下载文件后,服务器上的文件即被删除。
Stirling-PDF支持暗模式,提供自定义下载选项,支持并行文件处理和下载,以及API集成外部脚本。PDF处理功能包括页面操作、转换操作、安全与权限设置以及其他操作,如添加签名、修复PDF、检测并移除空白页、比较两个PDF文件的差异等。
该工具使用Spring Boot和Thymeleaf作为后端,PDFBox、LibreOffice和OcrMyPdf等库进行PDF处理,以及Docker容器化部署。用户可以通过本地运行指南或Docker/Podman进行部署。Stirling-PDF提供两种版本:完整版和超轻版,用户可根据需求选择。
Stirling-PDF支持27种语言,包括英语、德语、法语、西班牙语等,每种语言的支持程度不同。用户可以通过贡献指南参与翻译、修复错误等工作。此外,Stirling-PDF允许用户自定义应用程序,包括名称、口号、图标、HTML、图像、CSS等,通过文件覆盖实现。
API文档可供希望使用Stirling-PDF后端API的用户参考,而登录认证功能则需要用户在Docker环境中设置相应的安全参数。FAQ部分解答了用户可能遇到的问题,如应用下载.htm文件的问题和下载超时问题。
总之,Stirling-PDF是一个功能全面、易于部署和自定义的PDF处理工具,适用于需要高效处理PDF文件的个人和企业用户。
8. xM4ddy/OFGB
- 截止发稿星数: 4027
- 仓库语言: C#
- 仓库开源协议:The Unlicense
- 仓库地址:https://github.com/xM4ddy/OFGB
OFGB(Oh Frick Go Back)是一款专为Windows 11用户设计的图形用户界面工具,旨在帮助用户移除系统中的广告。该工具通过修改Windows注册表来实现广告的屏蔽,其核心功能和灵感来源于Shawn Brink的脚本,同时借鉴了Aldaviva的DarkNet项目的主题设计。OFGB采用C#语言编写,并利用WPF技术构建用户界面。用户可以通过克隆GitHub仓库并在Visual Studio中打开OFGB.sln解决方案来构建该工具,或者直接从GitHub的最新发布版本中下载。如果在使用过程中遇到任何问题或错误,用户可以创建GitHub问题来报告,同时也可以参与GitHub讨论,为添加新的注册表键值或其他相关功能提供建议。开发者强调,OFGB仅在GitHub上分享,建议用户仅从GitHub下载以确保软件的安全性。此外,开发者还幽默地建议,如果用户希望避免Windows广告的困扰,可以尝试使用Linux操作系统。
9. assafelovic/gpt-researcher
- 截止发稿星数: 9397
- 仓库语言: Python
- 仓库开源协议:MIT License
- 仓库地址:https://github.com/assafelovic/gpt-researcher
GPT Researcher是一款自主研发的在线研究任务代理工具,旨在通过人工智能技术为用户提供详尽、客观且无偏见的信息报告。该工具借鉴了Plan-and-Solve和RAG等前沿论文的理念,通过并行化代理工作流程,提高了研究任务的执行速度和可靠性。GPT Researcher的核心使命是利用AI的力量,为个人和组织提供准确、无偏见的事实信息。它能够快速生成详细的研究报告,涵盖超过20个网络资源,以形成客观和基于事实的结论。此外,它还提供了一个易于使用的网页界面,并支持将研究报告导出为PDF、Word等多种格式。GPT Researcher通过规划者和执行者代理的协作,利用gpt3.5-turbo和gpt-4-turbo模型完成研究任务,平均耗时约3分钟,成本约为0.1美元。该项目欢迎社区贡献,并提供了详细的安装和使用教程,以及完整的API文档。用户可以通过Docker、Poetry或虚拟环境快速上手,并通过Discord社区获得支持。需要注意的是,GPT-4语言模型的使用可能会产生较高的成本,用户需自行监控和管理API使用情况。
暂无评论内容