每日Github探索:Microsoft MS-DOS、OpenVoice、CoreNet、Gpt_academic、TagStudio

1. microsoft/MS-DOS

微软的 MS-DOS 仓库包含 MS-DOS v1.25、v2.0 和 v4.0 的源代码和已编译二进制文件。这些源代码和二进制文件最初由计算机历史博物馆于 2014 年 3 月 25 日共享,现在重新在此仓库中发布,以便于查找、在外部书面作品中引用,并允许对早期 PC 操作系统感兴趣的人进行探索和实验。所有文件均根据仓库根目录中存储的许可文件以 MIT 许可证发布。源文件仅供历史参考,因此保持静态,建议不要发送拉取请求来修改源文件。此项目已采用微软开源行为准则。有关详细信息,请参阅行为准则常见问题解答,或将任何其他问题或意见发送至 opencode@microsoft.com。请注意,此项目可能包含项目、产品或服务的商标或徽标。微软商标或徽标的授权使用需遵守微软的商标和品牌准则。修改后的项目中使用微软商标或徽标不得引起混乱或暗示微软赞助。任何第三方商标或徽标的使用都受第三方政策的约束。

2. myshell-ai/OpenVoice

OpenVoice是一款由MyShell推出的即时语音克隆工具,拥有强大的语音克隆功能和灵活的语音风格控制。它可以准确克隆参考语音的音色,并生成多种语言和口音的语音,同时提供对语音风格的细粒度控制,如情绪、口音、节奏、停顿和语调。此外,OpenVoice还支持零样本跨语言语音克隆,既支持生成语音的语言,也支持参考语音的语言不在庞大的多语言训练数据集中。

OpenVoice V2于2024年4月发布,包含V1的所有功能,并进行了以下提升:

  • 音频质量优化:采用不同的训练策略,提供更高质量的音频输出。
  • 原生多语言支持:原生支持英语、西班牙语、法语、中文、日语和韩语。
  • 免费商业使用:从2024年4月起,V2和V1均以MIT许可证发布,免费用于商业用途。

自2023年5月起,OpenVoice已为MyShell提供即时语音克隆功能,截至2023年11月,该语音克隆模型已被全球用户使用数千万次,见证了平台上的用户爆发式增长。

3. apple/corenet

CoreNet 是一個深度神經網路工具包,研究人員和工程師可利用此工具包訓練標準和新穎的小型和大規模模型,以執行多項任務,包括基礎模型(例如 CLIP 和 LLM)、物件分類、物件檢測和語意分割。

CoreNet 專案包含一些重要資料夾,有助於快速入門和存取重要功能:

  • **學習入門:**透過範例了解 CoreNet。
  • **訓練範例:**使用已發表的論文的訓練和評估範例。
  • **MLX 範例:**了解如何在 Apple Silicon 上高效執行 CoreNet 模型。
  • **模型實作:**按任務組織模型類別,例如分類、檢測和語意分割。
  • **資料集:**與模型類型相應的資料集。
  • **其他重要資料夾:**包含 YAML 配置檔案中引用的類別和函式的實作,例如損失函式、指標和最佳化器。

Apple 使用 CoreNet 進行的合作研究包括 OpenELM、CatLIP、MLX 範例、CVNets 等。

4. binary-husky/gpt_academic

GPT 学术优化 (GPT Academic)

GPT Academic是一款为GPT/GLM等LLM大语言模型提供实用化交互接口的工具,同时优化了论文阅读/润色/写作体验。其模块化设计支持自定义快捷按钮和函数插件,并支持Python和C++项目剖析和自译解功能。此外,它还支持PDF/LaTex论文翻译和总结,并可并行问询多种LLM模型,包括chatglm3等本地模型。

主要特性:

  • 接入通义千问、深求码者、讯飞星火、文心一言、llama2、rwkv、claude2、moss等模型
  • 支持mermaid图像渲染,让GPT生成流程图、状态转移图等图像
  • 提供Arxiv论文精细翻译插件
  • 支持实时语音对话输入
  • 自带AutoGen多智能体插件,探索多Agent的智能涌现可能
  • 可自定义快捷键
  • 模块化设计,支持自定义强大插件,插件还支持热更新
  • 程序剖析插件,一键剖析Python/C/C++/Java/Lua/…项目树或自我剖析
  • 论文阅读、翻译插件,一键解读latex/pdf论文全文并生成摘要
  • Latex全文翻译、润色插件
  • 批量注释生成插件
  • Markdown中英互译插件
  • PDF论文全文翻译功能
  • Arxiv小助手插件,输入arxiv文章url即可一键翻译摘要+下载PDF
  • Latex论文一键校对插件,仿Grammarly对Latex文章进行语法、拼写纠错+输出对照PDF
  • 谷歌学术统合小助手插件,给定任意谷歌学术搜索页面URL,让gpt帮你写relatedworks
  • 互联网信息聚合+GPT插件,一键让GPT从互联网获取信息回答问题
  • 公式/图片/表格显示,可以同时显示公式的tex形式和渲染形式
  • 启动暗色主题,在浏览器url后面添加/?__theme=dark可以切换dark主题
  • 多LLM模型支持,同时被GPT3.5、GPT4、清华ChatGLM2、复旦MOSS伺候的感觉一定会很不错吧?
  • 无需依赖Nvidia Docker runtime环境,只需修改docker-compose.yml即可部署

安装方法

直接运行(Windows, Linux or MacOS)

  1. 下载项目
  2. 配置API_KEY等变量
  3. 根据官方pip源或阿里pip源安装依赖
  4. 运行项目

使用Docker

  • 0. 部署项目的全部能力(包含cuda和latex的大型镜像)
  • 1. 仅ChatGPT + GLM4 + 文心一言+spark等在线模型(推荐大多数人选择)
  • 2. ChatGPT + GLM3 + MOSS + LLAMA2 + 通义千问(需要熟悉Nvidia Docker运行时)

其他部署方法:

  • 使用Sealos一键部署
  • 使用WSL2(Windows Subsystem for Linux 子系统)
  • 在二级网址(如http://localhost/subpath)下运行

高级用法:

自定义新的便捷按钮(学术快捷键)

  • 通过UI中的“界面外观”菜单中的“自定义菜单”添加新的便捷按钮。
  • 在代码中定义,使用任意文本编辑器打开core_functional.py,添加条目即可。

自定义函数插件

  • 编写强大的函数插件来执行任何你想得到的和想不到的任务。
  • 仿照官方提供的模板实现自己的插件功能。

更新动态:

  • 对话保存功能
  • Latex/Arxiv论文翻译功能
  • 虚空终端(从自然语言输入中,理解用户意图+自动调用其他插件)
  • 模块化功能设计
  • 译解其他开源项目
  • 装饰live2d的小功能
  • OpenAI图像生成
  • 基于mermaid的流图、脑图绘制
  • Latex全文校对纠错
  • 语言、主题切换

已知问题:

  • 某些浏览器翻译插件干扰此软件前端的运行
  • 官方Gradio目前有很多兼容性问题,请务必使用requirement.txt安装Gradio

5. TagStudioDev/TagStudio

TagStudio是一款用户导向的文件管理系统,旨在为用户提供自由度和灵活性。它没有专有程序或格式,不会创建大量的辅助文件,也不会对你的文件系统结构进行彻底的改动。

特色功能:

  • 创建以系统目录为中心的库/保险箱。库包含一系列条目:文件表示加上元数据字段。每个条目都表示库目录中的一个文件,并与其位置相关联。
  • 为你的库条目添加元数据,包括:
    • 名称、作者、艺人(单行文本字段)
    • 描述、笔记(多行文本字段)
    • 标签、元标签、内容标签(标签框)
  • 创建包含名称、别名列表和“子标签”列表的丰富标签——这些标签是标签,从中继承值。
  • 根据标签、元数据或文件名搜索条目(使用 filename: <query>
  • 特殊搜索条件,用于未标记/无标签和空/无字段的条目。

TagStudio概念的重点在于:

  • 实现可移植、注重隐私、开放、可扩展且功能丰富的文件组织和重新发现系统。
  • 提供强大的组织方法,尤其是标签组合或“可标记标签”的概念。
  • 创建这样一个系统的实现,可以针对用户在程序外部的动作(修改、移动或重命名文件)保持弹性,同时也不会给用户带来强制性辅助文件或其他要求,让他们更改现有的文件结构和工作流。
  • 支持范围广泛的用户,跨越不同的平台、多用户设置和拥有大型(数十 TB)库的用户。
  • 让该系统看起来也很不错。现在是 2024 年,而不是 1994 年。

这个项目仍在早期阶段,但其目标包括:

  • 即使 TagStudio 作为项目或应用程序失败,我也希望这个想法能在优越的项目中继续存在。上面概述的目标没有提过 TagStudio 一次——TagStudio 是参考目标的。
  • 系统。前端和实现可以有所不同,也应该如此。底层元数据管理系统应该是可以在不同的前端、程序和操作系统之间互操作的。这个标准的实现应该随着开发的进行而稳定下来。这为改进和多样化的客户端、与第三方应用程序集成等打开了大门。
  • 应用程序。如果没有其他功能,TagStudio 这个应用程序将成为这个元数据管理系统的第一个(也是迄今为止唯一一个)实现。它有责任忠实地体现这个想法,并展示用户文件管理中可能的一切。
  • (名称。)我认为它对于应用程序或客户端来说还可以,但对于系统或标准来说没有实际意义。我认为这会随着时间的推移而演变。

6. hydralauncher/hydra

Hydra是一款游戏启动器,拥有其内置的Bittorrent客户端和自行管理的软件包分发搜索器。该启动器由TypeScript(Electron)和Python编写,后者通过使用libtorrent处理洪流系统。

Hydra的主要功能包括:

  • 内置Bittorrent客户端,可用于下载游戏文件。
  • 自行管理的软件包分发搜索器,可扫描和下载软件包文件。
  • 直观的图形用户界面,便于浏览和启动游戏。
  • 对多种游戏格式的支持,包括Steam、GOG和独立游戏发行商。

安装Hydra需要安装Node.js、Yarn、Python 3.9以及设置环境变量(包括SteamGridDB API密钥)。安装完成后,可以使用命令“yarn start”同时启动Electron进程和Bittorrent客户端。

7. zyronon/douyin

仿抖音移动端短视频项目

“douyin-vue” 是一个基于 Vue 技术栈开发的模仿抖音的移动端短视频应用。它使用 Vue3、Vite5 和 Pinia,展现出媲美原生 App 丝滑流畅的体验。数据保存在项目本地,通过拦截 API 并返回本地 JSON 数据模拟后端请求。

该项目的主要特点包括:

  • 仿照抖音的设计和功能,如无限滑动视频、评论点赞和关注等
  • 丝滑流畅的移动端体验,媲美原生 App
  • 最新 Vue 技术栈,包括 Vue3、Vite5 和 Pinia

本项目仅供学习和研究使用,不得用于商业目的。

使用方法:

  • 快速部署至 Vercel:点击提供的按钮即可部署到 Vercel 平台
  • 本地开发:克隆代码,安装依赖,运行开发命令,即可在本地运行

数据来源:

视频数据来源于抖音网红,图片数据来源于小红书公开笔记,均为互联网公开信息。

功能与建议:

该项目仍在开发中,欢迎提出功能建议或提交代码。

许可协议:

该项目采用 GNU 通用公共许可协议 v3.0,详见 LICENSE 文件。

8. chat2db/Chat2DB

Chat2DB是一款由AI驱动的通用SQL客户端和报表工具,集成了ChatGPT功能。它支持多种数据库,包括MySQL、PostgreSQL、Oracle和Redis。使用Chat2DB,用户可以通过自然语言交互与数据库进行交互,并使用AI辅助功能增强数据管理和分析工作流。

该工具具有智能SQL开发功能,允许用户以类似于ChatGPT的方式编写和调试SQL查询。它还提供AI驱动的智能报表,使用户能够生成交互式和可视化的报表,并通过AI辅助功能探索数据。

Chat2DB为开发人员和数据分析人员提供了一套强大的工具,可简化数据管理任务,提高生产力和洞察力。它已开源,欢迎社区贡献者加入。截至目前,该项目在GitHub上已获得超过1.3万颗星,证明了其在开发者社区中的受欢迎程度。

9. Doriandarko/maestro

Maestro是一个Python框架,利用两种AI模型(Opus和Haiku)辅助用户完成任务。Opus负责将任务分解为可管理的子任务,Haiku负责执行这些子任务。Maestro通过为Haiku提供以前子任务的记忆来保持上下文的一致性,并使用Opus整合子任务结果并生成最终输出。它会生成一个详细的交换日志,记录整个任务分解和执行过程,并将其保存为Markdown文件。

Maestro具有以下特点:

  • 使用Opus模型分解目标
  • 使用Haiku模型执行子任务
  • 为Haiku提供内存以保持上下文
  • 使用Opus模型优化子任务结果
  • 生成详细的交换日志
  • 保存交换日志到Markdown文件
  • 使用改进的提示来评估任务完成情况
  • 在处理代码项目时创建代码文件和文件夹

使用Maestro,用户可以快速高效地完成复杂任务。它可以灵活定制,以满足各种需求。

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容