每日Github探索:从MS-DOS到 GPT学术界面,深度神经网络的演变之路

1. microsoft/MS-DOS

该仓库包含 MS-DOS v1.25、v2.0 和 v4.0 的原始源代码与编译二进制文件。这些文件最初于 2014 年 3 月 25 日在计算机历史博物馆公开,现重新发布在此仓库中,以便于查找、在外部著作中引用并供对早期 PC 操作系统感兴趣的人员探索和实验。

仓库中的所有文件均根据根目录中存储的 LICENSE 文件 采用 MIT 许可证 发布。源文件仅供历史参考并保持静态。请 不要 发送建议对源文件进行任何修改的 Pull Request,但可以随时分叉此仓库进行实验。

项目已采用 Microsoft 开源行为准则。有关更多信息,请参阅 行为准则常见问题解答,或通过 opencode@microsoft.com 联系我们以提出其他问题或意见。

2. myshell-ai/OpenVoice

OpenVoice是一款由MyShell开发的语音克隆工具。它可以通过一个声音样本快速而准确地克隆出该声音,并生成多种语言和口音的语音。OpenVoice V1于2023年5月发布,具备以下特点:准确的音色克隆、灵活的语音风格控制和跨语言语音克隆。2024年4月,OpenVoice V2发布,在V1的基础上,改善了音频质量、原生支持多语言,并开放商业免费使用。OpenVoice自发布以来,已被广泛使用,用户已达数千万。它的背后团队成员主要来自麻省理工、清华大学和MyShell。用户可在教程中找到详细的使用指南,常见问题可在文档中找到。加入OpenVoice的Discord社区,即可获得专属开发者渠道,参与讨论和协作。V1和V2均采用MIT许可,可免费用于商业和研究。OpenVoice的实施基于TTS、VITS和VITS2等优秀项目,在此表示感谢。

3. apple/corenet

CoreNet是一个深度神经网络工具包,它允许研究人员和工程师训练标准和新颖的小型和大规模模型,用于包括基础模型(如CLIP和LLM)、对象分类、对象检测和语义分割在内的各种任务。

CoreNet提供了许多功能,包括:

  • 模块化代码库,可轻松添加新模型和数据集。
  • 支持各种任务,包括图像分类、目标检测和语义分割。
  • 使用PyTorch实现,可扩展性和优化性强。
  • 提供针对图像分类、目标检测和语义分割的教程和示例
  • 具有一系列预训练模型,包括CLIP、MobileNet、ResNet和ViT。
  • 正在积极开发中,并定期添加新功能。

CoreNet已用于Apple的各种研究项目,包括:

  • OpenELM:一种高效的语言模型家族,具有开放的训练和推理框架。
  • CatLIP:具有2.7倍更快的基于网络规模图像文本数据预训练的CLIP级视觉识别精度。
  • 数据强化乘倍效应:通过数据集强化提高模型准确率和鲁棒性。
  • CLIP与模型库专家:伪监督视觉增强。
  • FastVit:一种使用结构重新参数化的快速混合视觉Transformer。
  • 字节是您所需要的:直接操作文件字节的Transformer。
  • MobileOne:改进的毫秒级移动骨干网。
  • RangeAugment:使用范围学习的高效在线增强。
  • 移动视觉Transformer的可分离注意力(MobileViTv2)。

CoreNet与CVNets有密切关系,CVNets是其前身。CoreNet扩展了CVNets的功能,以涵盖更广泛的计算机视觉应用之外的范围。这种扩展促进了基础模型的训练,包括LLM。

如果你正在寻找一个用于训练深度神经网络的强大且灵活的工具包,那么CoreNet是一个很好的选择。它正在积极开发中,并得到Apple研究人员的广泛使用。

4. binary-husky/gpt_academic

GPT Academic是一个适用于GPT/GLM等LLM大语言模型的实用化交互接口,它针对学术阅读/润色/写作体验进行了优化。其模块化的设计支持自定义快捷按钮和函数插件,并且可以在Python和C++等项目剖析和自译解中运用。此外,该项目还支持PDF/LaTex论文翻译和总结功能,可以并行问询多种LLM模型,并接入了通义千问、deepseekcoder、讯飞星火、文心一言、llama2、rwkv、claude2、moss等多款模型。

功能亮点:

  • 支持接入百度千帆、文心一言、通义千问、上海AI-Lab书生、讯飞星火、LLaMa2、智谱GLM4、DeepseekCoder等模型。
  • 支持mermaid图像渲染,可让GPT生成流程图、状态转移图、甘特图、饼状图、GitGraph等图形。
  • 提供Arxiv论文精选翻译功能,一键翻译arxiv论文摘要并生成超高质量翻译。
  • 支持实时语音对话输入,异步监听音频,自动断句,自动寻找回答时机。
  • 融入AutoGen多智能体插件,探索多Agent的智能涌现可能。
  • 提供虚空终端插件,能够使用自然语言直接调度本项目其他插件。
  • 提供一键润色、翻译、查找论文语法错误、解释代码等功能。
  • 支持自定义快捷键和函数插件,支持插件热更新。
  • 具有程序剖析功能,一键剖析Python/C/C++/Java/Lua/…项目树或进行自我剖析。
  • 支持读论文、翻译论文,一键解读latex/pdf论文全文并生成摘要。
  • 提供Latex全文翻译、润色功能,一键翻译或润色latex论文。
  • 提供批量注释生成功能,一键批量生成函数注释。
  • 支持Markdown中英互译,可生成多种语言的README。
  • 具备PDF论文全文翻译功能,可提取题目和摘要,并翻译全文(多线程)。
  • 集成Arxiv小助手插件,输入arxiv文章url即可一键翻译摘要和下载PDF。
  • 提供Latex论文一键校对功能,仿照Grammarly对Latex文章进行语法、拼写纠错并输出对照PDF。
  • 提供谷歌学术统合小助手插件,给定任意谷歌学术搜索页面URL,让GPT帮你写relatedworks。
  • 提供互联网信息聚合+GPT功能,一键让GPT从互联网获取信息回答问题,让信息永不过时。
  • 可以同时显示公式的tex形式和渲染形式,支持公式、代码高亮。
  • 提供暗色主题,在浏览器url后面添加/?__theme=dark可以切换dark主题。
  • 支持同时调用多个LLM模型,如GPT3.5、GPT4、清华ChatGLM2、复旦MOSS。
  • 加入Newbing接口(新必应),引入清华Jittorllms支持LLaMA和盘古α。
  • 提供void-terminal pip包,脱离GUI,在Python中直接调用本项目的所有函数插件(开发中)。

安装方法

提供了三种安装方法

方法一:直接运行(Windows, Linux或MacOS)

  1. 下载项目
  2. 配置API_KEY等变量
  3. 安装依赖
  4. 运行

方法二:使用Docker

提供四个部署方案:

  1. 部署项目的全部能力(包含cuda和latex的大型镜像)
  2. 仅部署ChatGPT + GLM4 + 文心一言+spark等在线模型(推荐大多数人选择)
  3. 部署ChatGPT + GLM3 + MOSS + LLAMA2 + 通义千问(需要熟悉Nvidia Docker运行时)
  4. Windows一键运行脚本

方法三:其他部署方法

  1. 使用第三方API、Azure等、文心一言、星火等
  2. 服务器远程部署避坑指南
  3. 在其他平台部署&二级网址部署

高级用法:

  • 自定义新的便捷按钮(学术快捷键)
  • 自定义函数插件

动态更新:

  • 对话保存功能
  • Latex/Arxiv论文翻译功能
  • 虚空终端(从自然语言输入中,理解用户意图+自动调用其他插件)
  • 模块化功能设计
  • 译解其他开源项目
  • 装饰live2d的小功能(默认关闭,需要修改config.py)
  • OpenAI图像生成
  • 基于mermaid的流图、脑图绘制
  • Latex全文校对纠错
  • 语言、主题切换

已知问题:

  • 某些浏览器翻译插件干扰此软件前端的运行
  • 官方Gradio目前有很多兼容性问题,请务必使用requirement.txt安装Gradio

参考与学习:

本项目代码参考了以下优秀项目:

  • 清华ChatGLM2-6B
  • 清华JittorLLMs
  • ChatPaper
  • Edge-GPT
  • ChuanhuChatGPT
  • Oobabooga one-click installers
  • Gradio
  • live2d_demo

5. TagStudioDev/TagStudio

TagStudio 是一款文件和照片管理应用程序及系统。它旨在向用户提供自由灵活的文件管理体验,支持各种平台且隐私友好。其核心特色包括:

  • **可扩展、可组合标签:**用户可创建包含别名和子标签的丰富标签,并将其组成多级标签管理体系。
  • **元数据管理:**记录文件名称、作者、描述、标签等元数据,并可根据元数据、文件名、标签进行搜索。
  • **灵活组织:**以目录中心创建文件库,并通过添加元数据进行组织。TagStudio支持创建用户自定义元数据字段,并根据不同标准建立文件分组。
  • **多用户协作:**未来版本中将提供对多个同时用户和客户端的支持。
  • **便携性与开放性:**不使用专有格式,也不依赖外部软件或侧边车文件。未来将设计出可互操作的标准,以实现不同前端和操作系统之间的兼容性。
  • **用户体验:**现代化的界面,易于使用,满足用户对文件管理的需求。

目前TagStudio仍处于Alpha阶段,正在积极开发中。优先级特性包括改进搜索、标签管理、批量元数据应用、标签基于文件夹自动应用、更好的文件库视图、更稳定的缩略图缓存、集合等。未来特性将包括多用户支持、云端集成、本地ML标签建议、移动版本等。

TagStudio旨在成为一个用户中心的文件管理系统,注重用户体验、隐私保护、可扩展性和开放性,最终目标是提供一个强大的文件管理工具,满足不同用户跨平台、多设备的各种需求。

6. hydralauncher/hydra

Hydra是一款带有内置BitTorrent客户端和自管理重装程序爬取器的游戏启动器。它采用TypeScript(Electron)和Python编写,其中利用libtorrent处理种子下载系统。Hydra可以通过安装Node.js、Yarn、Python和依赖项来轻松安装。你还需要SteamGridDB API密钥以获取安装时的游戏图标。此外,你可以通过配置.env文件添加你的Onlinefix凭证以获取更多功能。

启动时,Hydra会在一个窗口中运行Electron进程和一个单独的BitTorrent客户端进程。它还具备构建BitTorrent客户端和Electron应用程序的指令。值得注意的是,Hydra拥有一个活跃的贡献者社区,并且根据MIT开源许可证分发。Hydra旨在创建一个便捷易用的游戏启动器,并提供下载和安装游戏的强大功能。它是一个开源项目,欢迎用户参与贡献和改进。

7. zyronon/douyin

“抖音-Vue”项目是一个移动端短视频应用,旨在模仿抖音(TikTok)。它采用了Vue 3、Vite 5和Pinia等最新技术,提供了流畅的类原生应用体验。该项目使用axios-mock-adapter模拟后端请求,数据存储在本地。

本项目还提供了多种在线访问方式,包括Github、Gitee、Netlify和Vercel等平台。它支持快速部署至Vercel和Docker,并可通过Git命令在本地开发。

项目目前处于开发初期,新功能正在持续添加中。开发者欢迎用户提出功能建议和提交PR。

项目的视频数据来自抖音网红,图片数据来自小红书公开笔记。所有内容均为互联网公开信息。

“抖音-Vue”项目遵循GPL许可协议,欢迎用户联系开发者邮箱提出反馈和建议,并分享其他开源项目,如Typing Word和Web Scripts。

8. chat2db/Chat2DB

Chat2DB是一个功能强大的通用SQL客户端兼报告工具,集成了ChatGPT功能,为超过100万开发者提供支持。

主要功能:

  • AI驱动的智能SQL开发,提供代码提示、语法检查和错误修复等功能。
  • AI驱动的智能报告,生成清晰易懂的数据洞察和可视化结果。
  • AI驱动的数据探索,帮助用户快速查询、分析和共享数据。

支持的数据库

  • MySQL
  • PostgreSQL
  • Oracle
  • SQLServer
  • SQLite
  • MariaDB
  • MongoDB
  • Redis

安装与使用:

从官方网站下载安装包,双击安装后即可使用Chat2DB。有关使用指南,请参阅快速入门指南。

贡献与交流:

欢迎社区成员贡献Chat2DB项目,您可以通过报告问题、提出新功能或直接提交代码修复和改进来参与。

在微信或Discord上加入Chat2DB社区,与其他用户交流,获取最新更新和支持。

许可证:

Chat2DB采用Apache 2.0许可证和Chat2DB许可证。

9. Doriandarko/maestro

Maestro是一个Python框架,使Claude Opus、GPT和本地语言模型(LLM)能够智能地协调子代理,实现复杂任务。

该框架的工作流程如下:

  1. 使用Opus模型将目标分解为可管理的子任务。
  2. 使用Haiku模型执行每个子任务。
  3. 利用Opus模型将子任务结果提炼成最终输出。
  4. 将整个任务分解和执行过程记录在详尽的交换记录中。

Maestro的主要特点包括:

  • 细致的交互式控制台界面
  • 强大的人工智能辅助,可在每个阶段提供支持
  • 生成代码文件和文件夹(适用于代码项目)

要运行Maestro,需要满足以下先决条件:

  • 安装Python
  • Anthropic API密钥
  • 必备Python包:anthropicrich

安装和使用步骤:

  1. 克隆仓库或下载脚本文件。
  2. 安装所需的Python包。
  3. 替换脚本中的占位符API密钥。
  4. 打开终端或命令提示符,导航到脚本所在目录。
  5. 运行脚本并输入您的目标。

脚本将指导您完成任务分解和执行过程,并将结果显示在控制台中。完成后,它会生成一个包含完整交换记录的Markdown文件。

该框架具有高度的可定制性,允许用户调整模型、控制输出格式和修改日志记录行为。它还支持本地运行,并可以通过添加新的功能进行扩展,从而使其成为任务自动化和协作的强大工具。

10. iperov/DeepFaceLive

DeepFaceLive 屏幕实时换脸工具

DeepFaceLive 是一个用于 PC 流媒体或视频通话的实时换脸工具。它可以使用训练过的模型从网络摄像头或视频中替换脸部。

可用的公用模型包括:基努·里维斯、艾琳娜·阿尔蒂、米莉·帕克、罗布·多伊、杰西·斯塔特、布莱恩·格雷诺兹、憨豆先生、伊万·斯派斯、纳塔莎·福默、艾米莉·温斯顿、阿娃·德·阿达里奥、迪丽热巴·迪力木拉提、玛蒂尔达·鲍比、约哈娜·科拉尔森、安珀·宋、金·贾雷、大卫·科瓦尔尼、成龙、尼科拉·巴奇、小丑、迪安·威塞尔、西尔万·斯蒂尔沃恩、蒂姆·克莱斯、扎哈尔·鲁平、蒂姆·诺兰、娜塔莉·法特曼、刘丽丝、阿尔比卡·约翰斯、梅吉·默克尔、蒂娜·希夫特。

如果你需要更高质量或更好的换脸效果,可以使用 DeepFaceLab 训练自己的模型。

除了换脸,DeepFaceLive 还具有视频换脸和面部动画功能:

  • 视频换脸:使用单张照片从网络摄像头或视频中替换脸部。
  • 面部动画:使用视频或摄像头表情控制静态人脸图片。

系统要求:

  • 任何兼容 DirectX12 的显卡(推荐 RTX 2070+ / Radeon RX 5700 XT+)
  • 支持 AVX 指令的现代 CPU
  • 4GB 内存,32GB+ 页文件
  • Windows 10

有关使用说明和问题的解答,请查阅文档。

可以通过 Discord、Mrdeepfakes 社区、Dfldata.cc 以及 QQ 群 124500433 参与交流。

支持本项目:训练自己的模型并分享在 Discord 上,注册 GitHub 账号并点击“Star”按钮,或通过 Paypal、Yoomoney 或比特币进行捐赠。

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容